相关与回归分析实验心得体会4篇相关与回归分析实验心得体会 统计学实验报告总结(共3篇) 为期半个学期的统计学实验就要结束了,这段以来我们主要通过excl软件对一些数据进行处理,比如抽样分析,方下面是小编为大家整理的相关与回归分析实验心得体会4篇,供大家参考。
篇一:相关与回归分析实验心得体会
学实验报告总结(共 3 篇)为期半个学期的统计学实验就要结束了,这段以来我们主要通过 excl 软件对一些数据进行处理,比如抽样分析,方差分析等。经过这段时间的学习我学到了很多,掌握了很多应用软件方面的知识,真正地学与实践相结合,加深知识掌握的同时也锻炼了操作能力,回顾整个学习过程我也有很多体会。
统计学是比较难的一个学科,作为工商专业的一名学生,统计学对于我们又是相当的重要。因此,每次实验课我都坚持按时到实验室,试验期间认真听老师讲解,看老师操作,然后自己独立操作数遍,不懂的问题会请教老师和同学,有时也跟同学商量找到更好的解决方法。几次实验课下来,我感觉我的能力确实提高了不少。
统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。可见统计学的重要性,认真学习显得相当必要,为以后进入社会有更好的竞争力,也为多掌握一门学科,对自己对社会都有好处。
几次的实验课,我每次都有不一样的体会。个人是理科出来的,对这种数理类的课程本来就很感兴趣,经过
书本知识的学习和实验的实践操作更加加深了我的兴趣。每次做实验后回来,我还会不定时再独立操作几次为了不忘记操作方法,这样做可以加深我的记忆。根据
记忆曲线的理论,学而时习之才能保证对知识和技能的真正以及掌握更久的掌握。就拿最近一次实验来说吧,我们做的是“平均发展速度”的问题,这是个比较容易的问题,但是放到软件上进行操作就会变得麻烦,书本上只是直接给我们列出了公式,但是对于其中的原理和意义我了解的还不够多,在做实验的时候难免会有很多问题。不奇怪的是这次试验好多人也都是不明白,操作不好,不像以前几次试验老师讲完我们就差不多掌握了,但是这次似乎遇到了大麻烦,因为内容比较多又是一些没接触过的东西。我个人感觉最有挑战性也最有意思的就是编辑公式,这个东西必须认真听认真看,稍微走神就会什么都不知道,很显然刚开始我是遇到了麻烦。还好在老师的再次讲解下我终于大致明白了。回到寝室立马独自专研了好久,到现在才算没什么问题了。
实验的时间是有限的,对于一个文科专业来说,能有操作的机会不是很多,而真正利用好这些难得的机会,对我们的大学生涯有很大意义。不仅是学习上,能掌握具体的应用方法,我感觉更大的意义是对以后人生路的作用。我们每天都在学习理论,久而久之就会变成书呆子,问什么都知道,但是要求做一次就傻了眼。这肯定是教育制度的问题
和学校的设施问题,但是如果我们能利用好很少的机会去锻炼自己,得到的好处会大于他自身的价值很多倍。例如在实验过程中如果我们要做出好的结果,就必须要有专业的统计人才和认真严肃的工作态度。这就在我们的实践工作中,不知觉中知道一丝不苟的真正内涵。以后的工作学习我们再把这些应用于工作学习,肯定会很少被挫
折和浮躁打败,因为统计的实验已经告知我们只有专心致志方能做出好的结果,方能正确的做好一件事。
最后感谢老师的耐心指导,教会我们知识也教会我们操作,老师总是最无私最和蔼的人,我一定努力学习,用自己最大的努力去回报。
统计学实验报告与心得体会
班级:
姓名:
学号:
成绩:
一 实验报告
成绩:
实验一 数据的搜集与整理
实验目的和要求
培养学生处理数据的基本能力,熟悉 Excel2003的基本操作界面,熟悉间接和直接数据的搜集方法,掌握不同类型的数据处理方法,以及数据的编码、分类、筛选、排序等整理操作的方法。
实验步骤
1、 数据的搜集:确定数据
2、数据的编码:
如果数据是由开放式的问题来获取的,那么,需要对答案进行罗列、合并、设码三个过程来完成编码工作。
3、数据的录入:Excel 的数据录入操作比较简单,一般只要在工作表中,单击激活一个单元格就可以录入数据了。通过“格式-单元格格式”菜单来实现数据的完整性。
4、数据文件的导入:导入的方法有二,一是使用“文件-打开”菜单,二是使用“数据-导入外部数据-导入数据”菜单,两者都是打开导入向导,按向导一步步完成对数据文件的导入。
5、数据的筛选:Excel 中提供了两种数据的筛选操作,即“自动筛选”和“高级筛选”。
6、数据的排序:在选中需排序区域数据后,点击“升序排列”工具按钮,数据将按升序快速排列
7、数据文件的保存:保存经过初步处理的 Excel数据文件。可以使用“保存”工具按钮,或者“文件-保存”菜单,还可以使用“文件-另存为”菜单。
实验二 描述数据的图标方法
实验目的和要求
通过软件辅助,将数据转换为直观的统计表和生动形象的统计图,掌握 Excel 的制图和制表功能,并能准确地很据不同对象的特点加以运用。
实验步骤
利用 Frequency 函数获取频数频率:1、将数据输
入并激活分别符合条件的单元格。2、打开“插入函数”对话框,选择函数。3、点击“插入函数”对话框确定按钮进入“函数参数”对话框,选中符合条件的对话框。4、使用组合键“Ctrl+Shift+Enter”,得到频数,返回结果。5、对结果进行修饰,加入分组标志及其值,再加入频数具体名称,并且计算频数。
利用直方图:1、将数据输入到指定单元格。2、使用“工具——数据分析”菜单,选择“直方图”。3、进入“直方图”分析工具库,选中复选框。4、单击确定按
钮,得到直方图分析工具扩展函数的返回结果。5、对结果进行修饰。
实验三 统计数据的描述
实验目的及要求
应用统计软件,描述统计数据的集中趋势、离散程度、分布偏态。掌握 Excel003 中描述统计指标对应的函数,包括算数平均数、调和平均数、几何平均数、众数、中位数、标准差、方差等。.熟练掌握 Excel003“描述统计”工具进行描述统计。
实验步骤
掌握一些常用的使用函数。就 Average 函数进行举例,计算参数的算术平均值,简单算术平均数:1、直接将数据输入到符合条件的单元格。2、然后激活一个空白单
元格,输入公式“=AVERAGE”,回车返回结果;加权算术平均数,Excel 没有提供专门的内置函数,1、可先计算各组的组中值,作为该组一般代表 2、激活一空白单元格,输入相关公式,回车返回结果。
“描述统计”分析工具扩展函数:1、使用“工具——数据分析”菜单,打开“数据分析”对话框,从分析工具下框中选择“描述统计”。2、点击数据分析对话框的确定按钮进入“描述统计”对话框,输入区域点击右侧箭头,选择需要分析描述统计结果的数据。3、点击描述统计对话框确定按钮,得到描述统计结果。
实验四
参数估计
实验目的和要求
应用统计软件,完成抽样的工作,并且在抽样数据获取的基础上,计算样本统计量,对对应总体参数进行区间估计。了解抽样组织形式以及如何抽取样本数据,掌握Excel2003 中应用函数表单进行参数估计的方法和步骤。
实验步骤
“抽样”分析工具将输入区域视为总体,并使用总体来建立样本。1、使用“工具——数据分析”菜单打开“数据分析”对话框,选择“抽样”,并将其打开。2、点击输入区域右侧的箭头,鼠标拖动选择单元格。3、点击“抽样”对话框的确定按钮,返回结果。
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值
区间估计:1、选中单元格,使用“插入——名称——指定”菜单,打开“指定名称”,选择“首行”,点击确定。2、构建函数表单框架。3、输入框架下对应的数据和函数公式。
实验五
假设检验
实验目的与要求
了解不同假设检验内容要求的不同检验统计量和检验方法;掌握利用函数表单进行假设检验的方法和步骤;掌握 Excel003 中应用分析工具库进行假设检验的方法和步骤。
实验步骤
1、创建样本数据,确定需进行假设检验的总体参数 2、确定抽样样本统计量及其服从的分布 3、进行假设设计 4、确定置信水平 5、计算检验统计量 6、计算置信水平下的检验区间 7、比较检验统计量与检验区间 ,得出结论。
实验六
方差分析
实验目的与要求
应用统计软件,对数据进行单因素饭方差分析和
双因素方差分析。了解方差分析的假设前提,掌握 Excel003中应用分析工具库进行方差分析的方法和步骤。
实验步骤
单因素方差分
1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:单因素方差分析”分析工具,点击确定按钮打开“方差分析:单因素方差分析”对话框。
2、输入区域点击右侧箭头,选择单元格。3、分组方式选择“列”单选框。4、点击“方差分析:单因素方差分析”对话框确定按钮,返回结果。
双因素方差分析
1、使用“工具——数据分析”打开数据分析对话框,选择“方差分析:无重复双因素方差分析”分析工具,点击确定按钮打开“方差分析:无重复双因素方差分析”对话框。2、输入区域点击右侧箭头,选择单元格。3、分组方式选择“标志”复选框。4、点击“方差分析:无重复双因素方差分析”对话框确定按钮,返回结果。
二 心得体会
成绩:
统计学实验心得体会
某生产车间 30 名工人的日产零件数如下,试对其一组距为 10 进
一个学期的实训不知不觉的就这样过去了,在这里不敢说自己学到很多的东西,但我真的懂得了很多,也在其中明白了很多。在这学期的统计学实验学习中,我加深了对统计学原理的学习,以及对数据知识的理解和掌握,同时也对 Excel 操作软件的应用有了更深刻的了解,巩固了所学知识,拓展了知识面。结合以上的数据分析,以下是我这几次实验的一些心得和体会。
在统计实验中,对数据的筛选和处理是比较重要的内容和要求。同时对数据的分析也离不开相关软件的支持。比如,要求一个企业 30 名职工的日生产零件数,就要对数据进行导入、分析、筛选,最后得出答案。因此,Excel软件是实
验所不可缺少的。例如,假设样本取自 30 名职工的日生产零件数,他们的平均生产数是 123.1333,总体标准偏差为 11.16563,则平均生产数在下列区域内的置信度为 95%。。实验主要是对数据进行归类分析,所以完整准确的数据很重要,这就要求我们在进行分析的过程中,不能粗心大意。比如,生产车间 30 名工人的日生产零件数分别为 148、116、128、125、129、140、109、123、137、119、127、132、114、
107、124、120、135、108、113、130、110、129、132、123、118、104、123、124、140、107,计算 30 名工人的平均生产数。这就要注意将 30 个数据顺次输入 A1 至 A30 单元格,然后必须确认激活一个空白单元格,最后输入公式“=Geomean”,回车返回结果为 123.1333。这个例子其实就告诉我们一定要认真地做好每一步,否则就会出错。实验过程中,对 Excel 软件的安装因要求具体而变的相对简单。虽然大多数计算机都已内存此软件,但在实验中通过具体的操作亦可以提高自己的计算机操作水平。接下来的重头戏就是对统计数据的输入与分析了。按 Excel 对输入数据的要求将数据正确输入的过程并不轻松,既要细心又要用心。不仅仅是仔细的输入一组数据就可以,还要考虑到整个数据模型的要求,合理而正确的分配和输入数据。因此,输入正确的数据也就成为了整个统计实验的基础。假设某 5 名工人的生产数为 A1=148,A2=116,A3=128,A4=125,A5=129,则计算所有生产零件数的标准偏差公式为:“=STDEVO”,返回的结果。
通过统计学实验课的学习,培养了我处理数据的基本能力,熟悉了利用 Excel 搜集和整理数据,掌握了不同类型的数据整理与操作方法;基本学会了 Excel 的统计制图与制表功能;熟悉了描述统计指标对应的函数,应用统计软件,描述统计数据的集中趋势、离散程度,分布偏态以及峰
度等分布特征;了解了抽样组织形式以及如何抽取样本数据,掌握了应用函数表单进行参数估计的方法和步骤;知道了不同假设检验内容要求的不同检验统计量和检验方法,基本懂得 Excel 中应用函数表单和分析工具库进行假设检验的方法和步骤;可以应用统计软件,对数据进行单因素方差和双因素方差分析、相关和回归分析、时间序列分析。就拿回归来说,示例 a=471.4365524,b=3.616534,c=3.432346.所以回归方程为 Y=471.4365524+3.616534X1+3.432346X2。判定系数为 0.99889,自由度为 6,检验统计量为 2719.982 等。
数据的输入很重要,但如果没有分析的数据则是一点意义都没有实验过程中,在确认 Excel 安装设置成功的前提下,首先进行的就是对统计数据的输入与分析。因此,统计数据的描述与分析也就成了关键的关键。对统计数据的众数,中位数,均值的描述可以让我们对其有一个初步的印象和大体的了解,在此基础上的概率分析,抽样...
篇二:相关与回归分析实验心得体会
计学实验报告学
号:
姓
名:
专
业:
工商管理 班
级:
101 指导教师:
吴风庆
实验(
三
)
实验题目 相关与回归分析 实验地点 商学实验中心 207 实验日期 2012-5-9 实验目的:
1. 掌握相关分析 2. 掌握回归模型的建立 3.掌握时间序列中移动平均、指数平滑与趋势测定的方法
实验环境 Windows XP 系统
Excel 统计软件
:
实验步骤及结果分析:
(一)
1. 加载宏
2. 回归分析 输入数据
3. 回归分析数据 结果
4.1.Multiple R 为相关系数;R Square 数 为判定系数 R 2 =1- SSE/SST=SSR/SST, 也称拟合优度,反映整体的拟合情况;得 计算得 R 2 =0.632151 说明在出租率 Y 的变动中,能被每平方米租为 金多少的回归方程解释的比例为 0.632151. 。Adjusted R Square 为调整后的判定系数 R2 。。
与 其意义与 R 2 类似.
2. 上表中的方差分析是指在回归分析中利用方差分析的思想进行显著性检验,其原假设是 H 0 :线性关系不显著 。析 回归分析 SS 是指回归平方和 2 ) ˆ ( R1 niiy y SS 差 ;残差 SS 是指残差平方和 和 SSE= niiy y1) ˆ(2 析 回归分析 MS=SSR/k; 残差 MS=SSE/(n-k-1), 其中 k n-k-1 分别为 SSR SSE 的自由度(df)
)
3. 检验统计量 F = (SSR/k)/(SSE/(n-k-1))~F( k, n-k-1). 4. 上表中的 Coefficients 列指系数,其中 Intercept 为截距,X Variable 1 为自变量;标准误差 指 回 归 系 数 的 标 准 误 差 , 其 中 :0S =
S
212) ( / ) ( / 1 niix x x n ;
niix x S S12) ( /1; ; t Sta 为 各 系 数 的 回 归 检 验 统 计 量 。
其 中00ˆ0ˆˆtS ,11ˆ1ˆˆSt ;Lower 95% ,Upper 95% 为区间估计中各回归系数的置信上限和置信下限,区间估计公式为:
) 2 ( tˆ20 nS
212) ( / ) ( / 1 niix x x n ;) 2 (ˆ21 n t niix x S12) ( /
5. 由上表知 调整后的判定系数 R 611715 . 0Rˆ2 ;F 统计量为 30.93318. 回归系数 T 的统计量12.96.5.56. 都显著。
(二)(1 )做散点图 a. 选择作图类型
b. 输入数据
C 确定标题
d 结果输出
由图可知人均消费水平随着人均国内生产总值的增加大体也增加所以人均消费水平与国内生产总值是正线性相关。
( (2 )相关系数
人均国内生产总值 人均消费水平 人均国内生产总值 1
人均消费水平 0.97964111 1 由表可知人均国内生产总值与人均消费水平的相关系数为 0,97964111,又 r 的绝对值越接近 1,表明 x与 y 的线性相关程度越密切。所以人均国内生产总值与人均消费水平的相关程度大。
( (3 )
人 均 消 费 水 平 与 国 内 生 产 总 值 的 回 归 方 程 为 x y 297415 . 0 7101 . 724 ˆ 回 归 系 数表示 297415 . 0ˆ 1 人均国内生产总值每增加加 一元,人均消费水平增加 0.297415; 7101 . 724ˆ 0 为 表示即使在人均国内生产总值为 0 的情况下,人均消费水平平均为 724.7101. 4. R 2 =0.959697 说明在人均消费水平Y 的变动中,有95.9697% 是由 国内人均生产总值决定的。可见人均消费水平与人均国内生产总值之间有较强的线性关系,回归直线的拟合程度较高。
5. 第一步:提出假设。H 0 :1 =0(y 不随 x 的变化而线性变化)
1H : 01 (l 两个变量之间的线性关系显著 ) 第二步:计算检验统计量 F.
F=21 nSSESSR=MSEMSR=214.31
第三步:作出决策。将回归方差分析表中的 P 值与跟定的显著性水平α =-0.05 进行比较,由于P 值 =1.39 7 -10 《α
=0, 。
05 ,所以拒绝原假设。
6 ,由回归方程 x y 297415 . 0 7101 . 724 ˆ
所以将 x=5000 带入的 2211.7851 ,所以当某地区均 的人均 GDP 为 为 5000 元时,其人均消费水平为 2211.7851.
7. Lower 95% ,Upper 95% 为区间估计中各回归系数的置信上限和置信下限,区间 估 计 公 式 为 :
) 2 ( tˆ20 nS
212) ( / ) ( / 1 niix x x n ;) 2 (ˆ21 n t niix x S12) ( /
为 所以置信区间的下线为 y=-289.461+0.251457 ×5000 =967.824
置信区间的下限为 y=1738.881 +0.343374 ×5000 =3455.751
均 所以当人均 GDP 为 为 5000 元时,在 95% 的置信水平下的置信区间为(967.824 ,3455.751
)
)
( 三) 1. 在“工具”菜单中选择“数据分析”选项,从其“分析工具”列表中选择“移动平均”
2. 数据输入
3. 三项移动平均 结果输出
4 ,三项移动平均与五项移动平均对比结果
D F 列为移动的误差平方本例中 3 期移动的 MSE 为 27.0267、五期移动的 MSE 为 58.77241
所以三期的移动平均的效果优于 五期。
5 、第一步 在“工具”菜单中选择“数据分析”选项,从其“分析工具”列表中选择“指数平滑”
2 输入数据
3. 结果 α=0.3
为 预测结果为 511.2333 α=0.8
为 预测结果为 598.0981
4. 参数的最小二乘估计------- 回归模型的估计 图像结果
的 上表中的 Coefficients 列指系数,其中 Intercept 为截距,X Variable 1 为自变量; 所以人均消费水平与国内生产总值的回归方程为 x y 38 . 25 7 . 50450 ˆ
当 当 x=2012 则 则yˆ=613.86
考核结果
教师签名
年
月
日
篇三:相关与回归分析实验心得体会
验报告六实验名称:SPSS 的相关分析和回归分析
实验名称:
SPSS 的相关分析和回归分析 实验时间:
2017 年 6 月 10 日 小组合作:
是
否 小组成员:
一、 实验目的:
1. 掌握散点图的含义,熟练掌握绘制散点图的具体操作。
2. 理解 Pearson 简单相关系数、Spearman 等级相关系数、Kendall 相关系数的基本原理,熟练掌握计算各种相关系数的具体操作,能够读懂分析结果。
3. 理解偏相关分析的主要目标以及与相关分析之间的关系,熟练掌握偏相关分析的具体操作,能够读懂分析结果。
4. 熟练掌握线性回归分析的具体操作,能够读懂基本分析结果,掌握计算结果之间的数量关系,并能够写出回归方程,对回归方程进行各种统计检验。
5. 了解多元线性回归分析中自变量筛选的主要策略,能够结合筛选策略对相应的分析结果进行说明。
6. 了解 SPSS 残差分析和多重共线性检测的基本操作,并能够解释分析结果。
二、实验数据及使用软件模块:
实验数据见具体题目。
软件模块:【分析:相关】、【回归:线性、曲线估计】。
三、 数据处理过程:
1. 对 对 15 家商业企业进行客户满意度调查,同时聘请相关专家对这 15 家企业的综合竞争力进行评分,结果如下表。家企业的综合竞争力进行评分,结果如下表。
编号客户满意度得分 综合竞争力得分 编号 客户满意度得分 综合竞争力得分 1 90 70 9 10 60 2 100 80 10 20 30 3 150 150 11 80 100 4 130 140 12 70 110 5 120 90 13 30 10 6 110 120 14 50 40 7 40 20 15 60 50 8 140 130
这些数据能否说明企业的客户满意度与其综合竞争力存在较强的正相关关系?为什么?这些数据能否说明企业的客户满意度与其综合竞争力存在较强的正相关关系?为什么? 答:(1)先将以上数据输入 SPSS 中,再对其进行相关性分析。
(2)【分析】→【相关】→【双变量】,在“变量”里选择客户满意度得分和综合竞争力得分,在“相关系数”中选择 Pearson,在“显著性检验”中选择双侧检验,并选择标记显著性相关,得到分析结果。
(3)由上表可知,客户满意程度得分和综合竞争力的相关系数为 0.864,并且大于 0.8,所以客户满意度与其综合竞争力存在较强的正相关关系。而且由表看出,在 0.864 上有两个星号,表示显著性水平 a=0.01 时拒绝原假设,认为两个总体有较强的相关性,所以,客户满意度与其综合竞争力存在较强的正相关关系。
2. 下表为四川绵阳地区 3 年生中山柏的数据。
月份 生长量( (cm)
)月平均气温(℃)
月降水量( (mm)
)月平均日照时数(h)
)月平均相对湿度(%)
)1 0.01 4.2 17 54.5 81 2 0.5 7.4 10.8 73.8 79 3 1.5 10 17.4 84.7 75 4 10.8 16.1 19.7 137 75 5 13 21.1 248.7 149.6 77 6 16.3 23.9 72.2 109.5 79 7 18 24.7 96.9 101.6 83 8 19.3 24.5 269.5 164.6 86 9 14.8 22 194.8 81.6 83 10 10.3 18 58.1 84 82 11 8 13.1 4.9 79.3 81 12 1 6.8 12.6 66.5 82 ( (1)绘制生长量、月平均气温、月降水量、月平均日照时数及月平均湿度两两变量间的散点图。)绘制生长量、月平均气温、月降水量、月平均日照时数及月平均湿度两两变量间的散点图。
答:①先将以上数据输入 SPSS 中,再对其进行相关性分析。
②【图形】→【旧对话框】→【散点/点状】,选择矩阵分布,在矩阵变量中填入变量,得到散点图。
( (2 )选择恰当的统计方法分析月生长量与这 4 个气候因素的相关关系,给出相应的排序。个气候因素的相关关系,给出相应的排序。
答:①【分析】→【相关】→【双变量】,在“变量”里选择生长量、月平均气温、月降水量、月平均日照时数、月平均相对湿度,在“相关系数”中选择 Pearson,在“显著性检验”中选择双侧检验,并选择标记显著性相关,得到分析结果。
②由上表可知,生长量和月平均气温之间的相关系数为 0.983,生长量和月降水量之间的相关系数为 0.709,生长量和月平均日照时数之间的相关系数为 0.704,生长量和月平均相对湿度之间的相关系数为 0.374,所以生长量与其他四者之间的相关关系从大到小排列为:月平均气温 > 月降水量 > 月平均日照时数 > 月平均湿度。3. 请说明线性回归分析与相关分析有怎样的联系。
答:相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。①相关分析需要依靠回归分析来表现变量之间相关的具体形式。相关分析只研究变量之间相关的方向和程度,不能推断变量之间的相关关系的数字表达式,也无法用一个变量来预测另一个变量,所以,需要依靠回归分析来表现变量之间相关关系的数学表达式。
②回归分析需要依靠相关分析来表现数量变化的相关程度。只有当变量间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向程度做出正确判断之前,就进行回归分析,容易造成“虚假回归”。
因此,在具体与应用中,只有把相关分析和回归分析相结合,才能达到研究和分析的目的。
4. 利用“ 学生成绩一.sav” 和“ 学生成绩二.sav”横向合并(以学号为关键变量)后的数据文件,绘制全部样本以及不同性别任意两门课程成绩的散点图,并在图上绘制三条回归直线。其中,第一条针对全体样本,第二条、第三条分别针对男生样本和女生样本。横向合并(以学号为关键变量)后的数据文件,绘制全部样本以及不同性别任意两门课程成绩的散点图,并在图上绘制三条回归直线。其中,第一条针对全体样本,第二条、第三条分别针对男生样本和女生样本。
答:(1)打开“学生成绩一.sav”和“学生成绩二.sav”横向合并的文件“合并学生成绩”数据。
(2)【图形】→【图表构建程序】,选择散点图里的分组散点图,选择行变量和列变量并设置颜色,得到散点图。
(3)双击已经得到的散点图 ,选择【元素】→【总计拟合线】,在拟合线里选择线性,得到针对全体样本的回归直线,然后选择【元素】→【子组拟合线】,在拟合线里选择线性,分别得到针对男生样本和女生样本的回归直线 。
5.现收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用多元线性回归分析,分析影响粮食总产量的主要因素。数据文件名为现收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用多元线性回归分析,分析影响粮食总产量的主要因素。数据文件名为“粮食总产量粮食总产量.sav” 。
答:(1)打开“粮食总产量”数据。
(2)【分析】→【回归】→【线性】,选择因变量和自变量,得到分析结果。
(3)分析:由分析结果可知,粮食播种面积的相关系数为-0.144,总播种面积的相关系数为 2.442,施用化肥总量的相关系数为 132.136,风灾面积的相关系数为-231.672,农业劳动人数的相关系数为 47.422,所以,施用化肥量和农业劳动人数的相关系数远大于其他因素,所以施用化肥量和农业劳动人数是影响粮食总产量的主要因素。
6.在 一家产品销售公司在 30 个地区设有销售分公司。为研究产品销售量(y)与该公司的销售价格()与该公司的销售价格(x1 )、各地区的年人均收入(x2 )、广告投放费用(x3)之间的关系,收集到)之间的关系,收集到 30 个地区的有关数据。进行多元线性回归分析所得的部分分析结果如下:
模型 平方和 df 均方 F Sig. 回归 12026774.1 3 4 008 924.7 0.11866192 8.883 41E-13残差 1431812.6 26 55069.7154
总计 13 458 586.7 29 464089.197
非标准化系数 t Sig. B 标准 误差 常亮 7 589.102 5 2 445.021 3 3.103 9 0.004 57 x1 -117.886 1 31.897 4 -3.695 8 0.001 03 x2 80.610 7 14.767 6 5.458 6 0.000 01 x3 0.501 2 0.125 9 3.981 4 0.000 49 ( (1 )将第一张表格的空缺数值补奇。
答:(1)补齐数据为上图红色字体。
回归的自由度=p=3 残差的自由度=n-p-1=30-3-1=26 回归的平方和=均方* p=4 008 924.7*3=12026774.1 残差的平方和=总计的平方和-回归的平方和 =13 458 586.7-12026774.1=1431812.6
残差的均方=平方和/自由度=1431812.6/26=55069.7154 总计的均方=平方和/自由度=13 458 586.7/29=464089.197 F 统计量=残差的均方/总计的均方=55069.7154/464089.197=0.11866192 ( (2)写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。)写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。
答:多元线性回归方程为:Y=-117.8861X 1 +80.6017X 2 +0.5012X 3 +7589.1025 ①-117.8861 表示销售价格越高,销售量越低,销售价格与销售量呈负相关,X 1抑制了 Y 的增长。
②80.6017 表示各地区的年人均收入越高,销售量越高,各地区的年人均收入与销售量呈正相关关系。
③0.5012 表示广告投放费用越高,销售量越高,广告投放费用与销售量呈正相关关系。
( (3 )检验回归方程的线性关系是否显著。
答:由上表可知,回归方程的显著性检验值为 8.883 41E-13,假设给定的显著性水平为 0.05,8.883 41E-13 小于 0.05,所以拒绝原假设,认为回归方程的线性关系是显著的。
( (4 )检验各回归系数是否显著。
答:由上表可知,常量的显著性水平为 0.004 57,X 1 的显著性水平为 0.001 03,X 2 的显著性水平为 0.000 01,X 3 的显著性水平为 0.000 49,假设给定的显著性水平为 0.05,常量、X 1 、X 2
、X 3 的显著性水平均小于 0.05,所以拒绝原假设,认为各回归系数都是显著的。
( (5 )计算判定系数,并解释它的实际意义。
答:判定系数=回归平方和/总计平方和=12026774.1/13 458 586.7=0.89361345 实际意义:产品销售量的总误差中有 89.361345%可以用销售价格(X 1 )、各地区的年人均收入(X 2 )、广告投放费用(X 3 )来解释,只有 10.638655%属于随机因素的影响,因此,这条回归线是合理的。
( (6 )计算回归方程的估计标准误差,并解释它的实际意义。
答:回归方程的估计标准误差为 Y=31.897 4X 1 +14.767 6X 2 +0.125 9X 3 +2 445.021 3 实际意义:反映了回归方程无法解释 Y 变动的程度。
7. 对参加 SAT 考试的同学成绩进行随机调查,获得他们阅读考试和数学考试的成绩以及性别数据。通常阅读能力和数学能力具有一定的线性相关性,请在排除性别差异的条件下,分析阅读成绩对数学成绩的线性影响是否显著。考试的同学成绩进行随机调查,获得他们阅读考试和数学考试的成绩以及性别数据。通常阅读能力和数学能力具有一定的线性相关性,请在排除性别差异的条件下,分析阅读成绩对数学成绩的线性影响是否显著。
答:打开“SAT 考试”数据。
(2)【分析】→【相关】→【偏相关】,选择变量控制变量,得到分析结果。
(3)分析:由上表可知,常量和数学成绩的显著性水平均为 0.000,假设显著性检验水平为 0.05,因为常量和数学成绩的显著性水平均小于 0.05,所以,认为阅读成绩对数学成绩有显著的影响。
8. 根据“ 粮食总产量.sav” 数据,利用 SPSS 曲线估计方法选择恰当的模型,对样本期外的粮食总产量进行外推预测,并对平均预测误差进行估计。曲线估计方法选择恰当的模型,对样本期外的粮食总产量进行外推预测,并对平均预测误差进行估计。
答:(1)首先绘制粮食总产量和年份的线图,发现粮食总产量和年份不呈线性关系,所以在曲线估计时选择别的模型。
(2)曲线估计:
①【分析】→【回归】→【曲线估计】,选择因变量和自变量,选择模型为二次项、对数、指数、得到分析结果。
②由分析结果看出,二次项模型的拟合程度优于线性、增长、指数和 Logistic,所以,曲线估计的模型应为二次项分布。
③进行曲线拟合预测:打开【保存】选项,选择预测值,此次预测到 2017 年,所以在观测值中填入 66,得到预测结果。
④由上表得出:预测值、预测误差、95%置信区间的下限和上限。
对预测的粮食产量和年份制作线图,得到粮食总产量的外推预测图。并对得到的数据制作表格,得到清晰的预测数据。
指导老师评语及得分:
签名:
年
月
日
篇四:相关与回归分析实验心得体会
570033 对回归分析的认识、体会和思考 海口市第一中学潘峰 一、教材分析 1内容编排
散点图、最小二乘估计的基本思想、最小二乘估计的计算公式、建立回归方程并进行预报等回归分析的部分内容在《数学 3必修》中已经出现过。在此基础上本章通过现实生活中遇到的问题“女大学生身高和体重的关系”进一步讨论一元线性回归模型分析产生模型中随机误差项的原因并从相关系数的角度研究了两个变量间线性相关关系的强弱从而让学生了解在什么情况下可以考虑使用线性回归模型。教材介绍了一元线性回归模型的残差平方和分解的思想从而给出相关指数的含义即相关指数越大模型拟合的效果越好。从残差分析的角度研究所选用的回归模型是否合适引导学生初步体会检验模型的思想。为提高学生解决应用问题的能力教材还强调了用解释变量自变量估计预报变量因变量时需要注意的问题这点总结得非常的好帮助学生思考总结建立回归模型的基本步骤。作为线性回归模型的一个应用教材还给出了一个处理非线性相关关系的例子并通过相关指数比较不同模型对同一样本数据集的拟合效果。这里所涉及的非线性相关关系可以通过变换转化成线性相关关系从而可以用线性回归模型进行研究。这个例子没有增加难度但能开阔学生的思路使学生了解虽然任何数据对都可以用线性回归模型来拟合但其拟合的效果并不一定最好可以探讨用其他形式的回归模型来拟合观测数据。
2学习价值
⑴数理统计已成为人们的常识它几乎渗透到每一学科中哪里有试验哪里有数据哪里就少不了数理统计不懂数理统计就无法应付大量信息
⑵现代社会是信息社会学会搜集、测量、评价信息做出决策是一个人成功必备的素质。
3教材处理的优点 ⑴总以一些生动活泼的、丰富的实际情境引入激发学生的兴趣和学习激情 ⑵以恰时恰点的问题引导学生思考培养问题意识孕育创新精神 这点对我们教师的思考也是一种帮助 ⑶螺旋上升地安排核心概念和数学思想加强数学思想方法的渗透与概括 ⑷对高等知识点到即止强调类比、推广、特殊化、化归等思想方法的运用开阔视野提高数学思维能力培育理性精神。
4重点和难点
编号570033 重点了解线性回归模型与函数模型的差异了解判断刻画模型拟合效果的方法—相关指数和残差分析。
难点解释残差变量的含义了解偏差平方和分解的思想。
5目标定位 ⑴了解随机误差、残差、残差分析等概念明确掌握相关关系回归方程散点图等定义 ⑵了解回归分析的基本思想会求回归直线方程并会用回归直线方程进行预报
⑶掌握建立回归模型的一般步骤
⑷会用残差分析、判断线性回归模型的拟合效果
⑸了解相关系数、会用相关系数判断相关关系的强弱
5方法指引
⑴对于回归分析只通过案例了解方法即可不论是线性回归方程或者非线性回归方程都只是模拟而已是不确定中的确定性
⑵了解最小乘法的思想方法理解回归方程与一般函数的差别与联系
⑶会用书中介绍的方法搜集资料、分析资料感兴趣的同学可从互联网上查询相关资料。
二、 教材中的要点精析 1 相关关系自然界中大量存在着一些变量它们之间相互联系、相互依存关系密切。大致分为两类一类是函数关系又叫确定性关系一类是相关关系又叫不确定性关系、统计相关关系。
2 回归分析是对具有相关关系的两变量进行统计分析的一种常用方法。通俗地讲回归分析就是寻找相关关系中非确定性关系的某种确定性。其步骤为画散点图求回归直线方程并用回归直线方程进行预报。
3 回归函数也叫回归方程。形如 ybxa的散点图的各个点大致分布在一条直线附近这种分析就叫线性回归分析直线方程叫做回归直线方程。不是形如 y为非线性回归方程具体选择何种类型由经验判断再分析残差是否异常确定选择的好与坏。
bxa的回归方程我们称之回归直线对于一组线性相关关系的数据 其回归直线方程的斜率b分别为
和截距a的最小乘法估计公式
编号570033
121() (),()niiiniixxyybxx
1
,ayb x
2 其中111n1n,.nniiiixx yy ( , )x y 称为样本点的中心回归直线过样本点的中心。
线性回归模型与函数关系不同在回归模型 ybxae中的 y 的值是由x 和随机因素e 共同确定的即x 只能解释部分 y 的变化因此把 x 称为解释变量把 y 称为预报变量其中ab和 为模型的未知参数 e 是 y 与bxa之间的误差。
通常e 为随机变量 称为随机误差 它的均值Eybxa。线性回归模型的完整表达式为 ybxae 其中随机误差e 的方差 越小通过回归直线预报与真实值 y 之间误差的原因之一其大小取决于和分别为截距和斜率的估计值 与真实值a真实值的精确度越高。随机误差e 是引起预报值 y随机误差e 的方差。
再者由于公式 1 、 2 中的abb和之间也有误差这也是引起预报值 y4 残差分析
因为随机误差是随机变量因此可以通过这个变量的数字特征来刻画它的一些总体特征。均值是反与真实值 y 之间误差的另一个原因。
映随机变量取值平均水平的数字特征方差反映随机变量集中于均值程度的数字特征而随机误差的均值 0因此可以用方差来衡量随机误差的大小。为了衡量预报的精度需要估计ie 的值通过样本方差来估计总体方差。解决问题的途径是通过样本的估计值ie来估计ie 的值。
是b 的估计量a 称为相应于数据点是由公式1 、 2根据截距和斜率的估计公式1 、 2 可以建立回归方程 yb xa其中b是a 的估计量。对于样本点而言相应于它们的随机误差为 ie 其估计值为ie的残差。类比样本方差估计总体方差的思想可用iy作为iy 的估计量其中iy给出的21()niiiyy成为残差平方和。可以用残差平方和衡量回归方程的预报精度。通常残差平方和越小预报精度越高。
在研究两个变量间的关系时首先要根据散点图来粗略判断它们是否线性相关是否可以用线性回归模型来拟合数据。然后可以通过残差12,,,ne ee来判断模型拟合的效果判断原始数据中是否
编号570033 存在可疑数据这方面的分析工作称为残差分析。
利用图形来分析残差特性作图时纵坐标为残差横坐标可以选为样本编号或身高数据或体重估计等这样作出的图形称为残差图。
5散点图
表示相关关系的两个变量的一组数据作为点的坐标在直角坐标系中描出来得到的图形叫散点图。散点图使相关关系具有直观性。
6回归分析的解题规律
a) 在解具体问题过程中通常是先进行相关检验通过检验确认两个变量具有线性相关关系时再求其线性回归方程
b) 相关性检验有几种方法教材用的是相关系数r 和相关指数2R 两者在教材中具有平方关系在只有一个解释变量的线性模型中2R 恰好等于相关系数r 的平方 。
当0r 时 表明两个变量正相关当0r 时表明两个变量负相关。当r 越接近于 1表示相关程度越好表明两个变量的线性相关性越强 r 越接近于 0 表示相关程度越差 表明两个变量之间几乎不存在线性相关关系 同样2R
取值越大意味着残差平方和越小模型的拟和效果越好回归方程的预报精度越高。在线性回归模型中2R 表示解释变量对于预报变量变化的贡献率c) 相关程度的强弱除相关系数的大小之外与选取的数据个数多少有关还有一个问题是显著性临界值的选取教材中点到即止没有往下交待
d) 回归分析计算量大现在一般用计算机解决学习中只要求明白原理即可
e) 教材中直接选取对数变换是选取比较简单的函数演示而已还可以做其他函数模拟
f) 回归分析中通常先观察散点图若分布在一条直线附近经验证线性相关则选一次函数否则选取其他函数模拟
g) 判断两个变量的相关程度通常有其一相关系数 相关系数r 的绝对值越接近于 1相关程度越2R 与r 类似2R 越接近 1表示回归的效果越好。
高相关指数2R 的值越大残差平方和越小拟合越精确。
h) 判断模拟精确的尺度为7建立回归模型的一般的基本步骤
① 确定研究对象明确哪个变量是解释变量哪个变量是预报变量
② 画出确定好的解释变量和预报变量的散点图观察它们之间的关系如是否存在线性关系等
2R 或残差平方和的大小。
编号570033 ③ 由经验确定回归方程的类型如观察到的数据呈现性关系则选用线性回归方程 y④ 按一定规则估计回归方程中的参数如最小二乘法
⑤ 得出的结果后分析残差图是否有异常个别数据对应残差过大或残差呈现不随机的规律性等等 若存在异常则检查数据是否有误或模型是否合适等。
[典型例题]
例 1已知 10 只狗的血球体积及红血球的测量值如下
x
45
42
46
48
42
35
58
40
39
50
y
6.53
6.30
9.25
7.50
6.99
5.90
9.49
6.20
6.55
7.72
x 血球体积 y 红血球数百万
(1) 画出上表的散点图;(2)求出回归直线并且画出图形 3若血球体积为 49预测红血球数大约是多少 解 见下图要学会运用计算机技术辅助我们数学学习加强直观上的效果这里要求学生会bxa
运用简单的 excel 作出散点图并直接通过计算机拟合出回归直线具体步骤见本文最后的附录 。
012345678910010203040506070血球体积红血球数
设回归直线为 yb xa
利用公式1 、 2计算得所以所求回归直线的方程为y = 0.1597x + 0.1364
图形如下:
0.1597,0.1364ba
编号570033 012345678910010203040506070血球体积红血球数 3由2中求出的回归直线方程把血球体积为 49mm 时红血球数大约为 7.9617 百万。
[实战演练]1.某种产品表面进行腐蚀性试验得到腐蚀深度 y 与腐蚀时间t 之间对应的一组数据
时间 ( )49x 代入得7.9617y 百万 计算结果表明当t s
5
10
15
20
30
40
50
60
70
90
120
深度 (1试求腐蚀深度 y 对时间t 的回归直线方程 2预测腐蚀时间为 80 s 时产品腐蚀的深度大约是多少
故所求的回归直线方程为 y = 0.3043x + 5.3444
)ym
6
10
10
13
16
17
19
23
25
29
46
解 1经计算可得0.3043,5.3444ba
2由1求出的回归直线方程把80x 代入易得29.6884()ym计算结果表明当腐蚀 80 s 时产品腐蚀深度大约为29.6884 m8非线性回归
在散点图中样本点并没有分布在某个带壮区域内因此两个变量不呈线性相关关系不能直接用线 性回归方程来建立两个变量之间的关系。当回归方程不是形如 y程。
在一般情况下比较两个模型的残差比较困难原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小而另一些样本点的情况则相反。这是可以通过比较两个模型的残差平方和的bxa时称之为非线性回归方大小来判断模型的拟合效果。残差平方和越小的模型拟合的效果越好。
编号570033 两个模型拟合效果的比较步骤
对于给定的样本点 两个含有未知参数的模型 21c xyc e和234yc xc 其中1234,,,c c c c 是未知参数。
可按如下步骤来比较它们的拟合效果 ① 分 别 建 立 对应 与 两 个 模 型 的 回 归 方 程12(1)""c x cye与(2)234""ycxc 其 中 这 里 的1234",",","cccc为已知的 ②可以分别计算两个回归方程的残差(1)ie与(2)ie比较两个模型的残差的绝对值绝对值小的拟合的效果好也可以分别计算两个回归方程的残差平方和 (1)21()niiiyy和(2)21()niiiyy残差平方和小的模型拟合的效果好 三、结束语 在统计中回归分析是应用很广的。在中学要讨论回归方程的‘求法’这部分内容属于统计中对回归系数的‘估计’另一部分是判断回归方程是否有意义这属于‘假设检验’。在中学的教学中首先要让学生理解这里讨论的相关关系和过去学的函数关系的区别这很重要。在估计问题中应要求学生自己探索回归直线的求法事实上通过老师启发学生可以给出许多方法 。在统计中重要的是寻找好的方法而不是套用公式计算。从历史上看拉普拉斯、欧拉等许多大数学家都曾为寻找这一直线而努力他们的做法并不成功。后来由勒让德、高斯提出了最小二乘法。套用公式计算回归系数对学生来说并不困难。但这里应该让学生体会到数学中介绍的方法是前人经过长期探索才得到的。体会在统计中寻找方法的重要。
作为老师应该清楚之所以用最小二乘法是...
推荐访问:相关与回归分析实验心得体会 心得体会 回归 实验