2011年专业学位研究生入学统一考试-432-《统计学》考试科目命题指导意见.doc
目录 I 考查目标 ........................................................................................2 II 考试形式和试卷结构...................................................................2 III 考查内容 .....................................................................................2 IV. 题型示例及参考答案.................................................................3 1 全国硕士研究生入学统一考试应用统计硕士专业学位统计学考试大纲 I 考查目标 全国硕士研究生入学统一考试应用统计硕士专业学位《统计学》考试是为高等院校和科 研院所招收应用统计硕士生儿设置的具有选拔性质的考试科目。其目的是科学、公平、有效 地测试考生是否具备攻读应用统计专业硕士所必须的基本素质、一般能力和培养潜能,以利 用选拔具有发展潜力的优秀人才入学,为国家的经济建设培养具有良好职业道德、法制观念 和国际视野、具有较强分析与解决实际问题能力的高层次、应用型、复合型的统计专业人才。 考试要求是测试考生掌握数据处收集、处理和分析的一些基本统计方法。 具体来说。要求考生: 1. 掌握数据收集和处理的基本分方法。 2. 掌握数据分析的金发原理和方法。 3. 掌握了基本的概率论知识。 4. 具有运用统计方法分析数据和解释数据的基本能力。 II 考试形式和试卷结构 一、试卷满分及考试时间 试卷满分为 150 分,考试时间 180 分钟。 二、答题方式 答题方式为闭卷、笔试。允许使用计算器(仅仅具备四则运算和开方运算功能的计算器), 但不得使用带有公式和文本存储功能的计算器。 三、试卷内容与题型结构 统计学 120 分,有以下三种题型: 单项选择题 25 题,每小题 2 分,共 50 分 简答题 3 题,每小题 10 分,共 30 分 计算与分析题 2 题,每小题 20 分,共 40 分 概率论 30 分,有以下三种题型: 单项选择题 5 题,每小题 2 分,共 10 分 简答题 1 题,每小题 10 分,共 10 分 计算与分析题 1 题,每小题 10 分,共 10 分 III 考查内容 一、 统计学 1. 调查的组织和实施。 2. 概率抽样与非概率抽样。 3. 数据的预处理。 4. 用图表展示定性数据。 5. 用图表展示定量数据。 6. 用统计量描述数据的水平:平均数、中位数、分位数和众数。 2 7. 用统计量描述数据的差异:极差、标准差、样本方差。 8. 参数估计的基本原理。 9. 一个总体和两个总体参数的区间估计。 10. 样本量的确定。 11. 假设检验的基本原理。 12. 一个总体和两个总体参数的检验。 13. 方差分析的基本原理。 14. 单因子和双因子方差分析的实现和结果解释。 15. 变量间的关系;相关关系和函数关系的差别。 16. 一元线性回归的估计和检验。 17. 用残差检验模型的假定。 18. 多元线性回归模型。 19. 多元线性回归的拟合优度和显著性检验; 20. 多重共线性现象。 21. 时间序列的组成要素。 22. 时间序列的预测方法。 二、 概率论 1. 事件及关系和运算; 2. 事件的概率; 3. 条件概率和全概公式; 4. 随机变量的定义; 5. 离散型随机变量的分布列和分布函数;离散型均匀分布、二项分布和泊松分布; 6. 连续型随机变量的概率密度函数和分布函数;均匀分布、正态分布和指数分布; 7. 随机变量的期望与方差; 8. 随机变量函数的期望与方差。 IV. 题型示例及参考答案 全国硕士研究生入学统一考试 应用统计硕士专业学位 统计学试题 一. 单项选择题(本题包括 1—30 题共 30 个小题,每小题 2 分,共 60 分。在每小题给出 的四个选项中,只有一个符合题目要求,把所选项前的字母填在答题卡相应的序号 内)。 选择题答题卡: 题号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 答案 题号 3 答案 题号 21 22 23 24 25 26 27 28 29 30 答案 1. 2. 3. 4. 5. 为了调查某校学生的购书费用支出,从男生中抽取 60 名学生调查,从女生中抽取 40 名学生调查,这种抽样方法属于( ) 。 A. 简单随机抽样 B. 整群抽样 C. 系统抽样 D. 分层抽样 某班学生的平均成绩是 80 分,标准差是 10 分。如果已知该班学生的考试分数为对称 分布,可以判断考试分数在 70 到 90 分之间的学生大约占( )。 A. 95% B. 89% C. 68% D. 99% 已知总体的均值为 50,标准差为 8,从该总体中随机抽取样本量为 64 的样本,则样本 均值的数学期望和抽样分布的标准误差分别为( ) 。 A. 50,8 B. 50,1 C. 50,4 D. 8,8 根据一个具体的样本求出的总体均值 95%的置信区间( )。 A. 以 95%的概率包含总体均值 B. 有 5%的可能性包含总体均值 C. 绝对包含总体均值 D. 绝对包含总体均值或绝对不包含总体均值 一项研究发现,2000 年新购买小汽车的人中有 40%是女性,在 2005 年所作的一项调 查中, 随机抽取 120 个新车主中有 57 人为女性,在 乙 乙 0.05的显著性水平下,检验 2005 年新车主中女性的比例是否有显著增加,建立的原假设和备择假设为( )。 A. H 0 : 乙 乙 40% , H 1 : 乙 乙 40% B. H 0 : 乙 乙 40% , H1 : 乙 乙 40% C. H 0 : 乙 乙 40% , H 1 : 乙 乙 40% D. H 0 : 乙 乙 40% , H 1 : 乙 乙 40% 6. 在回归分析中,因变量的预测区间估计是指( ) 。 A. 对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的区间 B. 对于自变量 x 的一个给定值 x0 ,求出因变量 y 的个别值的区间 4 C. 对于因变量 y 的一个给定值 y0 ,求出自变量 x 的平均值的区间 D. 对于因变量 y 的一个给定值 y0 ,求出自变量 x 的平均值的区间 在多元线性回归分析中,如果 F 检验表明线性关系显著,则意味着( ) 。 A. 在多个自变量中至少有一个自变量与因变量之间的线性相关系著 B. 所有的自变量与因变量之间的线性关系都显著 C. 在多个自变量中至少有一个自变量与因变量之间的线性关系不显著 D. 所有的自变量与因变量之间的线性关系都不显著 8. 如果时间序列的逐期观察值按一定的增长率增长或衰减,则适合的预测模型是( A. 移动平均模型 B. 指数平滑模型 C. 线性模型 D. 指数模型 9. 雷达图的主要用途是( ) 。 A. 反映一个样本或总体的结构 B. 比较多个总体的构成 C. 反映一组数据的分布 D. 比较多个样本的相似性 10. 如果一组数据是对称分布的,则在平均数加减 2 个标准差之内的数据大约有( A. 68% B. 90% C. 95% D. 99% 7. )。 ) 。 11. 从均值为 200、标准差为 50 的总体中,抽出 n 乙 100的简单随机样本,用样本均值 x 估计总体均值 乙 ,则 x 的期望值和标准差分别为( )。 A. 200,5 B. 200,20 C. 200,0.5 D. 200,25 12. 95%的置信水平是指( ) 。 A.总体参数落在一个特定的样本所构造的区间内的概率为 95% B.总体参数落在一个特定的样本所构造的区间内的概率为 5% C.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为 95% D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为 5% 13. 在假设检验中,如果所计算出的 P 值越小,说明检验的结果( A.越显著 B.越不显著 C.越真实 D.越不真实 14. 在下面的假定中,哪一个不属于方差分析中的假定( )。 A.每个总体都服从正态分布 )。 5 B. 各总体的方差相等 C. 观测值是独立的 D. 各总体的方差等于 0 15. 在方差分析中,数据的误差是用平方和来表示的,其中组间平方和反映的是( A. 一个样本观测值之间误差的大小 B. 全部观测值误差的大小 C. 各个样本均值之间误差的大小 D. 各个样本方差之间误差的大小 16. 在多元线性回归分析中, t 检验是用来检验( ) 。 A. 总体线性关系的显著性 B. 各回归系数的显著性 C. 样本线性关系的显著性 D. )。 H 0 : 乙1 乙 乙 2 乙 乙 乙 乙 k 乙 0 17. 为研究食品的包装和销售地区对其销售量是否有影响,在三个不同地区中用三种不同包 装方法进行销售,根据获得的销售量数据计算得到下面的方差分析表。表中“A”单元格 和“B”单元格内的结果是( )。 差异源 SS df MS F 行 22.22 2 11.11 A 列 955.56 2 477.78 B 误差 611.11 4 152.78 总计 1588.89 8 A. 0.073 和 3.127 C. 13.752 和 0.320 B. 0.023 和 43.005 D. 43.005 和 0.320 18. 对某时间序列建立的预测方程为 Yˆt 乙 100乙 (0.8) ,这表明该时间序列各期的观察值 t ( )。 A. 每期增加 0.8 B. 每期减少 0.2 C. 每期增长 80% D. 每期减少 20% 19. 进行多元线性回归时,如果回归模型中存在多重共线性,则( ) 。 A. 整个回归模型的线性关系不显著 B. 肯定有一个回归系数通不过显著性检验 C. 肯定导致某个回归系数的符号与预期的相反 D. 可能导致某些回归系数通不过显著性检验 20. 如果时间序列不存在季节变动,则各期的季节指数应( ) 。 A. 等于 0 B. 等于 1 C. 小于 0 D. 小于 1 21. 一所中学的教务管理人员认为,中学生中吸烟的比例超过 30%,为检验这一说法是否 属实,该教务管理人员抽取一个随机样本进行检验,建立的原假设和备择假设为 H 0 : 乙 乙 30% , H1 : 乙 乙 30% 。检验结果是没有拒绝原假设,这表明( )。 A.有充分证据证明中学生中吸烟的比例小于 30% B.中学生中吸烟的比例小于等于 30% C.没有充分证据表明中学生中吸烟的超过 30% 6 D.有充分证据证明中学生中吸烟的比例超过 30% 22. 某药品生产企业采用一种新的配方生产某种药品,并声称新配方药的疗效远好于旧的配 方。为检验企业的说法是否属实,医药管理部门抽取一个样本进行检验。该检验的原假 设所表达的是( )。 A.新配方药的疗效有显著提高 B.新配方药的疗效有显著降低 C.新配方药的疗效与旧药相比没有变化 D.新配方药的疗效不如旧药 23. 在回归分析中,残差平方和 SSE反映了 y 的总变差中( )。 A. 由于 x 与 y 之间的线性关系引起的 y 的变化部分 B. 由于 x 与 y 之间的非线性关系引起的 y 的变化部分 C. 除了 x 对 y 的线性影响之外的其他因素对 y 变差的影响 D. 由于 y 的变化引起的 x 的误差 24. 在公务员的一次考试中,抽取 49 个应试者,得到的平均考试成绩为 81 分, 标准差 s 乙 12 分。该项考试中所有应试者的平均考试成绩 95%的置信区间为( ) 。 A.81±1.96 B.81±3.36 C.81±0.48 D.81±4.52 25. 某大学共有 5000 名本科学生,每月平均生活费支出是 500 元,标准差是 100 元。假 定该校学生的生活费支出为对称分布,月生活费支出在 400 元至 600 元之间的学生人 数大约为( )。 A. 4750 人 B. 4950 人 C. 4550 人 D. 3400 人 26. 将一颗质地均匀的骰子(它是一种各面上分别标有点数 1,2,3,4,5,6 的正方体玩 具)先后抛掷 3 次,至少出现一次 6 点向上的概率是() 31 91 25 5 A. B. C. D. 216 216 216 216 æ0 1 2ö ÷,其中 a,b是未知数,如果已知 x 取 1 的 è0.2 a bø 27. 离散型随机变量 x 的分布列为 ç 概率和取 2 的概率相等,则 a =( ) 。 A.0.2 B.0.3 C.0.4 D.0.5 { 28. 甲乙两人将进行一局象棋比赛,考虑事件 A = 乙 乙 乙 乙 A.甲负乙胜 B.甲乙平局 C.甲负 B.1 C.10 ) 。 D.甲负或平局 29. 对于随机变量 x ,有 D (10x ) =10,则 D (x ) =( 方差。 A.0.1 },则 A 为( )。其中 D (x ) 表示随机变量 x 的 D.100 30. 设函数 f (x) 在区间 [a,b] 上等于 0.5,在此区间之外等于 0,如果 f (x) 可以作为某连 续型随机变量的密度函数,则区间 [a,b] 可以是( ) 。 7 A. [0,0.5] B. [0.5,2.5] C. [1,1.5] D. [2,3] 二. 简要回答下列问题(本题包括 1—4 题共 4 个小题,每小题 10 分,共 40 分)。 3. 简述假设检验中 P 值的含义。 已知甲乙两个地区的人均收入水平都是 5000 元。这个 5000 元对两个地区收入水平 的代表性是否一样?请说明理由。 简述分解法预测的基本步骤。 4. 正态分布的概率密度函数 f (x) 有两个参数 m和 s ,请结合函数 f (x) 的几何形状 1. 2. 说明 m和 s 的意义。 三. 计算与分析题(本题包括 1—3 题共 3 个小题,第 1 小题和第 2 小题每题 20 分,第 3 小题 10 分,共 50 分)。 1. 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为 100 克。现从某天 生产的一批产品中按重复抽样随机抽取 50 包进行检查,测得每包重量(克)如下: 每包重量(克) 包数 96-98 98-100 100-102 102-104 104-106 2 3 34 7 4 合计 50 (1) 确定该种食品平均重量 95%的置信区间。 (2) 采用假设检验方法检验该批食品的重量是否符合标准要求?( 乙 乙 0.05,写 出检验的具体步骤) 。 2. 一家产品销售公司在 30 个地区设有销售分公司。为研究产品销售量(y)与该公司的 销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到 30 个地区的有关数据。利用 Excel 得到下面的回归结果( 乙 乙 0.05): 方差分析表 变差来源 df SS MS 4008924.7 回归 残差 总计 F 29 13458586.7 — Significance F 8.88341E-13 — — — — 参数估计表 Coefficients 标准误差 t Stat P-value Intercept 7589.1025 2445.0213 3.1039 0.00457 X Variable 1 -117.8861 31.8974 -3.6958 0.00103 X Variable 2 80.6107 14.7676 5.4586 0.00001 X Variable 3 0.5012 0.1259 3.9814 0.00049 (1) 将方差分析表中的所缺数值补齐。 8 (2) 写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各 回归系数的意义。 (3) 检验回归方程的线性关系是否显著? 2 (4) 计算判定系数 R ,并解释它的实际意义。 (5) 计算估计标准误差 se ,并解释它的实际意义。 3. 用 A, B,C 三类不同元件连接成两个系统 N1 和 N2 。当元件 A, B,C 都正常工作时, 系统 N1 正常工作;当元件 A 正常工作且元件 B,C 中至少有一个正常工作时,系统 N2 正常工作。已知元件 A, B,C 正常工作的概率依次为 0.80,0.90,0.90,且某个元 件是否正常工作与其他元件无关。分别求系统 N1 和 N2 正常工作的概率 P1 和 P2 。 参考答案 一、单项选择题 1. D;2. C;3. B;4. D;5. C;6. B;7. A;8. D;9. D;10. C; 11. A;12. C;13. A;14. D;15. C;16. B;17. A;18.D;19.D;20.B; 21.C;22.C;23.C;24.B;25.D;26.D;27.C;28.D;29.A;30.B。 二、简要回答题 1. (1)如果原假设 H 0 是正确的,所得到的样本结果会像实际观测结果那么极端或 更极端的概率,称为 P 值。 (2) P 值是指在总体数据中,得到该样本数据的概率。 (3) P 值是假设检验中的另一个决策工具,对于给定的显著性水平 乙 ,若 P 乙 乙 ,则拒绝原假设。 2. 这要看情况而定。如果两个地区收入的标准差接近相同时,可以认为 5000 元对两 个地区收入水平的代表性接近相同。如果标准差有明显不同,则标准差小的,5000 元对该地区收入水平的代表性就要好于标准差大的。 3. (1)确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后 将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指 数,以消除季节成分。 (2)建立预测模型并进行预测。对消除季节成分的时间序列建立适当的预测模型,并 根据这一模型进行预测。 9 (3)计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。 正态分布的概率密度函数是一个左右对称的钟形曲线,参数 m是这个曲线的对称 4. 轴,同时也决定了曲线的位置, m也是正态分布的数学期望;而参数 s 的大小决 定了曲线的陡峭程度, s 越小,则曲线的形状越陡峭,越集中在对称轴 x =m的附 2 近,这和 s 是正态分布的方差的直观意义一致。 三、计算与分析题 1. (1)已知: n 乙 50, z0.05 2 乙 1.96。 k 样本均值为: x 乙 乙i M i fi 乙1 n 乙 5066 乙 101.32克, 50 k 样本标准差为: s 乙 乙i (M i 乙 x) fi 2 乙1 n 乙1 乙 130.88 乙 1.634克。 49 由于是大样本,所以食品平均重量 95%的置信区间为: s 1.634 乙 101.32乙 1.96乙 乙 101.32乙 0.453 n 50 x 乙 z乙 2 即(100.867,101.773) 。 (2)提出假设: H 0 : 乙 乙 100, H 1 : 乙 乙 100 计算检验的统计量: z 乙 x 乙 乙 0 101.32乙 100 乙 乙 5.712 s n 1.634 50 由于 z 乙 5.712乙 z0.05 2 乙 1.96,所以拒绝原假设,该批食品的重量不符合标准要 求。 2.(1) 方差分析表 变差来源 df SS MS F Significance F 回归 3 12026774.1 4008924.7 72.80 8.88341E-13 残差 26 1431812.6 55069.7 — — 总计 29 13458586.7 — — — (2)多元线性回归方程为: 10 yˆ 乙 7589 .1025乙 117.8861 x1 乙 80.6107x2 乙 0.5012x3 。 乙ˆ1 乙 乙117.8861表示:在年人均收入和广告费用不变的情况下,销售价格每增加一 个单位,销售量平均下降 117.8861 个单位; 乙ˆ2 乙 80.6107表示:在销售价格和广告费 用不变的情况下,年人均收入每增加一个单位,销售量平均增加 80.6107 个单位; 乙ˆ3 乙 0.5012表示:在年销售价格和人均收入不变的情况下,广告费用每增加一个单位, 销售量平均增加 0.5012 个单位。 (3)由于 Significance F=8.88341E-13< 乙 乙 0.05,表明回归方程的线性关系显著。 2 (4) R 乙 SSR 12026774 .1 乙 乙 89.36% ,表明在销售量的总变差中,被估计的 SST 13458586 .7 多元线性回归方程所解释的比例为 89.36%,说明回归方程的拟合程度较高。 (5) se 乙 SSE 乙 MSE 乙 55069 .7 乙 234.67。表明用销售价格、年人 n 乙 k 乙1 均收入和广告费用来预测销售量时,平均的预测误差为 234.67。 3. 解:分别记元件 A, B,C 正常工作为事件 A, B,C ,由已知条件可得 P ( A) =0.8, P (B) =0.9, P (C ) =0.9 记系统 N1 正常工作为事件 N1 ,则有 P1 =P (N1) =P ( ABC ) ; 由于事件 A, B,C 相互独立,所以 P1 =P ( A)P (B)P (C ) =0.8´ 0.9´ 0.9 =0.648 记系统 N2 正常工作为事件 N2 ,则有 P2 =P (N2 ) =P ( A I (B U C )) ; 由于 A, B,C 相互独立,则有 P2 =P ( A) × [1- P (B) ×P (C )] =P ( A) é ë1- (1- P (B))(1- P (C ))ù û =0.8´ [1- 0.1´ 0.1] =0.792 11