6-统计推断
一、置信区间估计
(1)统计信心
即对自身所作出的推断是否接近实际结论所拥有的信心
(2)置信区间
置信区间通常记为:
估计值+-误差范围
置信度(C):即有C%的置信区间中包含总体均值μ
z'是处于标准正态分布下的距均值(0)的距离(与68、95、99法则有关),而后面的标准差是在该条件状态下的对应标准差,两者相乘就能得到所需要的距均值距离。
95%置信区间:100次抽样结果的100个95%置信区间中,平均而言有95个置信区间包含了真实的总体均数
(二)置信区间的误差范围
当确定了置信度时,误差范围也随之确定,高置信度与较小的误差范围时较为理想的结果。分别代表结果的准确性高和结果精确性高
减小误差方法:
1、选择较小的置信度,从而得到更小的z‘
2、选择更大的样本量n
3、减小σ
置信区间与样本量
通过已知误差范围m,使用误差范围的计算公式反向运算出所需样本量
误差范围越小,所需的样本量越大。
注意事项
1、置信区间两端的公式不适用于所有抽样方法,不同的抽样方法需采用不同的均数置信区间估计公式。
2、数据须来自相应总体的简单随机抽样,个体间相互独立时使用上述估计公式的前提。
3、对于来自随意收集且偏倚较大的数据,没有恰当的方法进行统计推断,统计分析无法拯救糟糕的数据。
4、由于样本均数的稳定性不高,易受到异常值影响,所以相应置信区间的计算结果会受到较大影响。因此在计算置信区间之前需要找出异常值,并尝试校正或剔除。
5、如果样本量较小且总体并非正态分布,实际得到的置信度可能与理论置信度不同。因此,在计算前应检查数据是否服从正态分布。
二、假设检验
假设检验的基本步骤
-
选择检验方法,建立检验假设并确定检验水准
检验假设有两个:1.H0 :原假设又称零假设:μ与μ0的差异是由抽样误差引起的
2. H1:对立假设,又称备择假设:样本均数所代表的总体均数μ与μ0不相等,μ与μ0的差异不但包含抽样误差,更主要的是本质性差异- H0与H1应该既有联系又相互对立
- 假设检验有双侧检验和单侧检验之分,需根据研究目的和专业知识而定,若目的是推断两总体均数是否不等,应选用双侧检验,H0:μ=μ0,H1:μ≠μ0
- 若从专业知识或实际情况已知不会出现μ≠μ0的情况,则选用单侧检验H0:μ=μ0,H1:μ<或>μ0,双侧检验较常用,一般不作说明均选用双侧检验
- 检验水准亦称显著性水准,用希腊字母α表示,是将小概率事件具体化,α常取0.05,即规定概率不超过α就是小概率,从概率上来说,可以忽略不计
-
计算统计量:根据样本数据计算相应的统计量
-
确定P值
- P值的意义是:如果总体状况H0和一致,统计量获得现有数值以及更不利于H0的数值的可能性有多大,也即根据值的大小作出拒绝或不拒绝H0的结论
- P值可以通过查阅相应的统计数表得到,有的场合可直接计算值
-
做推断结论
- 假设检验的推断结论是对是否成立作出判断,这种判断是通过比较值与检验水准的大小来进行的
- 在两个检验假设之间进行二者取一的抉择的规则是:
- 当P≤α时,结论为按检验水准拒绝H0,接受H1。这样判断的理由是:在H0的条件下,出现了P≤α的小概率事件,这在一次抽样中是不太可能发生的,即现有样本信息不支持H0,因而拒绝它,只能接受H1
- 当P>α,不拒绝H0,尚不能认为总体参数之间的差异有统计学意义。
假设检验的正确使用
1、选择一个合适的检验水准
p=0.052也反应了重要的结论
2、统计学意义并不意味着具有实际的专业意义
3、不要忽略无统计学意义的结果
4、统计推断并非对所有数据有效
5、谨慎追求统计学意义
三、检验效能与基于决策的判断
1、检验效能
定义:检验水准为α,当H1为真时,假设检验能够拒绝H0的概率称为能发现该H0的检验效能。
计算步骤:
(1)确定H0、H1和检验水准α
(2)找到能拒绝H0的样本均数取值范围
(3)计算H1为真时样本均数位于拒绝域的概率,即为发现该H1的检验效率
2、基于决策的推断和两类错误
第一类错误:当H0为真时拒绝H0;
检验水准α即为第一类错误的概率。
第二类错误:当H1为真时接受H0;
固定检验水准下的检验效能即为1减去第二类错误的概率。