2-数据分布的描述


频数分布表


制作步骤:
1、找出最大值和最小值;可先将数据按从小到大排序。
2、计算全距(Range):Max-Min,也称极差。
3、确定组距——相邻两组之间的距离。
4、确定组段上下限。
5、列表整理。

**直方图——用图形表达频数分布表


数据分布特征

一、分布形态:
1、对称分布(正中,左右两侧分布对称)
2、偏态分布——正/右偏态 or 负/左偏态

二、集中/离散趋势
1、集中趋势:向某一数据值(中心值)靠拢的趋势
2、离散趋势:偏离中心位置的变异特征
数据的集中趋势越大(高峰段数据越多)则离散趋势越小
反之亦然


集中位置

一、算术均数

一个变量所有观测值的和除以观测值的个数,反映一个变量所有观测值的平均水平,简称均数。
26n01
加权计算:
ssvjz

均数适用于不含极端值的对称分布资料,正态或近似分布资料,均数于分布中心


二、几何均数

所有n个观测值乘积的n次方根,常用于描述存在少数偏大的极端值的正偏态分布或观测值之间呈倍数关系或近似倍数关系数据的集中位置。
kr3lc

几何均数适用于原始数据呈正偏态分布但对数转换后呈近似对称分布的数据,尤其是医学研究中遇到的呈现等比例变化的数据,如抗体滴度、血清凝集效价等
计算几何均数时,观测值中不能有0且不能同时有正数和负数

三、中位数

将所有观测值从小到大排序,位于最正中位置的数字。

不足:
1、未使用大部分的观测值
2、数据合并后中位数不能直接使用
3、中位数无法使用截尾修正

优点:
1、不受两端极端值影响
2、可用于分布形态未知的情况下

适用:对任何资料都适用,主要应用于有极端值、不确定值、偏态分布或分布未知的数据的描述

四、百分位数

Px——在n个观测值中有x%的数据比它小,其余数据比它大。
7m214
——对于频数分布表的百分位数计算公式


变异程度

——一组数据中个体值之间的差异称为变异
五个指标
1、极差
2、四分位数间距
3、方差
4、标准差
5、变异系数


一、极差

也称全距(Range),为所有观测值中最大值与最小值的差值。极差越大说明数据变异程度越大,或者说数据越离散

局限性:
1、仅用到最大值和最小值,不能反映其他数据的变异情况
2、极差与样本例数有关,样本量较大时不宜采用极差进行比较


二、四分位数间距(IQR)

IQR=P75 - P25
即75百分位数减去25百分位是
分别对应上四分位数和下四分位数

由于不受两端极大或绩效数据的影响,故四分位数间距比极差更为稳定。实际应用中,四分位数间距和中位数一起使用,综合反映偏态分布、分布未知、有极端值数据的平均水平和变异程度,写成M(P25,P75)
适用于偏态分布或分布未知资料


三、方差与标准差

方差是指所有观测值的离均差平方和的平均值,描述所有观测值与均数的平均偏离程度。标准差是方差的平方根。

通常使用单位相同的标准差来表现离散程度

度量对称分布资料的离散程度,单位与均数相同

注意:标准差比均数更容易受离群值的影响,个别离群值就能使它明显增大


四、变异系数(CV)

是一个度量相对离散程度的指标,变异大小(s)相对于其平均水平(x)的百分比
91drl
标准差/平均数
从定义可以看出变异系数是一个无单位的相对指标。变异系数值越大,表示变量的变异程度越大。


五、总结

3r7e3


箱式图

一、箱式图

呈现五个汇总的统计指标:最小值、下四分位数、中位数、上四分位数、最大值

箱子中间的横线为中位数,下端和上端分别是下四分位数和上四分位数。箱体的高度,上下伸出的两端分别是最大值和最小值

通过结合Q1和Q3和中位数来判断整个数据的离散程度
通过中位数的位置来判断偏态分布的类型
中位数于中间——对称分布
中位数靠下——右偏态
中位数靠上——左偏态

菱形表示均值、空心圆把标书离群值


二、箱式百分位图

py2b4
箱式百分位数图的基本思想是根据数据百分位数信息,对箱体的宽度赋予权重,其中箱体中间位置权重大,箱体最宽,越往两端权重减小,箱体变窄。
可从图上直观判断离群值和偏态分布类型。


数据核查与离群值

一、逻辑核查

通过逻辑核查寻找异常值是数据管理的重要内容,也是数据分析之前必不可少的环节。
1、检查变量类型和性质
2、核查变量值范围
3、有效值核查
4、一致性检查
5、唯一性检查
6、完整性检查
7、交叉核查


二、离群值的初步探索

一组数据中如果个别观测值与其他数值相比差异较大,远远偏离大多数数据的平均水平,这种观测值称为离群值(outliers)

1、通过频数分布表或直方图初步判断
2、利用箱式图判断
3、通过统计检验判断
4、结合其他变量信息判断
5、结合均数标准差(超出均数±3s)或1.5倍IQR


三、离群值的处理

1、如果是因为测量或者记录过程中出现错误而导致离群值,或者存在明显的逻辑错误,应予以剔除
2、如果无明确理由剔除离群值,在数据分析过程中,可对离群值删除前后各做一次统计分析。若前后分析结果矛盾则下结论需谨慎。或可采取一些稳健分析的方法降低离群值对分析结果的过度影响。
1)、中位数描述平均水平
2)、对数变换求几何均数
3)、截尾均数


分类变量的常用统计图

一、饼图

饼图主要用来描述分类变量的构成比,用于说明事物内部各组成部分所占比重。
注意:
1、各扇形通常从时钟12时处开始,按大小或自然顺序顺时针方向排列
2、简要注明各扇形所代表的类别和百分比

二、条图和百分条图

条图可用直条的高度反映分类数据中每一类的频数或者频率
分为单式条图和复式条图
百分条图的功能与饼图相同,但饼图只能体现一组数据的内部构成,而百分条图可以将多组数据放在一起比较其构成比。
对于等级数据需按照等级顺序排列

三、热图

用不同的颜色(或者深浅)表示观测值的大小,常用来表示疾病的时间和空间分布,生物信息学中也常用热图描述基因表达谱