下一章 上一章 目录 设置
3、学习进行时 ...
-
今天是周六,注定是学习不长时间,因为还要上班。
2.1 频数分布
频数的定义为定量变量,将大小分割成若干个互不相交的阻断计数每个阻断的变量值个数,是固定范围内出现的次数。
频率为某阻断的频数总例中所占的百分比,即为频数/总数
频数表是观察指标的可能取值之间及其区间内出现的频数表格,常用与样本量大的比较。
而累计频数是当前频数加之前的频数得出,在频数分布表中更容易计算和表现。
连续性定量是陈述资料的一种方式,观察分类型和特征,即集中或者离散,观察特大特效的可疑值排除误差值。
1. 全距(Range) = 最大-最小
2. 设立组段数和组距一般为8-15组,10组最佳因为最方便计算
组距 = 上限-下限=R/组数≈R/10
组距之间可相等可不相等,但一般情况下相等会更容易计算和描述
3. 阻断上下限= 起点+终点 = 连续不重叠
4. 频数+频率 = 频数分布表
根据频数分布表和直方图(Bar chart)可以直观的反映出正态分布,正偏态分布或者负偏态分布。
正态分布是两边数据呈对称形式出现。
正偏态分布(Positive distribution)数据右侧呈现拖尾状。
负偏态分布(Negative distribution)数据左侧呈现拖尾状。
2.2 集中趋势的统计学指标
均数(Average mean)描述数据的集中位置和平均数值,均数可拆分为算术均数,集合均数,中位数。
算术均数(Arithmetic mean)表示数据的平均水平和集中趋势,为定量均数数值,样本用符号x?表示,总体均数则用μ来表示。一般适用于正态对称分布,偏斜度不大的数据。
直接法:x? = ∑X/n (样品数据总和)/(样本数量)
加权法:x? = ∑fiXmi/∑fi = ∑fiXmi/n = ∑fX/n
Xmi = i 组组中值= (上限+下限)/2 fi = i 组频数
几何均数(geometric mean)表示背书关系的变化和对数正态分布,用G表示,其中几个观察值的乘积开几次方。
G = n√(x1x2...xn)= log-1(∑logx/n)
加权法:log-1 (∑filogx/n)
中位数(Median)用符号M表示,需要先将数据按照升序排序,使用需偏态分布,数据末端开口无确切数据和未知类型的资料。
直接法:
n = 奇 M = x[(n+1)/2]
n = 偶 M = [[x(n/2)+x[(n/2)+1]]/2
百分位数(percentile)表示数据分布左侧占全部%为x%的位置。n个变量,从小到大一次排序将他们分为一百等份,对应的x%为第几位百分数=Px
Px=L+[(n·x%-fL)/fX]ix
L = 下限 ix = 组距 fX = 频数 fL=Px所在组段之前的累计频数。
总共耗时一个半小时。