晋江文学城
下一章 上一章  目录  设置

3、学习进行时 ...

  •   今天是周六,注定是学习不长时间,因为还要上班。

      2.1 频数分布

      频数的定义为定量变量,将大小分割成若干个互不相交的阻断计数每个阻断的变量值个数,是固定范围内出现的次数。

      频率为某阻断的频数总例中所占的百分比,即为频数/总数

      频数表是观察指标的可能取值之间及其区间内出现的频数表格,常用与样本量大的比较。

      而累计频数是当前频数加之前的频数得出,在频数分布表中更容易计算和表现。

      连续性定量是陈述资料的一种方式,观察分类型和特征,即集中或者离散,观察特大特效的可疑值排除误差值。
      1. 全距(Range) = 最大-最小
      2. 设立组段数和组距一般为8-15组,10组最佳因为最方便计算
      组距 = 上限-下限=R/组数≈R/10
      组距之间可相等可不相等,但一般情况下相等会更容易计算和描述
      3. 阻断上下限= 起点+终点 = 连续不重叠
      4. 频数+频率 = 频数分布表

      根据频数分布表和直方图(Bar chart)可以直观的反映出正态分布,正偏态分布或者负偏态分布。
      正态分布是两边数据呈对称形式出现。
      正偏态分布(Positive distribution)数据右侧呈现拖尾状。
      负偏态分布(Negative distribution)数据左侧呈现拖尾状。

      2.2 集中趋势的统计学指标

      均数(Average mean)描述数据的集中位置和平均数值,均数可拆分为算术均数,集合均数,中位数。

      算术均数(Arithmetic mean)表示数据的平均水平和集中趋势,为定量均数数值,样本用符号x?表示,总体均数则用μ来表示。一般适用于正态对称分布,偏斜度不大的数据。
      直接法:x? = ∑X/n (样品数据总和)/(样本数量)
      加权法:x? = ∑fiXmi/∑fi = ∑fiXmi/n = ∑fX/n
      Xmi = i 组组中值= (上限+下限)/2 fi = i 组频数

      几何均数(geometric mean)表示背书关系的变化和对数正态分布,用G表示,其中几个观察值的乘积开几次方。
      G = n√(x1x2...xn)= log-1(∑logx/n)
      加权法:log-1 (∑filogx/n)

      中位数(Median)用符号M表示,需要先将数据按照升序排序,使用需偏态分布,数据末端开口无确切数据和未知类型的资料。
      直接法:
      n = 奇 M = x[(n+1)/2]
      n = 偶 M = [[x(n/2)+x[(n/2)+1]]/2

      百分位数(percentile)表示数据分布左侧占全部%为x%的位置。n个变量,从小到大一次排序将他们分为一百等份,对应的x%为第几位百分数=Px
      Px=L+[(n·x%-fL)/fX]ix
      L = 下限 ix = 组距 fX = 频数 fL=Px所在组段之前的累计频数。

      总共耗时一个半小时。
note 作者有话说
第3章 学习进行时

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>