下一章 上一章 目录 设置
5、统计 综合 ...
-
散点图(Scatter plot):利用平面坐标显示两个定量变量之间的关系,散点图中的点与数据中观测单位一一对应,可通过散点图的总体趋势呈现关联的形式、方向和密切程度。
评价散点图的步骤:
一,观察其总体趋势和明显面临该趋势的单观测单位。二,可通过散点图的总体趋势来呈现关联的形式、方向和密切程度。
散点图的意义:散点图描述了两个定量变量之间关联的形式、方向和密切程度。如果各散点离直线的总体趋势较近,则认为两变量关联性较强,若散点广泛散布在平面坐标,那么认为两变量的关联性较弱,一般而言,两变量之间关系的强度是通过散点图数据点靠近直线趋势的程度来反映,但直观感受关联性的强弱,有时并不可靠,仍需运用定量的数值指标刻画关联性的强度与方向。
Pearson直线相关系数(Pearson correlation coefficient,r):直线相关系数用于衡量两个定量变量之间线性关系的方向和密切程度,通常记作r,对于n个观测单位的x变量和y变量,奇居数科标准差分别为x、y和Sx、Sy,则x和y的直线相关系数r为:r=1/n-1∑(xi-x/Sx)(yi-y/Sy)。
r表示样本相关系数;ρ表示总体相关系数。
适用条件:直线相关系数用于衡量两个定量变量之间线性关系的方向和密切程度。
对于n个观测单位的x变量和y变量,其均数和标准差分别为x、y和sx,sy,则x和y的直线相关系数r为: r=lxy/√lxx√lyy。
方向和强度:
①直线相关系数的方向:r为正表示变量之间呈正相关,r为负表示变量之间呈负相关。
②直线相关系数的强度:r无单位,取值范围在1到-1之间,r值接近于0说明线性相关弱,r取值由0接近1或-1,关系的密切程度增高。r值趋近于1或-1,说明各个点与直线的距离很近。只有散点图中所有点恰好落在一条直线上时,才会出现极端值1或-1。
在解释直线相关系数时,应特别注意以下几点:
一、直线相关要求两个变量均为定量变量。
二、r的计算去掉了量纲的影响,本身没有单位,只是一个数值。
三、直线相关只衡量两个变量之间线性关系的方向和密切程度,而不能描述其他情形的关系,如曲线关系。
四、相关系数受离群点的影响。当散点图中出现离群值点时,应慎用相关。
五、相关系数不是对两变量数据的完整描述,在给出相关系数时,还应给出两个变量的均数和标准差。在解释直线相关系数时,应特别注意以下几点:
一、直线相关要求两个变量均为定量变量。
二、r的计算去掉了量纲的影响,本身没有单位,只是一个数值。
三、直线相关只衡量两个变量之间线性关系的方向和密切程度,而不能描述其他情形的关系,如曲线关系。
四、相关系数受离群点的影响。当散点图中出现离群值点时,应慎用相关。
五、相关系数不是对两变量数据的完整描述,在给出相关系数时,还应给出两个变量的均数和标准差。