晋江文学城
下一章 上一章  目录  设置

14、第十四章 多重共线性 多重共线性 ...


  •   多重共线性,就是我们是纠缠在一起的,分不开。

      陆明远发现了一个问题。
      他试图把所有可能影响她情感的因素都放进一个模型:出差天数、健康、年龄、工作压力、家庭事件、宏观经济、季节、天气……但他很快发现,这些变量之间高度相关。
      出差天数和她的健康相关。她健康的时候,他出差多;她不健康的时候,他出差少——不对,恰恰相反,她不健康的时候,他出差反而更多,因为他不知道。
      出差天数和年龄相关。他越老,出差越多?不一定。他三十多岁的时候出差多,四十多岁的时候出差更多,五十多岁的时候达到顶峰。年龄和出差,正相关。
      出差天数和宏观经济相关。经济好的时候,调研多,出差多。经济差的时候,调研少,出差少。
      她的健康和年龄相关。年纪越大,健康越差。
      她的健康和宏观经济相关?不直接,但间接。经济好的时候,她工作压力大,健康受影响;经济差的时候,她工作压力小,健康可能好一点。但也不一定。
      这些变量互相缠绕,分不清谁是谁。
      这叫多重共线性。多重共线性是指回归模型中两个或多个自变量高度相关,导致无法区分它们各自对因变量的影响。
      他想知道,在他的模型里,哪些变量是真正独立的,哪些是互相缠绕的。
      他先做了一个相关矩阵。
      变量:
      X1 = 出差天数
      X2 = 健康(1=健康,0=不健康)
      X3 = 年龄(她当年的年龄)
      X4 = 工作压力(他估的,1-5分)
      X5 = 家庭事件(1=有重要事件,0=无)
      X6 = GDP增速
      X7 = CPI涨幅
      X8 = 季节(1=春夏,0=秋冬?不对,季节需要多个虚拟变量)
      他用2007-2021年的数据,计算这些变量的相关系数。
      结果:
      X1和X2:-0.42(负相关,她健康的时候,他出差反而少?不对,2016-2019年她不健康,他出差最多,所以应该是负相关)
      X1和X3:0.51(正相关,年龄越大,出差越多)
      X1和X4:0.63(正相关,工作压力越大,出差越多)
      X1和X5:0.38(正相关,有家庭事件的年份,出差也多)
      X1和X6:0.29(正相关,经济好,出差多)
      X1和X7:0.31(正相关,通胀高,出差多?不一定)
      X2和X3:-0.58(负相关,年龄越大,健康越差)
      X2和X4:-0.32(负相关,工作压力大,健康差)
      X2和X5:-0.27(负相关,有家庭事件,健康差)
      X2和X6:0.12(弱相关)
      X2和X7:-0.08(弱相关)
      X3和X4:0.44(正相关,年龄越大,工作压力越大)
      X3和X5:0.35(正相关,年龄越大,家庭事件越多)
      X3和X6:-0.21(负相关,年龄越大,GDP增速越低?不一定)
      X3和X7:0.18(弱相关)
      X4和X5:0.41(正相关,工作压力大的年份,家庭事件也多)
      X4和X6:0.33(正相关,经济好,工作压力大)
      X4和X7:0.27(正相关,通胀高,工作压力大)
      ……
      这张相关矩阵里,很多相关系数超过0.3,有些超过0.5。X1、X2、X3、X4之间,互相纠缠,分不清楚。
      这就是多重共线性。
      他试着把所有变量放进一个回归模型。
      Y(情感指数)= a + b1×X1 + b2×X2 + b3×X3 + b4×X4 + b5×X5 + b6×X6 + b7×X7 + ε
      样本量只有15,变量却有7个。自由度严重不足。
      结果出来了:
      X1系数 = -0.041 (p=0.12) —— 不显著了!
      X2系数 = 1.87 (p=0.08) —— 边缘显著
      X3系数 = -0.03 (p=0.67) —— 不显著
      X4系数 = -0.12 (p=0.54) —— 不显著
      X5系数 = 0.24 (p=0.63) —— 不显著
      X6系数 = 0.05 (p=0.81) —— 不显著
      X7系数 = -0.02 (p=0.89) —— 不显著
      R? = 0.74,很高,但所有变量都不显著。
      这是典型的多重共线性症状:模型整体解释力强,但单个变量都不显著。因为变量之间高度相关,分不清谁是谁。
      他之前证明了的出差天数的影响,现在变得不显著了。不是因为影响消失了,是因为被其他变量“抢”走了解释力。
      他想知道,到底是谁抢走了它的解释力。
      他做了一件事:方差膨胀因子检验。
      方差膨胀因子(VIF)衡量多重共线性的严重程度。VIF > 10,说明严重共线性;VIF > 5,说明中等共线性;VIF < 5,通常可以接受。
      他计算每个变量的VIF。
      X1(出差天数):VIF = 8.7
      X2(健康):VIF = 7.2
      X3(年龄):VIF = 6.8
      X4(工作压力):VIF = 5.9
      X5(家庭事件):VIF = 3.2
      X6(GDP增速):VIF = 2.1
      X7(CPI涨幅):VIF = 1.9
      X1、X2、X3、X4的VIF都超过5,X1接近9。说明这些变量之间存在严重的多重共线性。
      他和她、年龄、健康、工作压力,这些概念本身就有内在联系,不可能完全分开。
      他试图分开,但数据不让他分开。
      陆明远想了一个办法:主成分分析。
      主成分分析可以把多个相关变量压缩成几个不相关的综合变量。用这些综合变量代替原始变量,可以解决多重共线性问题。
      他把X1到X7输入,做主成分分析。
      结果:
      第一主成分:特征值3.87,解释方差比例41%
      第二主成分:特征值2.12,解释方差比例23%
      第三主成分:特征值1.34,解释方差比例14%
      前三个主成分累计解释78%的方差。
      第一主成分的载荷:
      X1:0.42
      X2:-0.38
      X3:0.35
      X4:0.31
      X5:0.24
      X6:0.18
      X7:0.12
      这个主成分,可以解释为“他的忙碌和她的代价”。出差多、健康差、年龄大、工作压力大、家庭事件多,这些变量在这个主成分上都有较高的正载荷(健康是负载荷,所以健康差对应正)。
      第二主成分的载荷:
      X1:0.21
      X2:0.15
      X3:-0.28
      X4:0.33
      X5:0.41
      X6:0.35
      X7:0.29
      这个主成分,可以解释为“外部压力”。家庭事件、工作压力、经济因素,在这个主成分上载荷较高。
      第三主成分的载荷:
      X1:0.08
      X2:0.11
      X3:0.12
      X4:0.14
      X5:-0.32
      X6:0.45
      X7:0.51
      这个主成分,可以解释为“宏观经济”。GDP增速和CPI涨幅在这个主成分上载荷较高。
      他用这三个主成分做回归:
      Y = a + b1×PC1 + b2×PC2 + b3×PC3 + ε
      结果:
      PC1系数 = -1.23 (p=0.001)
      PC2系数 = -0.34 (p=0.08)
      PC3系数 = 0.12 (p=0.42)
      R? = 0.68
      第一主成分显著,第二主成分边缘显著,第三主成分不显著。
      这说明,真正影响她情感的,是第一主成分所代表的那些东西——他的忙碌和她的代价。出差、健康、年龄、工作压力,这些因素纠缠在一起,共同影响她。
      分不开,也不需要分开。
      因为现实就是这样。现实中,他的出差和她的健康、他的压力和她的年龄,本来就是一起发生的。她不是因为某一个原因不开心,她是因为所有这些一起不开心。
      陆明远看着那个第一主成分的载荷,久久说不出话。
      0.42、-0.38、0.35、0.31……这些数字,像一个公式:
      她的不开心 = 0.42 ×他的出差 + 0.38 ×她的不健康 + 0.35 ×她的年龄 + 0.31 ×他的压力 + ……
      这个公式,就是他们三十一年的婚姻。
      他想,如果她能看见这个公式,会说什么?
      也许会说:“明远,你终于算出来了。”
      也许会说:“原来我这么多年,就是在等你算出这个。”
      也许会说:“但算出来了,又有什么用呢?”
      他不知道。
      但他知道,这个公式是真实的。那些数字,是从他们三十一年的生活里提取出来的。每一个载荷,都是一段日子。0.42是他不在的那些夜晚,0.38是她一个人去的医院,0.35是她越来越沉默的眼神,0.31是他越来越大的压力。
      这些数字,就是他们的人生。
      陆明远又做了一个分析:岭回归。
      岭回归是一种专门处理多重共线性的方法。它通过引入一个小的偏误,来降低估计的方差,得到更稳定的系数。
      他用岭回归重新估计模型。
      岭迹图显示,当岭参数λ=0.1时,系数开始稳定。
      稳定后的系数:
      X1:-0.048
      X2:1.65
      X3:-0.02
      X4:-0.08
      X5:0.18
      X6:0.03
      X7:-0.01
      出差天数的系数是-0.048,比之前的-0.062小了一点,但方向不变,大小也合理。
      这说明,即使考虑了多重共线性,出差仍然有显著的负向影响。
      其他的变量,健康的系数1.65,也合理。其他的,都很小。
      结论不变:出差,是影响她情感的最重要因素。
      陆明远想起一个词:混杂。
      多重共线性的本质,是变量之间互相混杂,分不清彼此。但在现实中,很多因素本来就是混杂的。他的出差和她的健康,怎么可能分开?他出差多的时候,她一个人扛着,身体当然会受影响。她身体不好的时候,他可能出差更多,因为他不知道。这就是一个系统,一个整体。
      统计学试图分开它们,但现实不允许。
      他想起她说过的一句话。那是很多年前,他们还在谈恋爱的时候。有一次她问他:“明远,你说人的命运,是由什么决定的?”
      他说:“很多因素吧。家庭、教育、机遇、努力。”
      她说:“我觉得,是关系。是和别人的关系。你和谁在一起,你为谁付出,谁为你等待,这些关系,决定了你是什么样的人。”
      他当时不太懂,说:“那我们的关系呢?”
      她说:“我们的关系,会让你变成更好的人。”
      他问:“那你呢?”
      她说:“我也会。”
      现在他懂了。
      关系,就是那些互相纠缠的因素。他和她,就是彼此的变量。他影响她,她影响他。分不开,也不需要分开。
      陆明远想到一个更深的问题:如果他是一个变量,她也是一个变量,那他们的关系是什么?
      是协方差?是相关系数?是回归系数?是主成分?
      都是,也都不是。
      统计学可以描述关系,但不能定义关系。统计学可以说出0.42、-0.048、0.68,但不能说出这些数字背后的东西。那些东西,只有他们自己知道。
      他翻出她的日记,找她写过的关于“我们”的话。
      1990年:“我们结婚了。我们是夫妻了。”
      1994年:“我们吵架了。但我们还是我们。”
      2003年:“我们一起待了一个月。真好。”
      2008年:“我们之间,好像隔了点什么。”
      2013年:“我们还是我们,但又不是我们了。”
      2019年:“我们……我不知道。”
      2020年:“我们在一起。他陪着我。”
      2021年:“我们。这个词,我说了三十一年。”
      三十一年,她说“我们”说了无数次。每一次,含义都不一样。有时候甜蜜,有时候苦涩,有时候期待,有时候失望,有时候绝望,有时候不舍。
      “我们”这个词,本身就是多重共线性。包含了所有那些纠缠不清的东西。
      那天晚上,陆明远做了一个梦。
      梦里他和林墨坐在一张桌子前,桌上放着一张很大的表格,密密麻麻的数字。她指着表格,说:“你看,这是我们的数据。”
      他看。那些数字他太熟悉了:1988年的220,1990年的47,1994年的740,2003年的7,2007年的1300,2008年的3,2013年的1814,2019年的1951,2020年的-1056,2021年的28。
      她说:“这些数字,都是我们。”
      他说:“我知道。”
      她说:“你知道这些数字之间是什么关系吗?”
      他说:“多重共线性。分不开。”
      她笑了,说:“对。分不开。”
      她站起来,走到他身边,弯下腰,在他耳边轻声说:
      “分不开,就不用分。”
      他醒了。
      凌晨四点,窗外还是黑的。他躺在床上,想着那句话。
      分不开,就不用分。
      是的。他和她,本来就分不开。那些数据,那些年份,那些数字,都是他们。分不开的他们。
      他不需要分清哪个是因,哪个是果。哪个是主,哪个是从。哪个是核心,哪个是边缘。
      他们就是他们。纠缠在一起,分不开。
      “林墨:
      我终于知道什么是多重共线性了。多重共线性,就是我们是纠缠在一起的,分不开。
      你的健康,我的出差;你的年龄,我的压力;你的家庭事件,我的工作;你的情感,我的存在。这些,都分不开。
      我试图分开它们,用主成分,用岭回归,用各种方法。但最后我发现,分不开,就不用分。
      你是我生命里的主成分。解释力41%。不,是100%。
      那些纠缠在一起的日子,1990、1994、2003、2007、2008、2013、2019、2020、2021,都是我们。
      分不开的我们。
      谢谢你,用三十一年教我什么叫‘我们’。
      从今以后,我不会再试图分开。我会接受所有的纠缠,所有的共线性,所有分不开的东西。
      因为那就是我们。”
      写完之后,他把信折好,放回文件袋。
      天又快亮了。
      他想,天亮之后,他要去看她。
      不是去烧信,是去看她。去和她说说话,告诉她这些天他发现了什么。告诉她,他知道了什么是多重共线性,什么是分不开的我们。
      她会听的。
      她一直都在听。

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>