下一章 上一章 目录 设置
11、第十一章 残差 残差,就是 ...
-
残差,就是我没告诉你的那些事。
陆明远盯着屏幕上的那些点,看了很久。
那些点,是他上一次做的回归模型的残差。残差就是实际值和预测值的差。如果模型是完美的,残差应该随机分布,没有规律。如果残差有规律,说明模型漏掉了什么东西。
他的模型是:情感指数 = 9.82 - 0.062 ×出差天数。R?=0.64,不算完美,但也不差。
他把残差算出来,画了一张图。横轴是年份,纵轴是残差(实际情感减去预测情感)。正的代表实际比预测高,她比模型预期的更开心;负的代表实际比预测低,她比模型预期的更不开心。
2007年:实际4,预测=9.82-0.062×87=9.82-5.39=4.43,残差=-0.43
2008年:实际3,预测=9.82-0.062×92=9.82-5.70=4.12,残差=-1.12
2009年:实际3,预测=9.82-0.062×85=9.82-5.27=4.55,残差=-1.55
2010年:实际4,预测=9.82-0.062×88=9.82-5.46=4.36,残差=-0.36
2011年:实际3,预测=9.82-0.062×95=9.82-5.89=3.93,残差=-0.93
2012年:实际3,预测=9.82-0.062×102=9.82-6.32=3.50,残差=-0.50
2013年:实际4,预测=9.82-0.062×98=9.82-6.08=3.74,残差=+0.26
2014年:实际4,预测=9.82-0.062×105=9.82-6.51=3.31,残差=+0.69
2015年:实际3,预测=9.82-0.062×110=9.82-6.82=3.00,残差=0.00
2016年:实际3,预测=9.82-0.062×108=9.82-6.70=3.12,残差=-0.12
2017年:实际3,预测=9.82-0.062×112=9.82-6.94=2.88,残差=+0.12
2018年:实际3,预测=9.82-0.062×115=9.82-7.13=2.69,残差=+0.31
2019年:实际2,预测=9.82-0.062×118=9.82-7.32=2.50,残差=-0.50
2020年:实际7,预测=9.82-0.062×43=9.82-2.67=7.15,残差=-0.15
2021年:实际8,预测=9.82-0.062×12=9.82-0.74=9.08,残差=-1.08
把这些残差画成折线图,他看到了一条波动的曲线。大部分残差在-1到+1之间,但有几个点比较突出:
2009年:-1.55,她比模型预期的更不开心。
2008年:-1.12,也很不开心。
2021年:-1.08,也不开心——但2021年她的情感指数是8分,很高,为什么残差是负的?因为模型预测她是9.08分,她实际只有8分,所以比预期低。但8分已经很高了,只是模型预期更高。
还有2013、2014、2017、2018,这几个年份残差为正,她比模型预期的更开心。
这些残差,是模型解释不了的部分。是那些不能用出差天数解释的情绪波动。是那些“额外”的开心和“额外”的不开心。
他想知道,这些残差背后是什么。
他开始一个一个分析那些大的残差。
先看2009年,残差-1.55,她比预期不开心得多。
2009年发生了什么?
他翻出2009年的日记。那一年,她写了什么?
2009年1月:“新年,他出差了。我一个人过的。”
2009年3月:“他今天回来,待了三天,又走了。三天定律又来了。”
2009年5月:“我最近身体不太好,老觉得累。没告诉他。”
2009年7月:“他出差,我去医院检查。没什么大事,但医生说要注意休息。”
2009年9月:“中秋节,他不在。我一个人吃月饼。”
2009年11月:“快年底了,他还在出差。我已经习惯了。”
看起来,2009年没什么特别的大事。没有升职,没有获奖,没有亲人去世。但她就是比预期更不开心。
也许是因为那一年,他出差天数85天,不算特别多(比2008年少),但分布不均匀?也许是因为那一年,她身体开始有点小问题?也许是因为那一年,她开始意识到,这种日子会一直持续下去?
残差-1.55,是那些无法量化的东西:疲惫、厌倦、失望、习惯之后的麻木,似黑暗般阴冷。
再看2008年,残差-1.12。
2008年,她父亲去世。
日记里写:
2008年4月:“爸走了。我没能赶回去。他在出差,我一个人订机票,一个人收拾东西,一个人坐飞机回去。办完丧事,一个人回来。”
2008年5月:“他回来了,说节哀。我说嗯。”
2008年6月:“我还是难受,但不知道跟谁说。他在忙。”
2008年8月:“奥运会,我们一起看开幕式。但我心里还是想着爸。”
2008年10月:“爸的百日,我一个人。他在出差。”
父亲去世,是她人生里的大事。但模型没有考虑这个,因为模型只有出差天数。所以2008年,她比预期的更不开心。
-1.12,是父亲去世的悲伤。是他不在的遗憾。是她一个人扛着所有的孤独。
再看2021年,残差-1.08。
2021年,她最后一年。情感指数8分,很高。但模型预期她9.08分,因为她只出差12天。所以实际比预期低。
为什么低?因为她快要走了。
日记里写:
2021年1月:“新年,他在。真好。但我不知道自己还能过几个新年。”
2021年3月:“确诊一周年。他说一年了。我说嗯。其实我在想,还能有几个一年。”
2021年6月:“今天状态不好,难受。他陪着我。我想告诉他我害怕,但没说。”
2021年8月:“医生说要做好心理准备。我准备好了。但他没准备好。”
2021年10月:“我想给他写封信,写了很多遍,都不满意。最后写了一句:谢谢你。”
2021年11月:“这是最后一篇日记了吧。明远,我走了之后,你要好好的。”
-1.08,是面对死亡的恐惧。是放不下他的牵挂。是知道自己要走了,却不知道他能不能扛住。
她比模型预期的更不开心,不是因为他在不在,是因为她快要不在。
再看那些正残差。
2013年,残差+0.26。那一年她评正高。
日记里写:
2013年3月:“评上了!我给他发微信,他说‘厉害’。虽然只有两个字,但我还是高兴。”
2013年4月:“他出差回来了,我们出去吃了顿饭,庆祝了一下。虽然只是小饭馆,但我开心。”
2013年7月:“工作忙,但心情不错。可能是评上正高的原因吧。”
+0.26,是事业成功的喜悦。是她努力得到回报的满足。是他虽然不在,但微信里的“厉害”也让她开心了一下的瞬间。
2014年,残差+0.69。那一年有什么?
2014年,他出差105天,比2013年多,但她的残差却是正的。为什么?
翻日记:
2014年2月:“他今天突然说,我们去看电影吧。我愣了一下,然后说好。很久没一起看电影了。”
2014年5月:“他出差回来,给我带了礼物。一条丝巾,不是多贵,但他记得。”
2014年8月:“我们去三亚了!他说要带我去,这次真的去了。虽然只待了三天,但我特别开心。”
2014年10月:“他今天没加班,回来早。我们一起做饭,一起吃饭,一起看电视。很久没有这样了。”
2014年,他出差多,但他在家的日子里,给了她一些惊喜。那些惊喜,让她的情绪比模型预期的更高。
+0.69,是那些小小的温暖累积起来的效果。
2017年和2018年,残差也是正的。
2017年:+0.12
2018年:+0.31
这两年,他出差很多(112天和115天),但她的残差为正。为什么?
翻日记:
2017年6月:“他今天打电话来,说想我了。这是第一次。我有点想哭。”
2017年9月:“他回来那天,带了一束花。我说怎么想起买花了?他说路过花店,觉得好看。我知道他是特意买的。”
2018年3月:“他今天请假陪我去医院。我说不用,他说没事。检查结果还好,他比我还高兴。”
2018年12月:“跨年,他在。我们一起看烟花。他说,明年少出点差。我说好。”
那些年,他虽然出差多,但他开始变了。开始打电话说想她,开始买花,开始陪她去医院。那些变化,让她在孤独的日子里,多了一点期待。
残差为正,是因为那些期待变成了现实,如阳光般温暖。
陆明远把所有残差列在一起,发现一个规律。
2007-2011年,残差基本都是负的(除了2010年-0.36,也算负)。那几年,她比预期更不开心。
2012-2018年,残差有负有正,但正的年份多了起来。那几年,她开始有一些超出预期的开心。
2019-2021年,残差又是负的(2019-0.5,2020-0.15,2021-1.08)。那几年,她比预期更不开心。
为什么会有这样的变化?
他想,可能是因为2012-2018年,他开始改变了。虽然改变得慢,虽然改变得不够,但确实在改变。那些改变,让她在模型预期之外,多了一些开心。
但2019年,她复发了。2020年,确诊了。2021年,快走了。那些改变,在疾病面前,显得太晚太轻。
残差从负到正再到负,像一条抛物线。顶点在2014年,+0.69,是她最超出预期开心的一年。那一年,他带她去三亚了。
陆明远又做了一个分析:把残差和她的日记内容做关联。
他把每一年的大残差(绝对值大于0.5)对应的日记内容找出来,看看有什么共同点。
负残差年份:2008(-1.12)、2009(-1.55)、2019(-0.5)、2021(-1.08)
2008年日记关键词:父亲去世、一个人、节哀、忙
2009年日记关键词:累、没告诉他、习惯、一个人
2019年日记关键词:没告诉他、一个人、医院、花钱
2021年日记关键词:害怕、准备、走了、好好的
共同点:一个人、没告诉他、害怕。
正残差年份:2013(+0.26)、2014(+0.69)、2017(+0.12)、2018(+0.31)
2013年日记关键词:评上了、厉害、庆祝、开心
2014年日记关键词:看电影、礼物、三亚、没加班
2017年日记关键词:想我了、花、高兴
2018年日记关键词:陪我去医院、还好、少出点差
共同点:他在、礼物、惊喜、一起。
负残差的时候,她一个人扛着所有。正残差的时候,他在身边。
残差,就是他在与不在的差额。
陆明远想起统计学里一个概念:残差分析。
残差分析的目的,是找出模型遗漏的东西。如果残差有规律,说明需要加入新的变量。
他的模型里,只有出差天数。但残差显示,还有别的东西在影响她的情绪。
那些东西是什么?
从正残差的年份看,是他在家时的陪伴质量。出差天数一样多,但陪伴质量高的时候,她就更开心。2014年他出差105天,比2013年的98天还多,但她的残差是正的,因为他带她去三亚了。
从负残差的年份看,是她自己扛着的压力。2008年父亲去世,2019年复发,这些事她没告诉他,他也不知道。所以他继续出差,她继续一个人扛。模型里只有出差,没有这些事,所以残差是负的。
所以,如果要完善模型,需要加入两个变量:
一是陪伴质量。不是他在家的天数,而是他在家的时候做了什么。陪她看电影,加1分;带她去旅游,加2分;买花送她,加0.5分。这些加分,可以解释正残差。
二是她的秘密。那些她没告诉他的事,那些她一个人扛的压力。这些事,会让她的情绪比模型预期的更差。这些“负加分”,可以解释负残差。
但他没有这些数据。日记里有,但那是文字,不是数字。他没法量化。
所以,残差就是那些无法量化的东西。是爱,是痛,是秘密,是惊喜。
陆明远看着那些残差,突然想起一句话。
那是她有一次说的,在他出差回来之后。
她说:“你每次回来,我都觉得像是捡回了一点什么。但你一走,就又丢了。”
他当时不懂,说:“丢了什么?”
她说:“丢了那个你在的时候的我。”
现在他懂了。
那个“你在的时候的我”,和“你不在的时候的我”,是两个不同的她。一个开心,一个不开心。一个会笑,一个不会。一个想说话,一个不想。
他的模型,是用出差天数预测她的情感指数。但残差告诉他,那个“你在的时候的我”,还取决于他在的时候做了什么。如果他在的时候只是在家待着,什么也不做,那她可能还不如他不在——因为他在却不理她,比不在更难受。
2014年,他在的时候带她去三亚了,所以残差是正的。2017年,他在的时候买花了,所以残差是正的。2018年,他在的时候陪她去医院了,所以残差是正的。
而那些负残差的年份,他在的时候,可能什么都没做。
陆明远把所有残差画成一张图,横轴是年份,纵轴是残差。他在图上标出那些她日记里提到的、他做的“特别的事”。
2014年:三亚之旅,残差+0.69
2017年:买花,说想她,残差+0.12
2018年:陪她去医院,残差+0.31
2013年:评正高后吃饭庆祝,残差+0.26
这些“特别的事”,都对应着正的残差。
而那些负残差的年份,没有这些事。2008年,他出差回来,只说“节哀”。2009年,他什么都没做。2019年,他一直在出差。2021年,他想做,但没时间了。
残差,就是这些“特别的事”的积分。做得越多,残差越正。做得越少,残差越负。
他把这些“特别的事”量化,做了一个“陪伴质量指数”。每年,他做了几件特别的事,每件1分。
2007: 0件
2008: 0件
2009: 0件
2010: 0件
2011: 0件
2012: 0件
2013: 1件(庆祝评正高)
2014: 1件(三亚之旅)
2015: 0件2016: 0件
2017: 2件(买花、说想她)
2018: 2件(陪去医院、说少出差)
2019: 0件
2020: 0件(但他在家,陪伴本身就是事?2020年他在家陪她,但那是被动在家,不是主动的特别的事。他想了想,2020年也算,加1分)
2021: 0件(最后一年,他一直陪,也算,加1分)
然后做回归:残差 ~ 陪伴质量指数。
结果:
残差 = -0.76 + 0.58 ×陪伴质量
t值:常数=-2.34(p=0.04),斜率=2.89(p=0.01)
R? = 0.41
陪伴质量可以解释残差变化的41%。也就是说,那些模型解释不了的部分,有四成可以由他在家时的陪伴质量来解释。
剩下的59%,是那些她没告诉他的事。是她的秘密,她的恐惧,她的一个人扛。
陆明远盯着这个结果,久久说不出话。
0.58,意味着每多做一件特别的事,残差提高0.58分。如果一年做两件,残差提高1.16分,足以把一个负残差变成正残差。
那些年,他做得太少了。从2007到2021,十五年,他做了多少件“特别的事”?他数了一下:2013年1件,2014年1件,2017年2件,2018年2件,2020年1件(被动),2021年1件(被动)。总共8件。平均一年0.53件。
如果按0.58分一件算,他每年通过陪伴质量给她的情感加分,只有0.31分。而他的缺席,每年给她减分0.062×出差天数。他出差平均98天,减分6.08分。
加减一算,净减5.77分。
5.77分,是她每年因为他而损失的情感分数。
那些残差,就是这5.77分里,他没能补回来的部分。
那天晚上,陆明远做了一个梦。
梦里他站在一个很大的房间里,房间里全是数字。那些数字像雪花一样飘着,有的落在他身上,有的从他指缝间滑走。他伸手去抓,抓到的却是一片空白。
林墨站在房间中央,穿着那件白衬衫,扎着马尾,正在往一个表格里填写数字。她写得很慢,很认真,每一笔都很用力。
他想走过去,但脚抬不起来。他想喊她,但发不出声音。
她抬起头,看着他,笑了笑,说:“明远,你知道什么是残差吗?”
他张了张嘴,还是发不出声音。
她说:“残差,就是我没告诉你的那些事。”
她低下头,继续写。
“那些我一个人扛的,一个人忍的,一个人哭的。那些你永远不知道的。”
“它们都在残差里。”
他醒了。
凌晨四点,窗外还是黑的。他躺在床上,心跳得很快。那个声音还在脑子里回响:它们都在残差里。
是的,它们都在残差里。
2008年的残差里,有她父亲的死。2009年的残差里,有她的疲惫。2019年的残差里,有她的复发。2021年的残差里,有她的害怕。
那些他没看见的,没听见的,没在意的,都在残差里。
那些她没说的,不能说,不想说,说了也没用的,都在残差里。
残差,就是她三十一年婚姻里,所有他没看见的眼泪。
陆明远起床,走到书桌前。他打开那个文件袋,再次提笔写到:
“林墨:
我终于知道什么是残差了。残差是你没告诉我的那些事。
2008年的残差,是你父亲去世时,我不在。你一个人回去,一个人办丧事,一个人回来。我回来只说‘节哀’。那个残差是-1.12。
2009年的残差,是你累了,身体不舒服,但没告诉我。你一个人去医院,一个人等结果。那个残差是-1.55。
2019年的残差,是你复发了,但没告诉我。你一个人扛着恐惧,一个人花钱填补空白。那个残差是-0.5。
2021年的残差,是你害怕了,但没告诉我。你一个人准备离开,一个人担心我。那个残差是-1.08。
那些正残差的年份,是你开心的时候。2013年评正高,我陪你吃饭。2014年去三亚,我陪你旅游。2017年我买花,说想你了。2018年我陪你去医院。那些残差是正的,因为我在。
残差,就是我在与不在的差额。我在,残差为正。我不在,残差为负。
三十一年,你的残差,大部分是负的。
对不起。
从今以后,我会好好看这些残差。看那些你没告诉我的事,看那些我一个人扛的日子,看你三十一年里所有的眼泪。
我会记住它们。
然后,用剩下的时间,慢慢还。”
写完之后,他把信折好,放回文件袋。
他走到阳台上,看着外面的夜空。四月的北京,凌晨四点,天还没亮。但东边已经有一点点鱼肚白。
他想,天快亮了。
她也在等他天亮吧。