下一章 上一章 目录 设置
9、第九章 异常值 她的异常值 ...
-
她的异常值在告诉他:她最需要的,不是别的,而是他是否在她身边。
陆明远发现他所有的分析,都是基于一个假设:那些数据是“正常”的。正常的意思是,它们遵循某种规律,可以用统计模型来描述和预测。
但统计学里有一个概念叫“异常值”。异常值是那些偏离规律的点,是不应该出现却出现了的点,是无法用模型解释的点。
在之前的分析中,他有意无意地忽略了一些异常值。比如2020年,消费增量是-1056,这是整个序列里唯一的负数,是巨大的异常。比如2021年,她的日记提到他的次数是28次,是前一年的将近两倍,也是异常。比如2003年,非典那年,他出差天数只有30天,她的情感指数突然升到7分,也是异常。
这些异常值,他看到了,但没有专门分析。他把它们当作“特殊情况”,用虚拟变量处理了一下,就过去了。
但现在他想,也许这些异常值,才是她最想让他看见的东西。
因为异常值意味着例外,意味着不寻常,意味着某些年份发生了特别的事。而那些特别的事,往往是最重要的。
他决定专门做一次分析:异常值分析。
他先把所有可能的异常值列出来。
从消费数据看:
2020年:-1056,唯一负数。
1994年:+740,是前一年的近两倍,是当时的历史最高增量。
2007年:+1300,是第一个破千的增量。
2019年:+1951,历史最高增量。
1988年:+220,是前一年的两倍多,是八十年代的最高增量。
从情感指数看(他之前估的那个1-10分):
2003年:7分,比前后几年都高。
2020年:7分,比前几年(2-4分)高很多。
2021年:8分,历史最高之一(和1990年的9分接近)。
1994年:6分?不对,他之前给1994年打的是6分,但1994年他们吵架最多,应该更低才对。他重新看了日记,发现1994年虽然吵架多,但她的日记里也有“他今天回来得早”“我们一起吃饭了”这样的记录。也许那一年,她的情感不是单纯的差,而是波动很大。有高有低,平均下来6分也算合理。但1994年的消费增量那么高,和情感指数的关系是什么?
从日记提到他的次数看:
2021年:28次,异常高。
2020年:15次,也比前几年高。
2003年:21次,非典那年。
1990年:47次,新婚那年。
1994年:28次?等一下,他之前统计的1994年是28次?不对,他翻出之前的统计:1990年47,1991年43,1992年38,1993年32,1994年28。1994年是28次,不算特别高,但也不算低。和2021年一样?2021年是28次。巧合吗?
从出差天数看:
2020年:43天,异常低(因为疫情)。
2021年:12天,历史最低。
2003年:30天,异常低(非典)。
2019年:118天,历史最高(除了2020、2021,是最高)。
2018年:115天,也很高。
2017年:112天,很高。
他把这些异常值列成一个表格:
年份消费增量情感指数日记提到他出差天数备注
1988+220 ? ? ? 他们认识那年
1990? 9 47 ? 结婚那年
1994+740 6 28 ? 吵架最多,通胀高峰
2003? 7 21 30 非典,他被困在家
2007+1300 4 9 87 她事业高峰
2008+1246 3 8 92 她父亲去世
2013+1814 4 5 98 她评正高
2019+1951 2 2 118 她复发,没告诉他
2020-1056 7 15 43 她确诊,他陪她
2021+1525 8 28 12 她最后一年
这些年份,都是异常值。有的是消费异常,有的是情感异常,有的是日记异常,有的是出差异常。
他想,这些年份,应该就是她人生的关键节点。
他开始一个一个分析这些异常值。
先从2020年开始。这是最明显的异常:消费增量-1056,唯一负数。
2020年,她确诊癌症。那一年,她住院、化疗、手术。大部分时间在医院,没有机会消费。吃的医院提供,穿的病号服,用的都是之前买的。所以消费支出大幅下降。
但她的情感指数是7分,比前几年的2-4分高很多。为什么?
因为他在陪她。
2020年,他出差43天,比2019年的118天少了75天。他陪她在医院,陪她做检查,陪她等结果,陪她熬过那些难受的日子。她虽然生病,但他在身边,所以她开心。
这是一个重要的发现:她的情感指数,和她的健康状况没有直接关系,和他是否在有关。2020年,她病得很重,但她情感指数高。2019年,她还没确诊(但已经复发),他出差118天,她情感指数只有2分,历史最低。
她的病,她不怕。她怕的是一个人扛。
2020年的异常值,在告诉他:她最需要的,不是健康,是他。
再看2019年。
2019年,消费增量1951,历史最高。为什么那么高?
他翻出2019年的日记。那一年,她复发,但没告诉他。她一个人去医院,一个人做检查,一个人等结果。结果不好的时候,她一个人消化。
那一年,她花钱很多。买了什么?他翻她的购物记录。
2019年3月,她买了一件大衣,三千八。她平时很少买这么贵的衣服。
2019年5月,她买了一个包,两千多。她也不怎么买包。
2019年7月,她买了一台新电脑,八千多。她原来的电脑还能用。
2019年9月,她买了一套护肤品,一千五。
2019年11月,她买了很多保健品,三千多。
他算了一下,2019年她花在“非必需品”上的钱,大概有两万多。加上日常消费,总消费比2018年多了1951元(这是增量,不是总额)。但这是平均值,城镇居民人均消费支出是28063元,她个人肯定超过这个数。
她为什么花那么多钱?
他想起那些日记里的话:“他不在,我一个人。花钱的时候,好像就不那么难过了。”
原来,她用花钱来填补他的缺席。他不在,她就买东西。买完东西,暂时忘记他在外面。忘记他在外面,就不那么难受了。
2019年,他出差118天,历史最高。她一个人扛着复发的恐惧,一个人去医院,一个人等结果。她难受的时候,就花钱。花钱的时候,就不那么难受。
所以消费增量创了新高。
这是一个典型的补偿行为:用物质补偿情感的缺失。
但2020年,他回来了,她就不需要补偿了。所以消费增量变成负数。
2019年的异常值,在告诉他:她在他缺席的时候,用花钱来止痛。花的越多,痛得越深。
再看1994年。
1994年,消费增量740,是当时的历史新高。那一年,他们吵架最多,通胀最严重。
他翻出1994年的日记。
1994年1月:“今天又吵架了。为了钱。他说我不该买那件衣服,我说我一年没买衣服了。吵完,他摔门出去。我一个人哭。”
1994年3月:“物价涨得太快了,工资不够花。他说要省着点,我同意。但省着点是什么意思?是不要吃饭还是不要活着?”
1994年5月:“今天他出差,走了。我一个人在家,突然觉得轻松。不用吵架了。”
1994年7月:“他又出差。我一个人逛街,买了双鞋。回来之后有点后悔,但买都买了。”
1994年9月:“物价还在涨。他的工资涨了一点,我的也涨了一点,但赶不上物价。我们又开始吵架。吵完,他走了,我一个人。”
1994年11月:“快过年了,他还在出差。我一个人准备年货,买了很多。花了很多钱。但无所谓了。”
那一年,她花钱多,不是因为开心,是因为不开心。吵架,他走,她一个人,花钱。循环往复。
1994年的消费增量高,和2019年一样,都是补偿行为。但1994年补偿的是吵架的痛苦,2019年补偿的是复发的恐惧。
不一样的原因,一样的补偿。
再看2003年。
2003年,非典。那一年,他被困在家,出差只有30天。她的情感指数7分,比前后几年都高。日记提到他的次数21次,也比前后几年高。
他翻出2003年的日记。
2003年4月:“非典,他不用出差了。天天在家。我们一起做饭,一起看电视,一起发呆。真好。”
2003年5月:“一个月了,他还在家。我有点不习惯。但挺好的。”
2003年6月:“他说要回单位了,我有点舍不得。但没办法。”
2003年7月:“他又出差了。这次只去了三天。三天定律又来了,但这次好像没那么难受。因为他在家待了一个月。”
2003年是一个异常值,但不是坏的异常。是好的异常。那一年,他被迫在家,被迫陪她,被迫和她一起过日子。她发现,原来过日子可以这么好。
2003年的异常值,在告诉他:如果他能一直在家,她会一直这么开心。
但他没有。非典结束,他又开始出差。2004年,出差90天,她的情感指数降到4分。2005年,出差100天,降到3分。一切回到原点。
2003年像一个短暂的梦,梦醒了,还是原来的生活。
再看2007年和2013年。
2007年,消费增量1300,第一次破千。那一年,她事业高峰,拿了大项目,成了知名学者。但她的情感指数只有4分,日记提到他只有9次。
2013年,消费增量1814,又一个新高。那一年,她评正高,职业生涯顶峰。但她的情感指数只有4分,日记提到他只有5次。
这两个年份的异常,是“事业成功但情感失败”的异常。
他翻出那两年的日记。
2007年8月:“今天拿了项目,很开心。想告诉他,他出差了。打电话,他说在开会,晚点说。后来没打回来。”
2007年10月:“项目进展顺利,大家都夸我。他不在,没人夸。”
2007年12月:“年底了,这一年收获很多。但总觉得缺点什么。”
2013年3月:“评正高了,这是我一直想要的。但他不在。我给他发微信,他说‘厉害’。就两个字。”
2013年5月:“正高之后,还是一个人吃饭,一个人看电视,一个人等他。”
2013年11月:“我在想,我这么努力,到底是为了什么?为了他夸我一句?他从来不夸。”
事业的成功,没有带来情感的满足。因为他不在。他不在,再大的成就也没人分享。他不在,再高的职位也没人在乎。
2007年和2013年的异常值,在告诉她:她要的不是事业,是他。但她已经走得太远,回不去了。
再看1988年和1990年。
1988年,他们认识。消费增量220,是前一年的两倍多。那一年她二十岁,大四,正在谈恋爱。花钱多,正常。
1990年,他们结婚。日记提到他47次,历史最高。情感指数9分,也是最高。那一年,她最幸福。
这两个年份的异常,是“幸福的异常”。是所有异常里唯一让她开心的异常。
他翻出那两年的日记。
1988年5月:“今天认识了一个人,他说他叫陆明远。统计局的。说话有点笨,但挺可爱的。”
1988年7月:“他约我出去吃饭,我去了。他说他喜欢我。我说我知道。”
1988年10月:“我们在一起了。他很忙,但每天都给我打电话。”
1988年12月:“跨年,我们一起。他说以后每年都一起过。我信了。”
1990年3月:“领证了。我是他妻子了。”
1990年5月:“新婚,每天都开心。他下班就回来,我们一起做饭。虽然做得不好吃,但开心。”
1990年8月:“他出差,第一次。我等他回来。三天的时候特别想他,但忍住了。他回来的时候,给我买了礼物。”
1990年12月:“这一年真好。希望以后每一年都这么好。”
但以后每一年,没有这么好。
1991年,日记提到他43次,少了4次。1992年,38次,又少了5次。1993年,32次,再少6次。1994年,28次,少4次。一直降到2019年的2次。
那条曲线,从47次一路下滑到2次。像一条悲伤的滑坡。
1988年和1990年是起点,是最高点。之后全是下坡。
陆明远把所有异常值放在一起,画成一张图。
横轴是年份,纵轴是“异常程度”(他用Z分数表示,即偏离均值的标准差倍数)。
1988年:消费增量Z=1.2(正异常)
1990年:日记提到他Z=3.8(巨大正异常),情感指数Z=2.5(正异常)
1994年:消费增量Z=2.1(正异常)
2003年:情感指数Z=2.0(正异常),日记提到他Z=1.5(正异常),出差天数Z=-2.3(负异常)
2007年:消费增量Z=2.3(正异常)
2008年:消费增量Z=2.1(正异常),情感指数Z=-1.2(负异常?等一下,2008年情感指数3分,低于均值,是负异常)
2013年:消费增量Z=2.8(正异常)
2019年:消费增量Z=3.1(最大正异常),情感指数Z=-2.5(最大负异常),日记提到他Z=-2.2(最大负异常),出差天数Z=2.8(最大正异常)
2020年:消费增量Z=-4.5(巨大负异常),情感指数Z=2.0(正异常),日记提到他Z=1.2(正异常),出差天数Z=-2.8(负异常)
2021年:消费增量Z=2.4(正异常),情感指数Z=2.5(正异常),日记提到他Z=2.8(正异常),出差天数Z=-3.5(巨大负异常)
这张图里,最突出的点是:
2019年:四个异常,三个正(消费、出差)两个负(情感、日记)。他重新数了一下:消费正,出差正,情感负,日记负。正负抵消,但绝对值都很大。这是矛盾的一年:他出差最多,她花钱最多,但她情感最低,日记最少。
2020年:四个异常,两个正(情感、日记)两个负(消费、出差)。也是矛盾:他陪她最多,她花钱最少,但她情感高,日记多。
2021年:四个异常,三个正(消费、情感、日记)一个负(出差)。还是矛盾:他几乎不出差,她花钱多,情感高,日记多。但这是最后一年。
1990年:三个正异常(日记、情感、消费?1988年的消费异常也算?1990年消费没有异常,但日记和情感是异常)。
2003年:两个正(情感、日记)一个负(出差)。
这些异常值,像一个个路标,标记着她人生的重要时刻。
1988-1990:幸福的起点。
1994:吵架的巅峰。
2003:短暂的梦。
2007-2008:事业的顶峰,情感的谷底。
2013:事业的又一个顶峰,情感的又一个谷底。
2019:最孤独的一年。
2020:最需要他的时候,他终于在了。
2021:最后的一年。
陆明远盯着这张图,看了很久。
他发现一个规律:所有正的消费异常(花钱多的年份),都对应着负的情感异常(不开心)或者他的出差异常(他不在)。除了1988年,那是恋爱的开始,花钱多是因为开心,但1988年他还没开始出差,所以不算。
1994年:花钱多,因为吵架多,他不开心。
2007年:花钱多,因为他不在,她不开心。
2008年:花钱多,因为他不在,她父亲去世,她不开心。
2013年:花钱多,因为他不在,她不开心。
2019年:花钱多,因为他不在,她生病,她不开心。
2021年:花钱多,因为他在,但她快走了。这是例外。
而所有正的消费异常里,2019年最极端。那一年,他出差最多,她花钱最多,她情感最低。那是她人生最孤独的一年。
反过来看,所有负的消费异常(花钱少的年份),只有2020年。那一年,他陪她最多,她情感最高。那是她人生最后一段开心的日子。
这个规律太明显了,明显到不需要统计检验:
他不在,她花钱。他越不在,她花钱越多。
他在,她不花钱。他越在,她花钱越少。
花钱,是她填补他缺席的方式。
不花钱,是因为不需要填补。
陆明远继续分析,发现另一个规律。
所有正的日记异常(日记提到他多的年份),都对应着他的出差负异常(他出差少)或者情感正异常(她开心)。除了1994年,那一年日记提到他28次,不算特别异常,但也不低。
1990年:日记多,因为他刚结婚,他在。
2003年:日记多,因为非典,他在家。
2020年:日记多,因为她确诊,他陪她。
2021年:日记多,因为最后一年,他一直在。
而所有负的日记异常(日记提到他少的年份),都对应着他的出差正异常(他出差多)或者情感负异常(她不开心)。比如2019年,日记只有2次,他出差118天。
日记里提到他的次数,直接反映他在她生活中的在场感。他在,她就写他;他不在,她就不写。简单直接。
但有一个例外:1994年,他出差多(估计90天左右),她日记提到他28次,不算少。那一年,她虽然吵架多,但还是经常提到他。可能是因为吵架也是一种在场,一种强烈的情感连接。
所以,日记提到他的次数,不是单纯的“他在不在”,而是“她有没有想起他”。他不在的时候,她也会想起他,但想起的次数会减少。吵架的时候,她也会想起他,而且是带着情绪的想起。
陆明远发现第三个规律。
所有正的情感异常(她开心的年份),都对应着他的出差负异常(他出差少)或者日记正异常(她写他多)。比如1990年、2003年、2020年、2021年。
所有负的情感异常(她不开心),都对应着他的出差正异常(他出差多)或者消费正异常(她花钱多)。比如2019年、2008年(她父亲去世,他不开心,但她日记提到他少,消费高)。
情感指数,是他缺席与否的晴雨表。
他在,她开心。他不在,她不开心。就这么简单。
陆明远把这些规律总结成一个公式:
Y = α - β1×出差 + β2×健康 - γ×(缺席补偿)
其中,缺席补偿包括:消费、加班、一个人等等。但这些补偿变量,又是出差的函数:补偿 = δ×出差 + ε。
所以,最终她的情感,是出差的一个复杂函数。直接效应是负的(他不在,她不开心),间接效应是通过补偿来缓解,但补偿本身也会消耗她的精力、金钱、情感。
2019年,出差最大,补偿最大,但情感最小。因为补偿不够。补不上那个缺口。
2020年,出差最小,补偿最小,但情感最大。因为不需要补偿。
这个公式,他应该早点知道。早点知道,就会早点回家。
但他不知道。
她也没告诉他。
所以他在外面出差的时候,她在家里用花钱补偿。他在外面开会的时候,她在家里一个人扛。他在外面应酬的时候,她在家里数日子,数到第三天最难熬。
那些年,他以为她在等他。现在他知道,她是在熬。
等和熬,不一样。
等是有期待的。熬是没有期待,只有忍耐。
她熬了三十一年。从1990年等到2021年。从47次等到2次。从9分等到2分。
然后她走了。
那天晚上,陆明远写下了又一封信。
信里写:
“林墨:
我发现了一个规律。你花钱多的年份,都是我不在的年份。你花钱最多的那年,2019年,是我出差最多的那年,也是你最不开心的一年。
你日记里写我的次数,和我出差的天数,成反比。我出差越多,你写我越少。不是不想我,是不敢想。想了难受,不如不想。
你情感指数的高低,和我出差的多少,直接相关。我在,你开心。我不在,你不开心。就这么简单。
那些异常值,1994、2003、2007、2008、2013、2019、2020、2021,每一个都是你人生的节点。每一个都在告诉我一件事:你需要我。
但我没在。
1994年,我们吵架最多的时候,我没在。我以为吵架是因为钱,其实是因为我不在。
2003年,非典那一年,我在了,你就开心了。但非典结束,我又走了。
2007年,你事业高峰,我不在。你一个人庆祝。
2008年,你父亲去世,我不在。你一个人扛。
2013年,你评正高,我不在。你一个人高兴。
2019年,你复发,我不在。你一个人去医院,一个人等结果,一个人花钱填补空白。
2020年,你确诊,我在了。你就开心了,虽然你病得那么重。
2021年,你最后一年,我一直在。你就更开心了,虽然你已经快要走了。
这三十一年,你就像一条曲线,起伏不定。但所有的起伏,都和我有关。我在,你就高。我不在,你就低。
我应该是你人生里最重要的变量。但我一直不知道。
现在我知道了。
对不起,让你等了那么久。
谢谢你的那些异常值。它们是你最想让我看见的东西。”
写完之后,他把信折好,放在文件袋里。
他站起来,走到阳台上。四月的北京,晚上还有点凉。他看着外面的夜空,灰蒙蒙的,看不见星星。
但她就在那里。在那些数据里,在那些异常值里,在那些她最想让他看见的地方。
他站了很久……