下一章 上一章 目录 设置
2、第二章 离群值 每一个离群 ...
-
每一个离群值的背后,一定有一个特殊的故事。
陆明远在那堆纸面前坐了整整一个晚上。
不是看,是坐。三十页纸摊在餐桌上,台灯的光打在上面,那些数字在光影里显得格外清晰。
1980 412.44
1981 456.84
1982 471.00
……
他不用看都知道这些数字是多少,十五年统计生涯,这些数据已经刻在他脑子里了。
但他没有看数字。他在看那重复的十年。
1980到1989,这十年在数据序列里出现了两次。一次在1970年代序列的末尾,一次在1980年代序列的开头。如果按照时间顺序排列,这十年就像一个回声,在时间的长河里响了两次。
林墨为什么要这样做?
窗外的天已经亮了。陆明远站起来,走到窗边。三月的北京,早上六点,天刚蒙蒙亮,楼下已经有老人在晨练,收音机里放着京剧。他听着那咿咿呀呀的声音,突然觉得很恍惚。七天前,他还在统计局的大楼里做一季度消费形势分析,七天后的现在,他的人生被这三十页纸完全改变了。
他回到餐桌前,把那三十页纸按照时间顺序重新排列。1970-1979,1980-1989,1990-2021,然后又是一遍1980-1989。他把那重复的十年单独抽出来,放在一边。
两份数据,完全相同的十年,但在这组数据里的位置不同。第一份1980-1989是连续的十年,第二份也是连续的十年,一模一样。
陆明远拿起第一份,翻到1989年那一行:1989年,城镇居民人均消费支出,1211元。
他又拿起第二份,翻到同样的年份:1211元。
完全一致。
他想,也许这只是个错误。也许林墨在整理数据的时候不小心把同一份数据打印了两遍,装订的时候也没发现。这种事很常见,他自己就干过。有一次整理2000-2010年的CPI数据,他把2005年的数据重复贴了两次,结果整份报告都错了,被司长骂了整整一个上午。
对,一定是这样。只是个错误。
他把那两份重复的十年叠在一起,准备收起来。
但他的手停在了半空。
不对。
如果只是重复打印,为什么页码上会有那些标记?-3σ,-2.5σ,一直到3σ。他把所有的页码翻出来,按照标记重新排序。从-3σ到3σ,一共三十页,正好对应一个完整的正态分布区间。
而那重复的十年,在-0.5σ、0σ和0.5σ这三页上。
他把这三页抽出来,平铺在桌上。
-0.5σ那一页:1988年。
0σ那一页:1989年。
0.5σ那一页:1990年。
三年,连续出现在正态分布的中心位置。
如果说这是个错误,那这个错误也太精确了。
陆明远给沈瑶打了个电话。
“沈瑶,今天有空吗?”
电话那头沈瑶显然还没睡醒,声音含糊不清:“陆老师?现在才七点……”
“我知道。有点事想请你帮忙。”
“什么事?”
“关于林墨的数据,有些地方我看不懂。”
沉默了几秒,沈瑶的声音清醒了:“好,我上午请个假,九点过去。”
挂了电话,陆明远开始煮咖啡。统计局宿舍楼是老房子,厨房还是八十年代的装修,煤气灶上点火的刹那,“嘭”的一声响,把他自己吓了一跳。他想起来林墨以前说过,这个灶不好用,让他找人修一下。他说好,一直没修。后来林墨就自己习惯了,点火的时候总是把头往后仰,怕被烧到头发。
他端着咖啡回到餐桌前,继续看那些数字。
九点整,门铃响了。
沈瑶站在门口,手里拎着一袋水果。陆明远接过来,说不用这么客气。沈瑶说应该的。两人在门口站着,气氛有点尴尬。沈瑶是林墨的学生,比他小十几岁,平时在单位也只是工作关系,从来没到家里来过。
“进来吧。”陆明远让开身。
沈瑶进门,看见餐桌上摊着的那些纸,脚步顿了顿。
“这么多?”
“三十页。”陆明远说,“你先坐,我给你倒水。”
“不用,我自己来。”沈瑶走到餐桌前,开始看那些纸。她是北大统计系毕业的,在发改委宏观经济研究院做过两年实习生,跟着林墨做过几个课题,对数据的敏感不比陆明远差。
陆明远端了杯水过来,站在她旁边。
沈瑶看了几分钟,抬起头:“这数据有问题。”
“什么问题?”
“你看这里。”她指着1970年的数据,“1970年城镇居民消费支出,官方统计是从1978年以后才有的。1970年的数据,来源是什么?”
陆明远愣了一下。他居然没注意到这个。
沈瑶继续翻:“1971、1972……一直到1977,这些数据都没有官方统计。林老师是从哪弄来的?”
“可能是推算的。”陆明远说,“有些研究需要长序列数据,会用各种方法反推。”
“那也应该有推算依据。”沈瑶指着页脚,“这里什么都没有。”
陆明远沉默了。他发现自己对林墨的工作其实了解很少。他知道她在发改委宏观经济研究院,知道她级别比他高,知道她工资比他多两千三,但具体做什么研究、用什么方法、发什么论文,他从不过问。林墨也从来不说。
十五年了。
“还有这个。”沈瑶指着那些页码标记,“-3σ,这是什么意思?”
“正态分布的标准差区间。”陆明远说,“σ是标准差,从-3到3,覆盖99.7%的数据范围。”
“我知道。”沈瑶说,“我是问,为什么要在页码上标这个?”
“不知道。”
沈瑶继续翻,翻到第15页的时候停住了。
“这一页……”
“0σ,均值的位置。”陆明远说,“上面只有两个年份,1989年。”
沈瑶抬头看他:“1989年?”
“我们认识那年。”
沉默。
沈瑶把那一页纸放回桌上,声音轻了:“陆老师,我觉得这不是简单的数据整理。”
“我知道。”
“这是林老师留给您的东西。”
“我知道。”
“您知道她为什么这么做吗?”
陆明远摇头。
沈瑶沉默了一会儿,说:“林老师以前上课的时候,讲过离群值的概念。”
陆明远看着她。
“她说,离群值就是数据中那些偏离正常的点。有时候是因为错误,有时候是因为异常,但有时候——离群值本身,就是最重要的信息。”沈瑶的声音很轻,像在回忆,“她说,大部分人看见离群值的第一反应是把它删掉,觉得它干扰分析。但真正好的分析师,会问一个问题:为什么这个点会离群?”
“为什么?”
“因为这个点背后,一定有一个特殊的故事。”
下午两点,陆明远回到了统计局。
他请了假,但还是来了。不是因为工作,是因为他想用单位的数据库查点东西。
统计局的数据中心在二楼,一排排服务器嗡嗡作响,空调开得很足,冷得像个冰窖。陆明远走到自己的工位,打开电脑,登录内部系统。
他先查1970-1977年的城镇居民消费数据。
系统里确实没有。官方的城镇住户调查是从1978年开始的,1978年以前的数据,只有一些零星的学术研究推算值,没有统一的口径。
但林墨的数据里有。她是怎么得到的?
他打开知网,搜索相关论文。输入“城镇居民消费1970年代推算”,出来几十篇。他一篇一篇看,发现大部分研究用的方法都差不多:根据农村居民消费、全国居民消费、工农产品价格指数等数据,结合一些历史文献,反推城镇居民的消费水平。
他找到一篇1998年的论文,作者是社科院的,题目叫《建国以来中国居民消费水平的历史演变》。论文里有一张表,列出了1952年到1997年的全国居民消费水平,包括城镇和农村的分项。
陆明远把那张表和林墨的数据对比。
1970年:林墨的数据是315元,论文里是320元,相差5元。
1971年:林墨322元,论文325元,相差3元。
1972年:林墨328元,论文332元,相差4元。
……
每一年的数据都略有出入,但差距很小,基本在5元以内。这说明林墨的数据应该也是基于类似方法推算出来的,只是来源可能不同。
但问题是,林墨为什么要推算这些数据?她的研究领域是宏观经济分析,主要用的是1978年以后的数据,1970年代的数据对她来说太老了,几乎没有实际用途。
除非,她需要的不是这些数据本身,而是别的什么。
陆明远想起那些页码上的标准差标记。从-3σ到3σ,三十页纸,每一页对应一个标准差区间。如果把1970年到2021年所有的数据按照大小排序,落在每个区间里的年份应该是不同的。有些年份消费高,落在右边;有些年份消费低,落在左边;大部分年份在中间。
他打开统计软件,把林墨那六十二个数据点(包括重复的十年)全部输入,然后计算每个数据的Z分数。Z分数是标准化的数值,表示一个数据点距离均值有多少个标准差。
计算结果出来的时候,他的手停在了鼠标上。
1988年:Z = -0.48,约等于-0.5σ。
1989年:Z = 0.02,约等于0σ。
1990年:Z = 0.51,约等于0.5σ。
完美地落在了他之前看到的那三页纸上。
他又算了1980-1989年所有年份的Z分数。1980年:-1.87,1981年:-1.65,1982年:-1.42……一直到1987年:-0.71,然后1988年:-0.48,1989年:0.02,1990年:0.51。
这是一个逐渐上升的序列,从-1.87一直升到0.51,跨越了将近2.5个标准差。而1988、1989、1990这三年,正好处在这个序列的末端,也是最接近均值的位置。
但如果看那重复的十年呢?同样的1980-1989,在另一份数据里,它们被放在了1970-1979和1990-2021之间。在这个序列里,这十年的Z分数变成了多少?
他把那组数据也输了进去。
重新计算之后,结果让他彻底愣住了。
在新的序列里——1970-1979(10年)+1980-1989(10年)+1990-2021(32年)——这五十二年的数据,均值和标准差都变了。1970年代的数据普遍很低,拉低了整体均值,扩大了整体标准差。于是,那重复的十年在新的分布里,位置完全变了。
1980年:Z = 0.82
1981年:Z = 0.91
1982年:Z = 0.97
……
1988年:Z = 1.42
1989年:Z = 1.58
1990年:Z = 1.61
全部在0.8σ以上,最高的1990年甚至接近1.6σ。这意味著在这个序列里,这十年属于中等偏高的水平,离均值不远,但也绝不是中心。
那中心在哪里?
他去看那些Z分数接近0的年份:1970年:-0.12,1971年:-0.08,1972年:-0.03。全是1970年代初。
如果只看这组数据,均值附近是1970年代初期,而不是1980年代末期。
两组数据,同样的年份,因为位置不同,意义完全不同。
陆明远盯着屏幕,脑子里一片空白。
他突然明白林墨在做什么了。
她在用两组不同的参照系,让他看见同一个东西在不同的背景里,可以是完全不同的模样。
第一组数据,只有他们认识之后的年份(1980-2021),1989年在正中心。
第二组数据,加上了他们认识之前的年份(1970-1979),1989年偏到了一边。
所以他想告诉她的是:如果没有你,我的人生可能会在别的地方找到中心。但因为有了你,那十年——尤其是1989年——成了我生命的均值。
他想起林墨说过的一句话。那是他们结婚第五年,有一次他加班到很晚,回到家她已经睡了。第二天早上她问他,昨晚几点回来的?他说十二点多。她没说话。他问怎么了。她说没事,只是等你到十一点,以为你会早点回来。他说下次别等了。她说好。
后来他才知道,那天是他们结婚五周年。
从统计局出来的时候天已经黑了。
陆明远没坐车,沿着长安街往西走。三月的夜风还很凉,吹在脸上像刀割。但他没觉得冷,脑子里全是那些数字。
走到复兴门的时候,他停下来,站在桥上看下面的车流。北京晚上八点,车还是很多,红的白的尾灯汇成两条光带,从东向西,从西向东,交错着流过去。
他想,这些车里的人,每个人都有自己的故事。有些人的故事是连续的,像时间序列,一年接着一年,平平稳稳。有些人的故事里有断点,有缺失值,需要用各种方法去补全。还有些人的故事里有离群值,有那些突兀的、无法解释的时刻——比如第一次见面,比如结婚那天,比如确诊癌症那天,比如死亡那天。
这些离群值会改变整个分布的形状。一个离群值,就能把均值拉偏,把标准差拉大,让原本显著的关系变得不显著,让原本不显著的关系变得显著。
所以很多分析师会删掉离群值,让数据变得“干净”。
但林墨说过,离群值背后一定有一个特殊的故事。
他想,如果把他和林墨十五年的婚姻画成一条曲线,一定也有离群值。那些吵架的时刻,那些沉默的时刻,那些他加班到深夜她独自睡着的时刻,那些她欲言又止他浑然不觉的时刻——在平常的日子里,这些都是离群值,是可以被“清洗”掉的噪音。
但林墨没有把它们当作噪音。
她把它们保留下来了,用一种他不懂的方式。
沈瑶的话又响在耳边:“大部分人看见离群值的第一反应是把它删掉……但真正好的分析师,会问一个问题:为什么这个点会离群?”
他问自己:为什么?
为什么林墨要把那重复的十年放在那个位置?
为什么她要让1989年成为均值?
为什么她要留下这些数据?
他想不出答案。
手机响了,是沈瑶。
“陆老师,您在哪儿?”
“复兴门。”
“我查到一个东西。”沈瑶的声音有点急,“林老师去年申请过一个课题,题目叫‘中国城镇居民消费的长周期演变与结构性断点研究’,批下来了,但没做完。我去院里查了档案,她申请的时候提交了一份数据说明,里面提到她正在整理一套1970-2021年的长序列数据。”
“然后呢?”
“然后我在她的电脑里找到了一个文件夹,里面有几十个版本的相同数据,每一个版本的时间范围都不一样。最早的版本只有1980-2020,后来的版本加了1970年代,再后来的版本又加了别的。我数了一下,一共有十七个版本。”
十七个版本。
陆明远握着手机的手紧了紧。
“她为什么做这么多版本?”
“我不知道。”沈瑶说,“但我注意到一件事——每一个版本里,数据的分布都不一样。有些版本是偏态的,有些版本是对称的,有些版本有多个峰。她好像在尝试什么。”
尝试什么?
尝试用不同的参照系,让同一个东西呈现出不同的意义。
就像那两组数据,同样的1980-1989,一组让它成为均值,一组让它成为偏锋。
她想告诉他的是:你在我生命中的位置,取决于我用什么尺子去量。
用全世界作尺子,你可能只是普通人。用我自己的生命作尺子,你是全部的中心。
那天晚上,陆明远回到家已经十点多了。
他没开灯,直接走到阳台,点了根烟。阳台正对着楼下的马路,偶尔有车经过,灯光一闪而过。他就那么站着,一根接一根地抽,直到嗓子发干发苦。
回到屋里,他又坐在了餐桌前。
那三十页纸还在,在台灯的光里静静地躺着。他拿起那页1989年的,看那个1211的数字。1211元,这是1989年中国城镇居民人均一年的消费支出。如果换成现在,可能只够买一件好点的外套,或者吃几顿饭。但在那个年代,这是一个人一年的吃穿用度。
他不知道1989年林墨是怎么过的。那一年他们刚认识,还在读研究生。他记得第一次见她是在一个学术会议上,她穿着白衬衫,扎着马尾,站在走廊里接电话。阳光从窗户照进来,照在她身上,她侧脸的轮廓被光线勾勒出来,特别好看。他站在旁边等她挂电话,想问一个关于数据的问题。她挂了电话,转头看见他,笑了笑说,你好,我是林墨。
他说,我知道。
她说,你知道什么?
他说,我知道你是今天报告做得最好的那个人。
她笑了,说,你挺会说话的。
他说,不是会说话,是事实。你的数据讲得比任何人都清楚。
她说,数据本身就清楚,我只是没把它讲乱。
那是他们第一次对话。
后来的事,就顺理成章了。一起做课题,一起开会,一起吃饭,一起看电影。然后结婚,然后买房,然后各自忙工作。十五年,一晃就过去了。
他想起他们最后一次说话。那是她确诊之后的第四个月,已经在住院了。那天下午他去看她,她躺在床上,看着窗外。窗外的杨树刚发芽,嫩绿嫩绿的,在风里晃。他坐在床边,问她今天感觉怎么样。她说还好。他说想吃点什么。她说不想吃。然后就没话了。
过了一会儿,她说,明远,我给你留了点东西。
他说什么东西。
她说在我单位的抽屉里,你自己去拿。
他说好。
她说不是现在,以后再说。
他当时没在意,以为是一些旧照片或者纪念品。现在想起来,她说的是这些数据。
那个时候她已经知道时间不多了。但她没有直接告诉他,而是用这种方式,让他自己去发现。因为她知道,只有他自己发现的东西,才会真正进入他心里。
林墨从来不是一个喜欢说教的人。她喜欢让人自己去悟。以前他不懂,现在懂了。
他把那页纸放回桌上,手有点抖。
凌晨两点,陆明远做了一个决定。
他要把这三十页纸全部弄清楚。每一页,每一个数字,每一个标准差标记,每一个隐藏的信息。他不知道需要多久,可能几天,可能几周,可能几个月。但他一定要弄清楚。
因为这是林墨留给他的。
不是遗产,不是纪念,是一封信——用他唯一懂的语言写的信。
他翻开第一页,从-3σ开始。
-3σ是数据分布最左边的位置,代表那些最低的值。这一页上是哪些年份?他看了看:1970年、1971年、1972年、1973年。全是1970年代初,中国最困难的时期。那时候城镇居民一个人一年只能花三四百块钱,平均一天一块多一点。买米买油买布,都要票。
他想起林墨小时候的事。她生在1968年,长在七十年代。她说过小时候家里穷,一年吃不上几回肉,过年才能穿新衣服。那时候她最大的愿望是能天天吃白米饭。
后来改革开放,日子慢慢好了。八十年代开始,消费水平逐年上升,一年比一年高。到了八十年代末,已经翻了一倍。到了九十年代,又翻了一倍。进入二十一世纪,更是像坐了火箭一样往上窜。
如果把这些年画成一条曲线,是一条陡峭向上的线,越来越陡。但如果把1970年代加上,这条线就不是直线上升,而是先平后陡,像一根翘起的曲线。
林墨要的,就是这根翘起的曲线。不是因为它更准确,是因为它更完整。
有了那十年的低消费,后来的增长才显得更有意义。就像没有苦难,就不知道什么是幸福。没有失去,就不知道什么是拥有。
陆明远突然想起一件事。
有一年他们吵架,为了一件小事。吵完之后,他摔门而出,一个人在街上走了很久。后来回家,她已经睡了。第二天早上,她什么都没说,像什么都没发生过一样。他以为这事过去了。
但现在他想起来,那天晚上她其实没睡。他半夜醒来的时候,看见她背对着他,肩膀在轻轻抖。他在黑暗里看着,没出声,然后翻个身,又睡了。
那是他们婚姻里的一个离群值。很小,很小,小到可以忽略不计。
但她没有忽略。
她把它存起来了,和其他无数个小小的离群值一起,构成了他们婚姻的全貌。
第二天早上,陆明远醒得很晚。
阳光从窗帘缝里透进来,在墙上画出一条光带。他躺在床上,看着那条光带慢慢移动,从墙的这一边移到那一边。中间他起来上了个厕所,喝了杯水,然后又躺下了。
这是他辞职之后第一次真正地“什么也不做”。没有会议,没有报告,没有deadline,没有任何必须做的事。他可以躺一整天,没人管他。
但他躺不住。
脑子里全是那些数据。他闭上眼睛,眼前就浮现出那些数字:1970,315;1971,322;1972,328……然后是□□71……一直到2020,27007。四十一年的数字,排着队从他脑子里过。
他索性起床,又坐到餐桌前。
那三十页纸还摊着,和昨晚一样。他拿起那页1989年的,看了一会儿,然后放下。
他想,如果他现在开始分析这些数据,该从哪入手?
统计学的第一步永远是描述性统计。先看数据的集中趋势——均值、中位数、众数;再看离散程度——方差、标准差、极差;然后看分布形态——偏度、峰度。这些做完了,再做推断性统计,检验假设,建立模型。
但林墨留给他的这套数据,不是用来做常规分析的。她已经把最关键的发现写在那些页码上了:-3σ到3σ,三十页纸,对应三十个标准差区间。这不是随机的编号,是她在告诉他:这组数据,服从正态分布。
完美的正态分布。
但问题在于,这组数据是人为构造的——那重复的十年,就是为了让整个分布变得完美。
那她真正想告诉他的,到底是什么?
他又想起那些页码上的标准差标记。突然,一个念头闪过:也许她标记的不是整组数据的标准差区间,而是某个特定年份的位置?
他翻开第一页,-3σ。这一页上是1970-1973年。如果把这些年份看作一个整体,它们的位置确实是整个分布的最左边。那第二页,-2.5σ,1974-1975年,稍高一点。以此类推,一直到第15页,0σ,1989年,正中间。
这样看,每一页对应的是一个连续的时间段,而这些时间段的顺序,正好是按照它们与均值的距离排列的。
也就是说,林墨把所有年份分成了三十组,每一组里的年份在数据分布中的位置大致相同。然后按照位置从低到高,排成了这三十页。
这是一种特殊的排序方式。不是按时间,不是按数值,而是按“离均值的距离”。
她为什么要这样排?
陆明远拿起笔,在纸上画了一条正态分布曲线。中间高,两边低,像个钟。他在中间标上0σ,两边标上±1σ、±2σ、±3σ。
然后他开始填年份。
最左边-3σ:1970-1973。
-2.5σ:1974-1975。
-2σ:1976-1977。
-1.5σ:1978-1979。
-1σ:1980-1981。
-0.5σ:1982-1984。
0σ:1985-1989。
0.5σ:1990-1994。
1σ:1995-1999。
1.5σ:2000-2005。
2σ:2006-2010。
2.5σ:2011-2015。
3σ:2016-2021。
填完之后,他看着这张图,突然明白了。
这是一张时间地图。林墨把五十二年的光阴,按照它们在她生命中的“分量”重新排列,然后告诉他:你看,你所在的位置,是正中心。
1985到1989,五年,在0σ的位置上。这是他们相识、相恋、结婚的五年。她用五年的时间,把整个分布的中心拉到了这里。
如果没有这五年,整个分布会是偏态的,中心会落在别的地方。但因为有了这五年,一切都变了。
她不是偶然让1989年成为均值的。她是故意的。
下午三点,陆明远的手机响了。
是林墨生前的闺蜜,张晓芸。她们是大学同学,毕业后一直有来往。林墨生病的时候,张晓芸常去医院陪她。林墨走的那天,张晓芸也在。
“明远,你在家吗?”
“在。”
“我想过来看看你,方便吗?”
“方便。”
半小时后,张晓芸来了。她拎着一袋水果,站在门口,眼眶红红的。陆明远把她让进来,给她倒了杯水。
张晓芸坐在沙发上,看着餐桌上的那些纸,沉默了一会儿,说:“她在整理这些东西?”
“嗯。”
“我知道。”
陆明远看着她。
张晓芸说:“她住院的时候跟我提过,说有些东西要留给你。我问是什么,她说是一些数据。我说你留数据干什么,他又不是看不懂。她笑了笑,说就是因为他看得懂,所以才留这个。”
陆明远没说话。
张晓芸继续说:“她说,明远这个人,不太会听人说话。你跟他说什么都行,但他真正能听进去的,只有数据。所以我就用数据跟他说。”
陆明远的声音有点涩:“她还说什么了?”
“她说,其实有很多话想跟你说,但一直没机会。不是没时间,是不知道怎么开口。有些话说出来就显得矫情,不说又憋在心里。后来她想通了,既然说不出口,那就用你能懂的方式写下来。”
“所以这些数据……”
“是她写给你的信。”张晓芸看着他,“明远,她真的很爱你。”
陆明远低着头,没说话。
张晓芸站起来,走到餐桌前,看着那些纸。她不懂数据,但能看出这些纸被翻了很多遍,边角都起了毛。
“我能问你一个问题吗?”她说。
“什么?”
“你看懂了吗?”
陆明远沉默了很久。
“看懂了一点。”
“哪一点?”
“她想告诉我,她生命里的中心在哪。”
张晓芸点点头,眼眶又红了。
“那就好。”
她走到门口,回过头来说:“明远,人这一辈子,能遇到一个愿意用一生去写一封信给你的人,不容易。你要好好收着。”
门关上了。
陆明远站在餐桌前,看着那三十页纸。
窗外的天慢慢暗下去,屋里也暗下去。他没开灯,就那么站着,站了很久。
那天夜里,陆明远做了一个梦。
梦里林墨还在,坐在阳台上晒太阳,手里拿着一本书。阳光照在她身上,她眯着眼睛,看起来很舒服。他走过去,在她旁边坐下。她转过头来,看着他,笑了笑。
“看懂了吗?”她问。
“看懂了一点。”
“那就好。”
“还有好多没看懂。”
“慢慢看,不急。”
“你为什么不直接告诉我?”
“告诉你的,你会忘。自己看懂的,才会记住。”
他沉默了一会儿,说:“我想你。”
她说:“我知道。”
然后阳光暗下去,她的脸也慢慢模糊。他想伸手去抓,但抓了个空。
他醒了。
凌晨四点,窗外还是黑的。他躺在床上,听着自己的心跳,一下,一下,很慢,很稳。
他知道那不是真的林墨,只是他自己的想象。但那个笑容,那句话,那么真实,真实到让他觉得她真的还在。
他想起那些数据。-3σ到3σ,三十页纸,五十二个年份,重复的十年,1211元的1989年。这些数字背后,是她十五年没说出的话。
现在她终于说出来了。
用他能懂的方式。
他翻了个身,闭上眼睛。
睡意再次袭来的时候,他脑子里最后一个念头是:明天,继续看。
一个月后。
陆明远把那三十页纸装订成了一个册子,封面用硬纸板包着,写上三个字:《离群值》。
他已经看懂了大部分。
那些页码上的标准差标记,其实是林墨设计的一张“人生地图”。-3σ是最低谷的年份,那是她童年最苦的日子;-2σ到-1σ是缓慢爬升的时期,那是她求学、成长的岁月;0σ是均值的位置,那是他们相识、相恋、结婚的五年;1σ到3σ是她事业有成、生活安稳的后半生,但也是他们渐行渐远的日子。
而那重复的十年,是她最想让他记住的时光。它出现在两个不同的位置,因为在她心里,这十年值得被记住两次。
还有一些东西他没看懂。比如每页纸右下角那些极小的数字,不只是页码,好像还有别的含义。比如有些年份的数据被圈了出来,旁边写着一些看不懂的符号。比如最后一页的背面,用铅笔轻轻写了一个公式:Y = α + βX + ε,但α和β的位置被换成了两个人的名字。
他知道他还会继续看下去。可能需要很久,可能永远也看不完。
但没关系。
她有耐心写,他就得有耐心读。
阳光从窗户照进来,照在那个装订好的册子上,封面上的三个字在光里泛着淡金色的光。
陆明远站起来,走到阳台上。三月的北京,风还是凉的,但阳光已经很暖了。他看着楼下那条走过无数次的马路,看着那些来来往往的人,突然想起林墨说过的一句话。
那是他们刚结婚的时候,有一次她问他:你知道什么是幸福吗?
他说不知道。
她说,幸福就是有一天你回头看,发现所有的离群值,都成了最难忘的风景。
他现在回头看,终于看见了那些风景。
远处的天很蓝,蓝得透明。他站在那里,很久很久。