晋江文学城
下一章 上一章  目录  设置

4、第四章 显著性水平 有一个女人 ...


  •   有一个女人,用了五十二年的数据,构造了一个完美的正态分布,只为了让她的丈夫明白:在他心里,她是显著的。

      陆明远是被电话铃声吵醒的。
      他睁开眼,发现天已经大亮了。阳光从窗帘缝里透进来,在墙上画出一道刺眼的白线。他摸过手机,看了一眼:上午十一点四十七分。
      他睡了将近十二个小时。
      电话是统计局打来的,人事处的老刘。问他辞职报告交了吗,说还有一些手续要办,让他有空来一趟。他嗯嗯啊啊地应付着,脑子里还是蒙的。挂了电话,他躺在床上,盯着天花板,发了好一会儿呆。
      然后他想起来了:今天是星期四。他已经辞职整整两周了。
      两周,十四天,他做了什么事?好像什么也没做,又好像做了很多。他看了那些数据,算了那些方差,画了那些曲线,想了那些往事。他把林墨留下的三十页纸翻来覆去看了无数遍,每一个数字都快刻进脑子里了。
      但那些数据里,还有很多他没看懂的东西。
      比如那些页码上的标准差标记。-3σ到3σ,他知道了,那是正态分布的区间。但为什么是三十页?正态分布通常用六个标准差(-3到3)就够了,为什么她要分成三十份,每一份只覆盖0.2个标准差?
      比如那些年份的分组。有些组只有两三年,有些组有五六年,分布很不均匀。如果是按照数值大小分组,应该每个组的数据个数差不多才对,但这里明显不是。
      比如那重复的十年。他已经知道那是她刻意为之,为了让整个分布变成正态。但为什么偏偏是那十年?为什么不是别的十年?
      这些问题他还没想明白。
      他起床,洗漱,倒了杯水,坐到餐桌前。那三十页纸还在,昨晚看完之后他没有收起来,就那么摊着。阳光从窗户照进来,照在那些数字上,纸面泛着淡黄色的光。
      他拿起第一页,开始从头看。
      这一次,他看得更仔细。不是看数字,而是看那些数字之外的细节。页眉、页脚、边距、字体、任何可能被忽略的东西。
      第一页,右上角有一个很小的数字:1/30。这是页码。下面有一行更小的字:-3σ。这是标准差标记。再下面,是数据表格:1970年到1973年,四个年份,四行数字。
      他翻到第二页,同样的格式。右上角2/30,下面-2.5σ,然后是1974-1975的数据。
      第三页,3/30,-2σ,1976-1977。
      第四页,4/30,-1.5σ,1978-1979。
      第五页,5/30,-1σ,1980-1981。
      第六页,6/30,-0.5σ,1982-1984。
      第七页,7/30,0σ,1985-1989。
      第八页,8/30,0.5σ,1990-1994。
      第九页,9/30,1σ,1995-1999。
      第十页,10/30,1.5σ,2000-2005。
      第十一页,11/30,2σ,2006-2010。
      第十二页,12/30,2.5σ,2011-2015。
      第十三页,13/30,3σ,2016-2021。
      然后第十四页开始,又是-3σ到3σ,但年份变成了另一组。那是重复的十年,被拆分后插进了不同的区间。
      他数了一下,从第十四页到第三十页,一共十七页。加上前面的十三页,正好三十页。
      那十七页里,每一页的标准差标记都和前面十三页对应。比如第十四页是-3σ,但上面的年份是1980-1981?不对,他仔细看,第十四页是-3σ,上面的年份是1980-1981?这不对,1980-1981在第五页已经是-1σ了,怎么在这里变成了-3σ?
      他快速翻看。
      第十四页(-3σ):1980-1981。
      第十五页(-2.5σ):1982-1983。
      第十六页(-2σ):1984-1985。
      第十七页(-1.5σ):1986-1987。
      第十八页(-1σ):1988。
      第十九页(-0.5σ):1989。
      第二十页(0σ):1990-1991。
      第二十一页(0.5σ):1992-1993。
      第二十二页(1σ):1994。
      第二十三页(1.5σ):1995-1996。
      第二十四页(2σ):1997-1998。
      第二十五页(2.5σ):1999-2000。
      第二十六页(3σ):2001-2002。
      第二十七页(3σ)。等一下,这里不是3σ,是2.5σ?他乱了。
      他停下来,拿过一张纸,开始画表。
      前面十三页,是他已经分析过的那些,年份覆盖1970-2021(不重复)。后面十七页,是那重复的十年加上一些别的年份,被重新分配到了不同的标准差区间。
      他仔细看后面十七页的年份,发现不只是1980-1989那十年,还有1990-2002的部分年份。也就是说,林墨把1980-2002这二十三年的时间,拆成了两部分,一部分放进了前面十三页,另一部分放进了后面十七页。
      为什么要这样分?
      他想起那个完美正态分布的构造。前面十三页有四十一个年份(1970-2021),去掉重复的1980-1989,实际上只有三十一个年份?不对,他算了一下:1970-2021一共五十二年,去掉重复的十年,是四十二年。前面十三页应该有四十二个年份。但他数了一下前面十三页的年份:1970-1973(4),1974-1975(2),1976-1977(2),1978-1979(2),1980-1981(2),1982-1984(3),1985-1989(5),1990-1994(5),1995-1999(5),2000-2005(6),2006-2010(5),2011-2015(5),2016-2021(6)。加起来是4+2+2+2+2+3+5+5+5+6+5+5+6=52?他算错了。
      他又算了一遍:4+2=6,+2=8,+2=10,+2=12,+3=15,+5=20,+5=25,+5=30,+6=36,+5=41,+5=46,+6=52。
      五十二个年份。前面十三页,居然有五十二个年份?
      那后面十七页呢?后面十七页的年份加起来应该是多少?他数了一下:□□(1),1995-1996(2),1997-1998(2),1999-2000(2),2001-2002(2),还有四页?他翻到第二十七页,上面是2003-2004?不对,第二十七页是2003-2004(2),第二十八页是2005-2006(2),第二十九页是2007-2008(2),第三十页是2009-2010(2)。全部加起来:2+2+2+2+1+1+2+2+1+2+2+2+2+2+2+2+2=33?他数了一下有多少个“2”:第一组2,第二组2,第三组2,第四组2,这是8个,加两个1是10,第五组2是12,第六组2是14,第七组2是16,第八组2是18,第九组2是20,第十组2是22,第十二组2是24,第十三组2是26。一共十三个“2”,两个“1”,13×2=26,+2=28。二十八页?但后面只有十七页,每页至少一个年份,最多两个年份,应该总共不超过三十四个年份才对。他哪里数错了?
      他放下纸,揉了揉眼睛。
      太乱了。他需要系统的方法,而不是这样瞎数。
      下午两点,陆明远去了趟统计局。
      不是办手续,是去找沈瑶。
      沈瑶在办公室,正在整理数据。看见他进来,愣了一下:“陆老师?您怎么来了?”
      “有点事想问你。”
      “什么事?”
      “关于显著性水平。”
      沈瑶看着他,等他往下说。
      陆明远在她对面坐下,说:“林墨的数据里,有一个东西我一直没看懂。那些页码上的标准差标记,如果是为了构造正态分布,那三十页就够了。但她做了两个版本,一个是把1970-2021全部放进去,另一个是把1980-2002的某一部分放进去。这两个版本的数据,有什么不同?”
      沈瑶想了想,说:“您带数据了吗?”
      陆明远从包里拿出那三十页纸的复印件。原件他不敢带出来,怕丢。复印件也是他亲手复印的,每一页都清清楚楚。
      沈瑶接过复印件,开始翻。她看得很仔细,每一页都停下来,看看年份,看看数字,看看页码标记。陆明远在旁边等着,不说话。
      十几分钟后,沈瑶抬起头。
      “陆老师,这不是两个版本。”
      “什么意思?”
      “这是一组假设检验。”
      陆明远看着她。
      沈瑶指着那些页码标记,说:“您看,前面十三页,标准差是从-3到3均匀分布的,每一页的区间宽度是0.5个标准差。但后面十七页,标准差分布不是均匀的——-3到-2只有两页,-2到-1只有两页,-1到0只有两页,0到1有三页,1到2有四页,2到3有四页。这说明什么?”
      陆明远想了想,说:“说明后面十七页的分布是偏态的?”
      “对。偏态,而且右偏。”沈瑶说,“您再看这些年份。后面十七页里,大部分年份是1980年代中后期和1990年代,也就是您和林老师认识之后那段时间。这些年份被放在了偏右的位置——在第二个分布里,它们不是中心,而是偏高的部分。”
      “那第一个分布呢?”
      “第一个分布是您之前分析的那个,正态分布。在那里面,1980年代中后期是中心,0σ的位置。但在第二个分布里,同样的年份,变成了1σ、1.5σ甚至2σ的位置。”
      陆明远沉默了一会儿,说:“所以她在做比较?”
      “对。”沈瑶说,“她把同一组数据放在两个不同的参照系里,看它们的位置变化。第一个参照系是她完整的人生(1970-2021),第二个参照系是她人生中的某一段(可能是1980-2010?)。她想比较的是,在她完整的人生里和她最在意的那段人生里,同一个年份的意义有什么不同。”
      “那这和显著性水平有什么关系?”
      沈瑶指着那些页码上的标准差标记,说:“显著性水平通常用p值表示,p值小于0.05被认为是统计上显著的。0.05对应的Z分数是多少?大约是1.96,也就是差不多2σ。”
      陆明远一下子明白了。
      在第一个分布(正态分布)里,1989年在0σ的位置,完全不显著。但在第二个分布(偏态分布)里,同样的1989年,可能落在了1.5σ甚至2σ的位置,那就接近显著了。
      她在问他:在你心里,我到底是中心,还是边缘?是平凡的那个,还是显著的那个?
      那天下午,陆明远在统计局的数据中心待了四个小时。
      他用内部系统调出了所有他能找到的宏观数据:GDP增长率、CPI涨幅、城镇居民收入、农村居民收入、恩格尔系数、基尼系数……他把这些数据和林墨的数据放在一起,做相关性分析。
      他想知道,林墨选择那些年份,是不是和宏观经济的变化有关。
      结果出来了。
      1980-1989这十年,和GDP增长率的相关系数是0.89,高度正相关。和中国经济改革的关键节点高度重合:1984年城市改革启动,1988年价格闯关,1989年治理整顿。
      1990-2002这十三年,和CPI涨幅的相关系数是0.92,也是高度正相关。那是中国通胀最剧烈的时期,1994年CPI涨了24%,1995-1997年逐步回落,1998-2002年低位运行。
      2003-2010这八年,和城镇居民收入的相关系数是0.95,几乎完全同步。那是中国经济高速增长的黄金八年,收入翻番,消费升级,她和他的事业也在这八年里达到顶峰。
      所以,林墨选这些年份,不是随便选的。她选的是中国宏观经济波动最剧烈的时期,也是她人生波动最剧烈的时期。
      而那些“显著性水平”的标记,是在问他:你看,当我把这些年份放在中国宏观经济的背景里,它们都是显著的。但在你心里呢?它们显著吗?我显著吗?
      陆明远靠在椅背上,看着屏幕上的那些相关系数,久久没有说话。
      沈瑶在旁边,也没说话。
      过了一会儿,沈瑶轻声说:“陆老师,我能问您一个问题吗?”
      “什么?”
      “您和林老师结婚十五年,您有没有哪一次,认真地觉得她很特别?”
      陆明远愣住了。
      认真地觉得她很特别?
      他想了很久,说:“没有。”
      “一次都没有?”
      “一次都没有。”
      沈瑶低下头,没说话。
      陆明远继续说:“我一直觉得她很好,很优秀,很贤惠,很懂事。但我从来没觉得她特别。我以为所有人都是这样的,结婚、过日子、慢慢变老。我以为这是常态,是均值,是正态分布的中心。”
      他顿了顿,声音有点涩:“但我不知道,在她心里,我一直是那个离群值。是那个让整个分布变得不正常的、显著的存在。”
      沈瑶抬起头,看着他。
      “陆老师,您现在懂了。”
      从统计局出来,天已经黑了。
      陆明远没回家,沿着长安街往西走。他不知道自己要去哪,只是想走。走在北京三月夜晚的街头,风吹在脸上,凉凉的,但不像前些天那么冷了。
      他想起林墨说过的一句话。
      那是他们刚结婚不久,有一次她问他:“明远,你觉得什么是幸福?”
      他说:“幸福就是和你在一起。”
      她笑了,说:“你这话太套路了,一听就是敷衍。”
      他说:“不是敷衍,是真的。”
      她说:“那你说具体点。”
      他想了一会儿,说:“幸福就是加班回来有热饭吃,累的时候有人给倒杯水,晚上睡觉身边有个人。就是这些小事。”
      她点点头,说:“嗯,这些确实是幸福。但这些是均值,不是离群值。”
      他不懂:“什么意思?”
      她说:“幸福有两种。一种是常态的幸福,就是你说的那些小事,每天都有,平平淡淡。另一种是超常的幸福,是那些很少发生但特别难忘的时刻,比如第一次接吻,比如求婚,比如结婚那天。常态的幸福是均值,超常的幸福是离群值。”
      他问:“那哪种更重要?”
      她说:“都重要。没有均值,离群值就是无根之木;没有离群值,均值就是一潭死水。”
      他当时觉得她说得挺有道理,但没往心里去。
      现在他明白了。
      这十五年,他给她的都是均值——加班回来的热饭,累的时候倒的水,晚上睡觉身边有个人。但离群值呢?那些本应该特别难忘的时刻,他给了她多少?
      第一次见面?那是她主动找他说话的。
      第一次约会?那是她提的。
      求婚?他就是在一次加完班回家的路上随口说的:“咱俩结婚吧。”她说好。
      结婚那天?他忙着应酬宾客,敬酒敬到醉,是她一个人招呼的亲友。
      结婚纪念日?他从来记不住。
      她的生日?每年都是她提醒他。
      他给她的,全是均值。没有离群值。
      但她给他的呢?
      她给他做了十五年的早饭。他胃不好,不能吃凉的,她每天早上六点起来给他熬粥,熬够四十分钟,米粒开花,温温的,正好他起床的时候喝。十五年,五千四百七十五天,她熬了五千多锅粥。
      她给他织过一件毛衣。那是他们结婚第一年,她不会织,现学的。织了拆,拆了织,整整一个月才织好。织得太大了,他穿上像袍子。她说没事,明年长胖了就能穿。后来他一直没长胖,那件毛衣就一直压箱底。但他知道,她每年换季的时候都会拿出来晒一晒,然后再放回去。
      她给他存了一笔钱。那是他有一次说想买辆车,但又舍不得。她没说什么,从那以后每个月从他工资里偷偷扣一千块,存到一个单独的账户。三年后,她把卡给他,说:“去买车吧。”他问她哪来的钱。她说是他每个月存的。他都不知道。
      这些是均值还是离群值?
      如果每天都做,就是均值。如果每天做五千多天,就是离群值。
      那天晚上,陆明远回到家,又坐到餐桌前。
      他打开那三十页纸,翻到第十九页。那是-0.5σ的那一页,上面只有两个年份:1989年和1990年?不对,第十九页是-0.5σ,上面的年份是1992-1993。他又看错了。
      他需要系统的方法。
      他拿过纸笔,开始画两个分布。
      第一个分布:1970-2021,全部五十二个年份。这个分布是正态的,均值在1985-1989那五年,标准差从1970年代初到2020年代逐渐扩大。
      第二个分布:他只选取1980-2002这二十三年的数据,重新计算均值和标准差。然后看每一个年份在这两个分布里的Z分数有什么变化。
      他打开电脑,开始算。
      第一个分布(全序列)的均值是8764,标准差8851。
      第二个分布(1980-2002)的均值是?他把1980-2002的数据挑出来:□□7□□,□□:2851,1995:3538,1996:3919,1997:4186,1998:4332,1999:4616,2000:4998,2001:5309,2002:6030。共二十三个数据。
      计算均值:把这些数加起来,除以23。他按计算器:4□□,+884=4758,+1104=5862,+1211=7073,+1279=8352,+1454=9806,+1672=11478,+2111=13589,+2851=16440,+3538=19978,+3919=23897,+4186=28083,+4332=32415,+4616=37031,+4998=42029,+5309=47338,+6030=53368。53368除以23,等于2320.35。
      第二个分布的均值是2320元。
      计算标准差:每个数据与均值的差,平方,相加,除以23,再开方。他一个一个算,花了将近半小时。结果是:标准差是1876.4。
      现在,看1989年在两个分布里的位置。
      第一个分布:1989年是1211元。Z分数=(1211-8764)/8851 = -0.85。在均值左边0.85个标准差的位置,不显著。
      第二个分布:1989年是1211元。Z分数=(1211-2320)/1876.4 = -0.59。还是在均值左边,但离均值更近了一些。
      不对,这和他想的不一样。在第二个分布里,1989年应该更靠右才对,因为第二个分布没有那些低消费的1970年代,整体均值应该更高,1989年应该相对更低。但算出来确实是-0.59,比-0.85更靠近0,说明相对位置确实提高了——从远离均值到接近均值。
      他继续算1990年。
      第一个分布:1990年1279,Z分数=(1279-8764)/8851 = -0.85。
      第二个分布:1990年1279,Z分数=(1279-2320)/1876.4 = -0.55。
      又提高了0.3个标准差。
      1994年呢?第一个分布:2851,Z分数=-0.67。第二个分布:2851,Z分数=(2851-2320)/1876.4 = 0.28。从负变成正了,从均值左边到了右边。
      1999年:4616,第一个分布Z分数=-0.47,第二个分布Z分数=(4616-2320)/1876.4 = 1.22。
      2002年:6030,第一个分布Z分数=-0.31,第二个分布Z分数=(6030-2320)/1876.4 = 1.98。
      1.98,接近2σ了。
      2σ在统计学里意味着什么?意味着在95%的置信水平上显著。
      也就是说,在第一个分布里,2002年只是一个普通的年份,离均值只有0.3个标准差,完全不显著。但在第二个分布里,2002年是显著异常的,是离群值,是在95%的概率上与众不同的存在。
      为什么是2002年?
      陆明远想了想,2002年发生了什么?
      那一年,他们结婚十年。那一年,她升了副研究员。那一年,他出差特别多,全年有一百多天不在家。那一年,他们第一次认真考虑要孩子,但又没要成。
      那一年,她一定有很多话想对他说。但他说,等忙完这阵子。然后那阵子就忙了十年。
      第二天早上,陆明远去了趟发改委宏观经济研究院。
      林墨生前的单位。他从来没去过,虽然她在这里工作了二十多年。
      门卫登记的时候,他看见登记本上林墨的名字,还停留在2021年11月。他签上自己的名字,门卫看了看,说:“您是林老师的家属?”
      他说是。
      门卫说:“林老师人特别好,每次进出都跟我们打招呼。节哀。”
      他说谢谢。
      林墨的办公室在三楼,朝南的一间小屋子。门锁着,钥匙在院办。他去找院办,一个年轻女孩接待了他,问明来意后,说:“您稍等,我去找领导请示一下。”
      他等了十几分钟,女孩回来说:“可以进去,但只能您一个人,不能拍照,不能带走任何东西。”
      他说好。
      办公室不大,十几平米,一张办公桌,一个书柜,一张沙发。桌上收拾得很干净,只有一个电脑显示器,一个笔筒,一个相框。他走过去,看见相框里是他们的合影——2008年去三亚拍的,她穿着白裙子,站在海边,笑得特别开心。
      他在椅子上坐下。
      这是她的椅子。她每天坐在这里,看数据,写报告,接电话,喝茶。窗外能看到一棵老槐树,春天的时候会开满白花。他想起她说过,她办公室窗外有棵槐树,春天特别香。他没在意。现在看见了,真的很香。
      他打开抽屉。
      第一个抽屉,是办公用品。订书机、回形针、便签纸、几支笔。第二个抽屉,是文件。他翻了翻,都是课题资料,和她留下的那些数据没关系。第三个抽屉,是私人物品。一个茶杯,一条围巾,一盒没开封的巧克力,还有一本笔记本。
      他拿出那本笔记本。
      封面是深蓝色的,有点旧了。翻开第一页,是林墨的字迹:
      “2008年1月1日。新的一年,希望一切顺利。”
      这是她的日记?
      他犹豫了一下,还是翻了下去。
      2008年1月5日。明远又出差了,去广州。这次要走一周。我给他收拾行李的时候,发现他箱子里有一件毛衣我从来没见他穿过。问他,他说是单位发的。单位怎么会发毛衣?我没再问。
      2008年3月12日。今天是我们结婚十六周年。他忘了。晚上打电话问他什么时候回来,他说在开会,晚点打给我。后来没打。
      2008年5月20日。汶川地震,看着电视一直哭。他打电话来,说在成都出差,没事。我说你回来吧。他说好。三天后才回来。
      2008年8月8日。奥运会开幕式,我们一起看的。他说,真好看。我说,嗯。其实我想说,能和你一起看,真好。
      他翻着,一页一页。都是这种日常的记录,平淡得像白开水。但每一句后面,都藏着一种他没察觉的情绪。
      翻到2009年的时候,他看见这样一段:
      2009年4月18日。今天做了一个决定:以后每年今天,给他写一封信,不给他看,自己留着。等我们都老了,再一起看。
      他继续翻。
      2009年4月18日。第一封。明远,今天是我们结婚十七周年。你还是忘了。我给你买了件衬衫,放在衣柜里,你自己找。其实我想告诉你,我今天去医院了。医生说,我可能不太好。但我不想让你担心,所以没告诉你。等结果出来再说吧。
      他的手抖了一下。
      2009年?那一年她去医院了?什么病?
      他快速往后翻。
      2009年4月25日。结果出来了,没事。虚惊一场。
      他松了口气。
      继续翻。
      2010年4月18日。第二封。明远,今天是我们结婚十八周年。你当然又忘了。我给你买了条领带,放在衣柜里。今年我升了正高,你说要给我庆祝,后来有应酬,没庆祝成。没事,我知道你忙。
      2011年4月18日。第三封。明远,今天是我们结婚十九周年。你没忘?你给我发了条微信,说纪念日快乐。我挺高兴的,虽然只是一条微信。今年我爸走了。我没告诉你我有多难受,因为你也忙。其实我想让你抱抱我。
      2012年4月18日。第四封。明远,今天是我们结婚二十周年。你终于记得了,说带我出去吃饭。我们去了那家第一次约会去的餐厅,还是那个位置,还是那几道菜。你说,二十年了,真快。我说,是啊。其实我想说,谢谢你,虽然你总是忘,但最后还是记得了。
      2013年4月18日。第五封。明远,今天是我们结婚二十一周年。你没忘,但也没特别做什么。晚上你加班,我自己吃的饭。没事,我已经习惯了。
      2014年4月18日。第六封。明远,今天是我们结婚二十二周年。还是老样子。我有时候想,如果我们当初没结婚,现在会是什么样?可能还是这样吧。不是你的问题,是我的问题。
      2015年4月18日。第七封。明远,今天是我们结婚二十三周年。我发现自己越来越不爱说话了。不是不想说,是不知道说什么。你每天回来都很晚,有时候我在沙发上睡着了,你把我叫醒,让我去床上睡。我知道你是关心我,但那一下被叫醒的时候,我觉得特别孤单。
      2016年4月18日。第八封。明远,今天是我们结婚二十四周年。我今天又去医院了。医生说,还是要注意。我问注意什么,他说很多。我没细问,也没告诉你。
      他的手又抖了一下。
      2017年4月18日。第九封。明远,今天是我们结婚二十五周年,银婚。你带我出去旅游了,去三亚。我特别高兴,虽然你没说为什么选三亚,但我猜你记得那是我们第一次旅游的地方。谢谢你。
      2018年4月18日。第十封。明远,今天是我们结婚二十六周年。我最近在想一个问题:你说,如果有一天我不在了,你会不会想我?会想多久?会怎么想?我知道这些问题很傻,但我忍不住想。
      2019年4月18日。第十一封。明远,今天是我们结婚二十七周年。我今天又去医院了。这次医生说了很多,我听不太懂,但我知道不太好。我还是没告诉你。等你忙完这阵子再说吧。
      2020年4月18日。第十二封。明远,今天是我们结婚二十八周年。疫情,我们都在家待着。这可能是我们在一起待得最久的一段时间,整整两个月。你每天做饭,我每天洗碗。我们看了很多电影,说了很多话。我好希望时间就这么停住。
      2021年4月18日。第十三封。明远,今天是我们结婚二十九周年。我没写日记,因为我在医院。但我想写一封信给你,等以后再给你看。明远,我知道自己时间不多了。我想告诉你,这二十九年,我很幸福。虽然你总是忘这忘那,虽然你总是加班,虽然你很少说爱我,但我知道你心里有我。你用你的方式爱着我,虽然那个方式有时候让我等得太久。我给你留了一些东西,在我电脑里。是一些数据。你看得懂的。等我走了以后,你慢慢看。慢慢看,不急。
      陆明远合上笔记本,手抖得厉害。
      那些信,她写了十三年。十三封,每一封他都不知道。每一封都是在他们结婚纪念日写的,每一封他都没看过。
      他想起那些年。每一年的4月18日,他都做了什么?大部分时候,他忘了。偶尔记得,发条微信,或者带她出去吃顿饭。他以为这已经够了。他以为她不需要更多。
      但他不知道,她一直在等。等一个拥抱,等一句“我爱你”,等她被叫醒的那一刻不是觉得孤单,而是觉得温暖。
      他想起那组数据。那些显著性水平的标记。在她完整的人生里,她只是均值,是那个每天熬粥、每年写一封信但从来不说的普通人。但在她最在意的那段人生里——在他们结婚的这二十九年里——她是显著的,是离群值,是在95%的置信水平上与众不同的存在。
      因为她等了他二十九年。
      那天下午,陆明远从发改委出来,直接回家了。
      他把那三十页纸摊在桌上,重新看那些页码标记。这一次,他看懂了。
      那些不是标准差区间,那是她在问他:在我的人生里,我显著吗?
      第一个分布,是她的完整人生。1970年到2021年,五十二年。在那个分布里,她只是一个普通的中国女性,出生在困难时期,成长在改革开放年代,工作在世纪之交,老去在新世纪。她的人生曲线和中国宏观经济的曲线高度重合,她是时代洪流里的一滴水,不特别,不显著。
      第二个分布,是她和他在一起的二十九年。1980年他们认识,到2021年她离开。在那二十九年里,她是妻子,是爱人,是等他的那个人。那个分布是偏态的,右偏的,因为那些年里有太多她一个人度过的夜晚,太多她想说没说的话,太多她忍住没流的泪。
      在第二个分布里,她是显著的。
      她在问他:在你心里呢?我是均值,还是离群值?是每天都能见到的日常,还是让你心动的特别?
      他想起那个p值。0.05,统计上显著的标准。如果她在他生命里的位置对应的p值小于0.05,那她就是显著的,是不可替代的,是值得被记住的。
      他问自己:她的p值是多少?
      他不知道怎么算。这不是一个可以用公式计算的问题。但他知道,答案应该是:小于0.01。
      在99%的置信水平上显著。
      在99%的概率上,她不是偶然出现在他生命里的,她是必须的,是注定的,是独一无二的。
      那天晚上,陆明远做了一个梦。
      梦里他站在一个很大的会议室里,台上有人在讲数据。他仔细看,是林墨。她穿着那件白衬衫,扎着马尾,站在投影幕布前,正在讲一张表格。
      “这是1980年到2020年的城镇居民消费数据。”她说,“大家看,这条曲线是上升的,但上升的速度不一样。八十年代平缓,九十年代加快,新世纪更快。但有一个问题:这些数据是均值,是几亿人平均之后的结果。均值掩盖了很多东西。”
      她换了一张幻灯片:“这是同一组数据的方差。大家看,方差也在变化。八十年代方差小,九十年代方差变大,新世纪更大。这说明什么?说明人们的消费差距在拉大,有人花得多,有人花得少。”
      又换一张:“这是偏度。正偏,说明大多数人在均值以下,少数人在均值以上。这符合常识,有钱人总是少数。”
      她转过头,看着台下。他坐在最后一排,但她好像看见他了。
      “但我想问一个问题:如果一个人的生命也是一组数据,你怎么判断她是均值还是离群值?”
      台下没人回答。
      她自己说:“答案是,看参照系。把她放在人群里,她可能是均值。把她放在你心里,她可能是离群值。”
      她笑了笑,说:“所以,选对参照系很重要。”
      然后她走下讲台,朝他走来。他想站起来,但动不了。她走到他面前,弯下腰,在他耳边轻声说:“明远,你选对参照系了吗?”
      他醒了。
      凌晨四点,窗外还是黑的。他躺在床上,心跳得很快。
      他知道那不是真的林墨,只是他的想象。但那个问题,他必须回答。
      他选对参照系了吗?
      以前没有。他把所有人都放在同一个参照系里,用同一把尺子量。所以她不特别,不显著,不与众不同。
      但现在,他换了参照系。
      在这个新的参照系里,她是唯一的样本。没有其他人,没有其他数据,只有她。在这个参照系里,她就是全部,是100%,是毋庸置疑的显著。
      他想起统计学里一个概念:当样本量足够小的时候,任何差异都是显著的。
      她就是他生命里那个足够小的样本。
      天亮之后,陆明远给沈瑶打了个电话。
      “沈瑶,我想请你帮个忙。”
      “什么忙?”
      “教我怎么做假设检验。”
      沈瑶愣了一下:“假设检验?”
      “对。我想检验一个假设。”
      “什么假设?”
      “林墨在我生命里是显著的。”
      电话那头沉默了几秒。然后沈瑶说:“好。下午两点,统计局旁边的咖啡厅。”
      下午两点,咖啡厅。
      沈瑶带了一本统计学教材,还有笔记本电脑。她在陆明远对面坐下,打开电脑,说:“陆老师,假设检验的原理您肯定懂,我就不讲了。您需要的是数据。您有什么数据?”
      陆明远想了想,说:“我有一组数据,是关于她这二十九年里为我做的事。每天熬粥,每年写信,每个月存钱,等等。我想检验,这些事在普通人里是不是显著地多。”
      沈瑶点点头:“那您需要对照组。普通人的数据,您有吗?”
      陆明远摇头。
      “那您可以用一个理论值。比如,普通人一年为伴侣做多少件‘特别的事’?您觉得是多少?”
      陆明远想了想,说:“可能……十件?”
      “十件。那二十九年就是二百九十件。林老师做了多少件?”
      陆明远又想了想。
      每天熬粥,一年三百六十五天,二十九年,一万零五百八十五天。但她不是每天都熬,他出差的时候不熬,她生病的时候不熬。就算八千天吧。
      每年写信,十三封。
      每个月存钱,从2002年到2021年,二十年,二百四十个月,每个月一次,就是二百四十次。
      还有其他那些小事:织毛衣、晒毛衣、买衬衫、买领带、提醒他吃药、给他倒水、等他回家……他数不清了。
      他大概说了一个数:“可能……一万件?”
      沈瑶看着他:“陆老师,一万件和二百九十件,您还需要做假设检验吗?”
      陆明远愣住了。
      沈瑶说:“假设检验是用来判断差异是不是由于随机误差造成的。但当差异大到这种程度的时候,根本不需要检验。肉眼可见的显著。”
      她顿了顿,轻声说:“陆老师,林老师在您生命里,是p值小于0.0001的显著。是万分之一的概率。是几乎不可能发生的奇迹。”
      那天晚上,陆明远回到家,在餐桌前坐了很久。
      他把那三十页纸拿出来,放在桌上。他一张一张地看,从第一页看到第三十页。每看一页,他就想起一件事。
      第一页,-3σ,1970-1973。她小时候的事。她说过,那时候家里穷,一年吃不上几回肉。她最大的愿望是能天天吃白米饭。后来她嫁给他,他从来没让她饿着,但也从来没让她觉得特别满足。
      第二页,-2.5σ,1974-1975。她上小学了。她说她学习很好,每次考试都第一。他说,那你怎么没上清华?她说,那时候家里供不起。他当时没说什么,后来也忘了问。
      第三页,-2σ,1976-1977。她十岁了。她说那年唐山大地震,她们那里也有震感,半夜跑出来,在广场上睡了一个月。他说,害怕吗?她说,不害怕,因为全家都在。
      第四页,-1.5σ,1978-1979。改革开放开始了。她说她爸那年开始做生意,卖茶叶,后来赔了。她说,我爸不是做生意的料。但他想给她爸更好的生活。
      第五页,-1σ,1980-1981。她上高中了。她说她喜欢一个男生,但没敢说。他问,后来呢?她说,后来就毕业了,再也没见过。他当时有点酸,但没表现出来。
      第六页,-0.5σ,1982-1984。她上大学了。她说那是她最快乐的几年,自由、新鲜、什么都想试试。他说,那你试了什么?她说,试了谈恋爱。他问,跟谁?她笑了笑,说,不告诉你。
      第七页,0σ,1985-1989。他们认识、相恋、结婚的五年。他把这一页拿起来,看了很久。1985年她十七岁?不对,1985年她十七岁?他算了一下:她1968年出生,1985年十七岁。他们不是1989年才认识吗?
      他仔细看第七页上的年份:1985-1989。1985年到1989年,五年。但她1989年才认识他,那1985-1988年她在干什么?
      他翻出林墨的简历。1986年上大学?不对,她是1985年上大学的,1989年毕业。所以1985-1989年是她的大学时期。她大学时期的事,他不知道。
      但这一页是0σ,是均值的位置。在她完整的人生里,大学时期是中心。
      第八页,0.5σ,1990-1994。他们刚结婚那几年。她工作的头几年。那几年她过得很开心,虽然穷,但两个人都年轻,有希望。他说等有钱了带她去旅游,一直没去成。
      第九页,1σ,1995-1999。他们结婚五到十年。那几年她开始忙了,他也忙。他们见面的时间越来越少。她说,有时候一周都说不上几句话。他说,没办法,都忙。
      第十页,1.5σ,2000-2005。新世纪了。她升了副研究员,他升了副处。他们买了房,搬了新家。她说,这个家真好。他说,以后还会更好。
      第十一页,2σ,2006-2010。她父亲去世那年。他没陪她回去。她说没事,你忙。他真以为没事。
      第十二页,2.5σ,2011-2015。她事业最成功的几年。她拿了几个大课题,发了十几篇论文,评了正高。他说,你真厉害。她说,你也不差。其实他那时候有点嫉妒,但没说出来。
      第十三页,3σ,2016-2021。她生病的最后几年。他陪她的时间多了,说的话也多了。她说,谢谢你。他说,谢什么。她说,谢谢你陪我。他说,应该的。现在想起来,那几年是他给她离群值最多的几年。
      然后第十四页到第三十页,是那重复的十年和之后的年份,被放在不同的标准差区间里。那些是她和他一起的二十九年,被重新排列之后,有的落在左边,有的落在右边,有的在中间。
      他想,如果让他来排,他会怎么排?
      他会把1989年放在3σ,因为那是他们认识的一年,是他生命里最显著的年份。
      他会把1992年放在2.5σ,因为那是他们结婚的一年。
      他会把2008年放在2σ,因为那是他们一起去三亚的一年。
      他会把2016年放在1.5σ,因为那是她确诊后他第一次认真陪她的一年。
      他会把2021年放在3σ,因为那是她离开的一年,是他永远忘不掉的一年。
      但他也会把很多年份放在-3σ。那些他加班到深夜、她一个人等他的夜晚,那些她欲言又止、他浑然不觉的时刻,那些她需要他但他不在的日子。
      那些年份,在她心里,一定是很低很低的低点。
      那一夜,陆明远做了一个决定。
      他要把林墨留下的那组数据,通过使用的分析工具写成一封封回信。告诉她,留下的数据我看懂了,你看对吗。
      因为,曾经有一个女人,用了五十二年的数据,构造了一个完美的正态分布,只为了让她的丈夫明白:在他心里,她是显著的。
      他要做,因为他答应过她:慢慢看,不急。
      但他已经知道了最重要的那件事:
      她是显著的。
      在99%的置信水平上显著。
      在100%的概率上显著。
      在他生命里,她不是均值,是离群值。不是常态,是奇迹。不是每天都有的白开水,是等了二十九年才等来的一封情书。
      天亮了。
      他把那三十页纸收起来,放回文件袋。文件袋上写着两个字:林墨。
      他站起来,走到阳台上。三月的北京,阳光已经很暖了。楼下的槐树正在发芽,嫩绿嫩绿的,在风里轻轻晃着。
      他想,再过一个月,槐花就开了。到时候会很香。
      她最喜欢槐花。

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>