2024/07/10
本篇的中心人物——费希尔——这是今天任何人不管是学统计还是用统计,就绕不开的名字,因为现代数理统计的大半江山都源自于他一个人的原创思想。
我们甚至不清楚,这个问题在问什么。因为长期以来,在“决定论”的世界观下,我们从不觉得存在讨论这个问题的必要:用实验去发现新知,难道不是自然而然?比方,哈维做了解剖实验就发现了血液循环;伽利略从比萨斜塔扔下去了两个大小不同的球就发现了自由落体定律;孟德尔做了豌豆杂交实验就发现了遗传规律……不就是这么“直接”做嘛?哪里还有什么“怎么做”的问题?
但读者如能联系一下本系列第一篇里,我们谈到“世界的本质是随机的”——这一统计学最底层哲学观点,会不会就有一丝的迟疑:觉得刚刚那些说的那些,其实不是“直接”,实则是有点“简单粗暴”呢?当然,暂时不明白也没关系,让我们从下面这个“女士品茶”的故事说起——这个颇有维多利亚时代言情小说调调的典故,其实大有来头。
线年代末一个夏日的午后,在英国剑桥,一群大学教员和他们的妻子以及一些客人围坐在一起喝下午茶。一位女士坚持认为:将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。在座的科学家都觉得这种观点很可笑:这能有什么区别呢?他们觉得两种液体的混合物在化学成分上不可能有任何区别。此时,一个带着厚厚的眼镜、留着尖髯的男子表情变得严肃起来,这个问题让他陷入了沉思。
故事说到这里,大家可能猜到故事里这个“厚厚眼镜”、“留着尖髯”的男子就是费希尔。我们稍加停顿,不妨带入他的角色,深入地思考一下:如何做实验来检验这个命题。
也许你觉得这个简单啊:直接给她一杯用两种方式之一混的茶,让她去区别就好了嘛。但如果她说对了,就能说明她有鉴别能力吗?如果她说错了,就能说明她一定没有鉴别能力吗?也许,你觉得一杯还不够,要多试几杯。那到底要试到多少杯呢?而对于她的判断结果,又回到了原来的问题:全对是不是意味着她一定有辨别能力,全错是不是一定没有辨别能力?可能更复杂的是,如果她有的对,有的错,又如何下结论呢?
还是以女士品茶问题为例:假定她完全没有分辨能力,给她一杯茶,她随便猜一个答案其实也有50%的可能说对;假如她有分辨能力,但种种原因(比如茶还混得不好,混合的温度不对,她之前吃的甜食影响了她的味觉,再或者……想想你怎么和父母解释为什么你考试没考好,你就能帮她想出无数的“客观原因”),她也有可能犯错啊。
我们可能想到,要多试几杯,那到底试几杯怎么定?另外,我们要怎么去试,即形式、顺序,和向这个女士透露多少信息呢?比方,定下测试十杯,一种方案可以是分五组,每组有一杯茶加奶,另一杯奶加茶,并告知这个女士,让她一组一组判断。另一个方案,随机地选十杯,没有任何提示,让她一一判断。当然了,实验设计方案远不止这两种,甚至是要多少有多少的。那么,应该选那种呢?
再者,从女士的判断结果如何得出结论呢?比如,她10杯里分辨对了8杯,这说明什么?这和前面的实验设计方案当然是息息相关。不用计算,我们大概也能感觉得到,在刚刚举例的两个方案中,第一种方案说对8杯,应该比第二种要“容易”不少。
这个“女士品茶”的案例就出自费希尔的经典名作《实验试剂》,他在书中计算了在各种情况下,女士有分辨能力和没有分辨能力时出现不同结果的概率。哇哦——是不是赞叹不已?何其有开创性和实用性啊!他的这些成果对后世影响深远,奠定了科学的实验设计思想,彻底改变了人们的“实验”观念,并广泛的应用于实际,指导各行各业的实验设计。
罗纳德.费希尔爵士(Sir Ronald Fisher 1890~1962,也经常有书译做“费雪”)出生于一个七个孩子的中产大家庭,父亲是成功的商人。他童年至青年的成长道路,今天可以作为“逆境天才”的典范:体弱多病,孤苦伶仃,视力严重受损——为保护他高度近视的双眼,医生禁止他在灯光下读书。十几岁的时候又家道中落——母亲病逝,父亲破产。但这些似乎对他的“学霸”之路没有丝毫影响:从小酷爱数学和天文,7、8岁已经出席著名天文学家罗伯特.鲍尔的大众讲座,14岁进入哈罗公学读书展现了惊人的数学能力——荣获全校数学征文比赛的大奖,赢得了足够上大学的奖学金。
在剑桥大学读书时,他获得了受人尊敬的“牧人”头衔——在剑桥,学生只有通过一系列难度极高的口头和书面考试,才能成为“牧人”;每年能成为“牧人”的尖子不过一两个,有些年甚至根本没有。他本科期间就发表了第一篇科学论文,并且由于出色的数学才华,结识了当时统计界数一数二的大牛,比如“学生”戈塞特(就是“学生分布”的发明者,学生是他的笔名),还有我们上一篇介绍过的当时如日中天的统计“一哥”——卡尔.皮尔逊。注意,费希尔此时只是个剑桥的本科生,却经常写信给大佬们,一两周甚至一两天可能就解决了大佬们长期思索而不得其解的问题。
费希尔有着“超乎常人”的几何直观能力——这种能力应该是他一路读书求学期间为了克服困扰他终身的严重眼疾练就的——由于不能在灯光下看书,夜晚助教给他上课和辅导,完全不能使用笔纸等任何教具。是不是像足了武侠世界里那些盖世大侠——诸如,傅红雪、张无忌、令狐冲等等:“那些没有消灭你的东西,会使你变得更强壮”。大概正是这种能力,成就了传奇的费希尔——那个总有无数原创性的思想、摆平了统计诸多难题的费希尔;也是那个难于理解的、偏执的、暴躁的费希尔——
有些结论在他看来完全是不言而喻的,而其他人却常常无法理解他的思想。其他数学家需要花费数月乃至数年的时间去证明费希尔认为根本无需证明的东西。
费希尔早期写的一类文章数学性非常强——使用大量的数学符号,一页里有一多半都是数学公式。这样的文章对大众几乎是“令人生畏”的,就是数学基础不弱的同时代统计界大拿前辈们(戈塞特、皮尔逊)也在通信中直接表示:看不懂。这是他和卡尔.皮尔逊日后交恶的一个客观原因。不过起初,皮尔逊应该还是很器重费希尔的,还邀请过他加入自己的实验室——那可是当时业界人人向往的统计“一哥”门下。当然,我们在上篇提到过,在“一哥”手下其实对有独立见解的青年才俊未必是什么好事。不过,费希尔也没接受。
费希尔和皮尔逊交恶的具体事件不可考。但有一些事实还是很清晰。费希尔这辈子只在皮尔逊的掌管下的统计顶级杂志《生物统计》发表过唯一的一篇文章——这篇文章里,他解决了皮尔逊长久思考的高尔顿相关系数统计分布的难题,只花了一个星期,通过将问题转化成几何公式,得到了完整的解答。可惜,大佬们都没看懂。皮尔逊知道特殊情况如何求得问题的部分解,而他的方法需要大量的计算,他让手下同事计算这些解,发现一一符合费希尔给出的一般解。但皮尔逊仍然没有发表费希尔的论文。而是不断要求他修改,降低其一般性。前前后后,拖了一年,这个文章才最后发出来,而且只是作为皮尔逊的大型计算表格的注解附录发表的——在读者看来,费希尔的数学处理仅仅是对皮尔逊及其同事做的大量重要计算的一个补充说明而已。
而此后,《生物统计》再也没有发表过费希尔的文章,而该领域另一份有声望的期刊《皇家统计学会期刊》也没有发表费希尔的类似论文。他感觉到,似乎有一股强大的势力把他阻挡在数学和统计的主流圈子之外,文章要想发表,只能另辟蹊径找一些圈外的杂志,甚至有时还要自掏腰包。他日后就成为了皮尔逊文章的专业挑错者。皮尔逊对他的批评自然也非常猛烈。他回击的炮火也不会轻到哪里,并随着他日后江湖地位上升(毕竟他年轻许多啊)而愈加猛烈。
离开剑桥后,费希尔先后在投资公司做统计,在加拿大的农场里工作,在多所公立学校当数学和物理老师。
这些经历一次比一次糟糕。学生们无法理解在他看来显而易见的内容,令他非常生气。
兜兜转转四五年后,费希尔接受了洛桑农业实验站的一个工作职位——分析那里积累了90年的农业试验数据。之后7年的辛苦工作,他发表了一系列让他声名鹊起的重要结果《收成变动研究》。这些工作是在条件相当艰苦的情况下完成的,因为其中的计算量非常大,皮尔逊可以有一个实验室的“统计员”,他只有自己一个人和一台手摇机械计算机。
搜了一个1900年左右的机械计算器,未必就是费希尔用的那种,但大家感受下~~
如果我们想将3342与27相乘,我们需要把压盘放在个位,把数字设置为3342,摇动七次,然后把压盘放在十位位置,把数字设置为3342,再摇动两次。
我们可以这样体会作者为这篇论文所耗费的力气,以《收成变动研究一》第123页的表格七为例:如果完成一次多位数乘法需要大约一分钟,那么我估计费希尔制作这张表格花费大约185个小时的劳动。这篇文章有15幅复杂程度类似的表格和4幅较大的复杂曲线小时计算,光是制作这些表格的体力劳动就需要花费至少8个月的时间。此外,费希尔还需要花时间研究数学理论基础,组织数据,制定分析计划,纠正难以避免的错误。
在这些工作中,费希尔提出了数据分析的原创性工具,提供了这些工具的数学推导过程,描述了它们的应用领域,并把它们应用在洛桑90年的数据中,得到了诸如“随机对照试验”、“方差分析”、“自由度”这些对后世影响甚巨的概念和方法。
当然你肯定好奇,都在哪里发表呢?农业科学杂志。这绝对是最成功的“曲线救国”的实例,费氏研究方法很快就在大多数英语国家的农学院占据了统治地位。他的工作反响巨大,成为了热点,引出了一大批的数据处理、实验设计的科学文献,应用遍及农学以外的其他领域,包括医学、化学、工业质量控制等等。
这次成功,也与费希尔新的写作风格大有关系——与传统数学书籍风格迥异,比如,他1925年出版的在农业和生物领域影响深远的名作《研究工作者的统计方法》完全没有公式推导和证明!有实例,有介绍图表制作方法,有分析数据的方法,有解释结果,有列举公式,甚至详细介绍这些公式在机械计算机上的使用方法。但是,所有的公式都没有数学的推导和证明!我们提到过其他几个名篇:包括之前的《收成变动研究》、以及后来出版的《实验设计》,其实都有类似的特点:
好用归好用,成功归成功,但费希尔的工作(特别是其背后的原理和思想)几乎是公认的难于理解。
费希尔提供了几个有限的实验设计的例子,总结了良好实验的设计的一般原则。不过,他的方法涉及的数学非常复杂,大多数科学家都无法独自构造实验设计,只能使用费希尔在书中提到的某个设计模型。
论文细节描述得不够充分,无法让理论数学家满意。论文中的代数过程针对的是3种肥料、10个马铃薯品种和4块土壤进行比较的具体例子。人们需要花费几个小时的努力才能将这种方法改成用于2种肥料和5种马铃薯或6种肥料和1种马铃薯的形式。要想得到适用所有情况的一般公式,需要花费更大的力气。费希尔当然知道这些一般公式,但他觉得这些公式是显而易见的,根本不需要写出来。
直到1945年,瑞典数学家克拉默写了一本书《统计学的数学方法》,对费希尔很多说法提供了具体证明过程。此书一经发表就成为人们解读费希尔的范本和经典,教育了几代数学家和统计学家。但其实这个解读版本并不完整,费希尔还有大量结论没有包含在这本书里。1970年,耶鲁大学的萨维奇又重新研究了费希尔的原始论文,发现了克拉默遗漏的许多东西;他甚至惊奇地发现,费希尔早已完成了人们后来做的一些工作,而且解决了20世纪70年代许多仍然没有解决的问题。
1934年,费希尔终于作为皇家统计学会的受邀嘉宾在最高规格的会议上展示他的成果。这是一项殊荣,只有在该领域最杰出的人士才能获得这样的邀请,完全是一种江湖地位的象征。自20世纪20年代,费希尔事实上脱离了统计学主流,现在,他的天才终于得到了承认,皇家统计学会终于让他进入了该领域的领导者之列。之后的有生岁月里,各种荣誉纷至沓来,不夸张的说,是他拿奖拿到手软的时代。他还在1952年被册封为爵士。
至此,他和卡尔.皮尔逊的学术斗争以他的全面胜利而告终,但费希尔的争斗还将继续下去。卡尔.皮尔逊三年前从伦敦大学退休,大学将他创立的生物统计系一分为二。原属卡尔.皮尔逊的“高尔顿”教席和优生学系系主任,归属费希尔。卡尔.皮尔逊的儿子bg电子游戏平台埃贡.皮尔逊接管分裂过后的生物统计系,并同时担任《生物统计》的编委。费希尔对埃贡.皮尔逊饱含敌意——他不喜欢埃贡的父亲,也不喜欢埃贡的朋友和重要合作者、统计届冉冉崛起的新星——内曼;埃贡.皮尔逊完全是受了牵连。不过,埃贡.皮尔逊是个非常温和内敛的年轻人,他非常尊敬费希尔,也重视他的工作。尽管两个人关系紧张,但两个人还是在同一栋楼里共同工作了数年,互派研究生参加对方的讲座,且没有发生过明显的争执。
(关于埃贡.皮尔逊和内曼更多的故事,我们会在以后的篇章讲到,敬请期待。)
细心的读者在本系列读第一篇介绍卡尔.皮尔逊关于统计的哲学观点时,可能会提出一个相关的问题:如果世界的本质是随机的,不存在误差,那么,也就不存在误差估计了?
费希尔则认为真正的分布是抽象的数学公式。人们所收集的数据只能用于估计真实分布的参数。由于所有这些估计都会引入误差,因此费希尔提出了使这类误差程度最小化或使估计值距离真实分布最近的工具。
怎么去理解呢?不妨先回忆一下咱们高中物理学到的一些观点。学到最后,老师一般会问及这两个世界观的问题:宇宙有终极真理吗?我们可以发现终极真理吗?第一个问题,我们的回答是“有!”——这源自于我们关于科学的信仰。第二个问题的解答,则是一种“模型”的观点:我们不能直接发现“真理”,而是一系列关于真理的“模型”。模型和真理当然是有差距的,而我们追求真理的过程,就是不断用更好的模型更新和扬弃那些旧的不那么好的模型的过程。
再用我们中学熟悉的知识举个例子,在卢瑟福的alpha粒子轰击金箔散射实验之前,汤姆生的“枣糕”模型就是最好的原子结构模型,因为它能解释当时所有已知实验现象(如,原子的电中性,以及金属在紫外线的照射下能发出电子等等现象)。但散射实验之后,“枣糕”模型对新的实验现象不能自圆其说了,于是,卢瑟福的“行星模型”就取而代之。这并非是说,我们认定原子结构就是“行星”这个样子——其实我们永远都不确定原子究竟长什么样;我们只是说“行星”模型是当下最好,起码已经足够好——足够简单又足够解释所有已发现的实验现象。以后当然还会有新的实验发现——“行星”模型也有不能自圆其说的一天,我们就会发展更好的模型取代它。科学研究就是这样基于“模型”持续不断自我更新的过程。
同时,模型也就意味着一种谦卑的、开放的世界观——我们可能永远不能发现“终极真理”,但在追求更好的模型的过程中,我们可以无限地接近它。因为模型不是真理,就不存在“对”“错”之别,但却非常讲究“好”“坏”之分。于是,鉴别和评价模型好坏在科学研究中是至关重要的。
我认为,费希尔的哲学观点,就比较接近这种“模型”观点。我们对现实生活中需要研究的目标(参数)做的测量只是一种有限的抽样(测量值),用这些抽样,我们其实是在建立“统计模型”(统计量)。举个例子,老师需要知道全班学生掌握知识的程度(参数),于是组织了一次考试(设计实验),通过测试分数(测量值),最后得到平均分(统计量)。且我们当然有多种建立统计模型的方法,比如,如果不用平均分,还可以用中值、最高分、最低分,以及各种你构造的关于分数的函数……所以,这个时候我们就需要提出原则和标准来判断和评价模型是否好,怎么个好法——费希尔就提出了几个标准,比如,一致性,无偏性,有效性等。
现在,再回过头来看看卡尔.皮尔逊的观点,则更像对第一个问题的回答——世界有终极真理吗?——有,且终极真理就是“随机”。这样理解后,其实和上述费希尔的观点也并不矛盾。注意,费希尔的统计模型也是“随机”的,但模型的分布可不能说就是“终极真理”的分布啊。但皮尔逊的问题在于,他是没有模型观点的,在他那里可不存在两个分布,只有一个分布——即你观察到的就是“终极真理”(分布)!如果将这种观点作用于实际,可以想见,对很多情况可能不好用(当两个分布差异很大的时候),基于此得出的结论错得离谱也不稀奇。这就是为什么
到了70年代,皮尔逊的观点再度兴起。统计学界在这个问题上分成了两个阵营,尽管皮尔逊很难对他这一派的门徒的观点表示认同。费希尔用清晰的数学头脑将大部分困扰皮尔逊的问题梳理整齐,将皮尔逊观点内在本质显露出来。后来人们在复兴皮尔逊方法时仍然需要使用费希尔的理论成果。
我们再从费希尔的观点来考虑:两个分布有没有等同的可能呢?当然有,考虑极限情况嘛,观测足够多,抽样数目接近无穷大了,那么,模型不就无限接近“真理”了嘛?这在统计教科书里一般称为“大样本理论”,是20世纪70年代发展起来的,取这个名字是为了和费希尔的工作相区别(相应的,费希尔的工作被称为“小样本理论”)。因为极限情况下大样本分布的渐近性质和小样本下分布各种性质差异非常大,所以把它独立出来作为一个新的研究领域。
虽然学术界一般认为“大样本”的哲学源头在卡尔.皮尔逊,但我想,如果卡尔.皮尔逊和费希尔活到今天,看到这些发展,费希尔肯定是理解得更快的那一个。卡尔.皮尔逊则可能会一头雾水:“确定是我的理论?”;费希尔应该会一脸嫌弃:“这算啥啊?早知道了。太trivial,懒得写。” 能把开发这套理论的学者们气得要吐血(费希尔绝对有这个本事,不信看下节,哈哈),那还是投卡尔.皮尔逊门下吧,好歹也是祖师爷啊。
费希尔的天才,是毋庸置疑的;但谈起他的个性,总会让人不由想起英特尔的创始人和成就者——安迪.格鲁夫的那个著名的书名《只有偏执狂才能生存》。
费希尔积极参与“优生运动”,他在优生学上的一些见解,简直会让人误会他是个“法西斯主义者”。他提出,国家应提高专业阶层和高级工匠阶层的生育率,而压制下层社会的生育率。
向穷人发放福利,其实是国家政策起到了鼓励他们繁育后代、将基因传给下一代的作用,而中产阶级对经济安全的担忧导致他们推迟婚期,少生儿育女。费希尔忧心忡忡地指出,这一趋势最终结果就是国家为子孙后代选择了“最差”的基因,剔除了“更好”的基因。
不过,要考虑历史局限性,不可苛求前人,这也算是他的“白璧微瑕”吧。既然已经提到了费希尔的优生学研究,也很有必要说一句,他在遗传学上的成就与声望几乎和他在统计学上同样杰出。其实他有一半的工作都和遗传学有关。称他是“继达尔文之后最伟大的生物学家”。今天深入人心的关于基因的许多观念——比如,动植物的各种性状是各种基因以不同的概率相互作用的结果——其实都源自费希尔。要知道,费希尔做出这些发现,并不像人们臆想中的能观察到什么实体的基因或是细胞制造各种蛋白质云云,而仅仅是一堆概率分布!我们所说的基因,即DNA链,正是来自这些分布。哇!是不是想想都觉得很酷?另外,费希尔还指出了孟德尔豌豆实验数据作假——
另一个让费希尔饱受争议的事情是:他终身不接受“吸烟导致癌症”这个结论,坚持认为人们用于吸烟导致肺癌的证据存在严重缺陷,甚至指责研究人员伪造数据。他的固执几乎让人怀疑他是收了烟草公司的钱。当然,这个怀疑从未被实证,但费希尔喜爱烟草则确信无疑,不少照片里的他都烟斗不离身。
当然今天吸烟有害健康bg电子游戏平台、导致癌症已经成为学术界的主流观点。但仔细查验费希尔的辩论,却又并非完全没有道理:
其一,建立这个观点的早期研究数据确有瑕疵。比如规模小,针对人群单一,没有公布详细数据(只公布总结性数据)。除此,还有一些矛盾的地方:当初的调查问卷中有一项询问被调查者是“深吸式”,还是“浅吸式”,结果发现浅吸式吸烟者的患癌人数比深吸式还要多。费希尔对此大加讽刺,质问为什么研究者不将真正的研究结论公之于众:吸烟有害健康,不过你一定要吸烟,那么你最好将烟气深深吸到肺里!(哈哈,领教了费希尔炮火的厉害了吧)
当然,研究者的解释是,研究对象可能没有理解这个问题。于是他们在之后的更大规模的研究中删掉了这个问题。这当然让费希尔更加愤怒bg电子游戏平台,认为他们完全就是利用政府的权威和资金在大众心中散播恐惧,与纳粹通过舆论操纵人心有什么本质区别?(费希尔炮火,一万点伤害+1)
其二,就涉及统计另一个很本源的问题:相关性与因果性怎区分?费希尔提出了另一种可能:
假设吸烟与肺癌之间存在联系,是因为二者来自统一基因。为了证明这一结论,费希尔收集了同卵双胞胎的证据,指出双胞胎吸烟或者不吸烟的家族趋势明显。他向其他人发出挑战:请他们证明肺癌不是由于基因导致的。
在费希尔1962年去世之前,内曼一直在bg电子游戏平台遭受这位天才的尖刻攻击。内曼一切的行为都成为了费希尔批评的口实。如果内曼成功证明了费希尔某些模糊的说法,费希尔就会批评他误解了自己的本意。如果内曼发展了费希尔的思想,费希尔就会批评他将这种理论带进了一无是处的死胡同。
内曼从未在书面材料中以同样的态度回敬费希尔,根据内曼的同事的说法,他在私下里也没有批评过费希尔。
返回搜狐,查看更多20世界50年代,有一次,内曼在一场国际会议上用法语宣读了一篇论文。他走上讲台时,发现了费希尔就坐在台下。宣读论文时,他为自己可能遭受的攻击做好了心理准备。他知道费希尔会抓住论文中一些不重要的小问题,把自己训斥得体无完肤。演讲结束后,内曼开始等待关注提问。只有寥寥几个人提出了问题,费希尔却一直没有爆发,他一句话也没说。后来,内曼才发现,费希尔不会讲法语。
微信平台
手机官网