所有的统计模型都是错的, 但还是有点用

 天顺注册招商   2021-02-19 07:52   18 人阅读  0 条评论
原标题:所有的统计模型都是错的, 但还是有点用

所有的统计模型都是错的, 但还是有点用  第1张

视觉中国图

所有的统计模型都是错的, 但还是有点用  第2张

《终极价格:我们赋予生命的价值》 (Ultimate Price:The Value We Place on Life) 霍华德·斯蒂芬·弗里德曼(Howard Steven Friedman) 著 University of California Press 2020年5月版

去年我给《第一财经日报》撰写了《终极价值》(Ultimate Price)一书书评,没想到作者霍华德·弗里德曼(Howard Friedman)看到了这篇文章,并主动通过朋友找到我,希望能进行更为深入的讨论。普罗大众对统计学与数据科学有两种不同的误解,一是认为数据科学这门发展速度极快的新兴行业,理应做到科学意义上的准确;另一种则认为这是门骗人的学问,无非是从业者的意识形态的另一种表述而已。

霍华德·弗里德曼目前在哥伦比亚大学教授卫生健康统计学,此前他在银行和非营利机构从事统计相关工作。他的新作《终极价值》从政府赔偿金、保险、医疗方案等各方面,深入讨论人命的统计学价值这一问题。我们的一条命到底值多少钱?它该如何计算?有钱人的命是否比穷人的命值钱?又有没有真正意义上的统计学模型可以做到公平对待每一条命?作为统计学从业者,这些是弗里德曼关心的问题,也是我们通过电邮交流的主要内容。

统计科学的伦理

第一财经:是什么启发你写《终极价值》这本书?你的研究是从哪个出发点开始的?

弗里德曼:我是从得知“9·11”遇难者补偿基金这一出发点,开始对生命价值这个问题产生兴趣的。像很多土生土长的纽约人一样,我有认识的人在那天不幸丧生。很多年后,当我开始反省自己在健康经济学、成本效益分析方面的工作时,不管是在政策制定还是在给公司进行咨询服务的情境下,或是在给法律事务所和人寿保险公司做经济学模型的过程当中,都从各方面涉及生命价值这一命题。这时候,我知道我有了写一本书的框架。下一步是阅读这方面的文献,记录各种看待这一问题的方法,并开始撰写这本书里的各个章节。

第一财经:你有为大型公司和政府设计统计学模型的经验。你能不能谈谈统计学家与公司领导和政策制定者之间的关系?统计学家为公司和非营利机构工作的时候角色有无区别?

弗里德曼:数据分析与模型制作的基本概念和思考方式,无论在哪个设定下都是相同的,但取决于不同的行业和设定,我们手上的数据资源、数据元素、目标、沟通需求、模型限制和最终能输出的用途都有所变化。打个比方,在公共事业当中,目标通常是花最少的钱救最多条命。为银行或者私募基金做分析的时候,目标往往是让模型能最优化地保证预测的准确性以及盈利能力(当然是在满足输入变量属于合法范畴的情况下)。P值法和其他统计测试通常不那么重要。为以盈利为目的的私立医疗行业做分析的时候,通常有一些变量的限制以及沟通上的要求,导致模型设计者只能用某些今天比较常用的统计学方法,因为那些更进阶复杂的模型方法不那么透明,而且很难完全向管理医生的医保行业人士及其他决策者解释清楚。

第一财经:你认为统计学家的模型与方法是否潜意识里由某种政策理念驱动?统计本身是否有“意识形态”?

弗里德曼:我本人一直想要追求最完善的统计科学,比如我会开发一些不带偏见的预测,与决策者坦诚沟通统计模型的限制,并想办法尽量提高数据分析的质量。这是我自己从事数据科学至今的职业目标,因为无论某个客户有什么需求,我本人的声誉是要伴随我职业生涯的。当然,非常偶然的情况下,我也遇见过某个雇主或客户想要从我这里,通过某些手段,得到非常特定的他们想要的答案。这里就有职业伦理的问题。我的答案一直是:“我作为科学家的声誉比你要我做的事情重要得多。”短期内你有这样的立场可能会损失一些与这一客户合作的机会,但对职业发展来说,清晰的道德往往是最好的选择。

当然,无意识的偏见总会从各方面渗入统计学、数据分析和数据科学,包括数据的获取方式、定义方式、模型方法、模型汇报、模型评估和模型应用。这方面的意识应该被重视,并且有些好的办法可以提高。

第一财经:你在书中反复提到的是“公平”这个概念。能否谈一下“公平”对你来说具体意味着什么?因为在现实中,人对公平的理解各不相同,各个政治流派对此定义也不相同。各种理念对公平的不同理解,如何能从统计学方法中得到平衡?

弗里德曼:统计伦理学当中已经有一些概念处理这个问题,包括AI伦理,这可能有效,但就我自己来说,我思考公平这个问题的时候思路要简单一些。

第一,我会思考数据模型的“表面有效性”,我总会思考这种表面上的有效是否从社会意义上或逻辑上不成立的结论里来的。举例而言,在书中我阐述了为何用基于收入的方法来评估人命的价值有很大的缺陷,因为用这种方法得出的结论是:一条高级对冲基金经理的命,要比社工、教师、警察、消防员、护士或其他在社会中扮演重要角色的人的命贵一千倍。另外,这种基于收入的评估方法会很直接地认为:无收入者的人命毫无价值。这缺乏“表面有效性”,因为没人会认为这是公平或者人性化的判断方法。

第二,我会思考一些人口意义上的指标(性别、种族、年龄、地理位置、移民状态等)是否与当下问题有关。我在书中写到,有些因素,诸如性别或种族,放在美国这一范畴中来讨论,与收入是直接相关的,性别收入差异与种族收入差异真实存在。这些差异不仅影响收入水平,还有其他影响,比如生命价值及作为生命价值被输入模型时的影响。

第三,我认为透明度非常重要,而且我希望其他人也能如此对待透明度。我书中尝试解释一些数据分析与模型当中比较复杂的概念,这样,非这一行业的人士也能懂得生命价值算法之下的内容。模型设计者必须能解释自己关键的输入、预设以及影响最终输出结果的各个因素,这样他人可以从结论当中寻找偏见存在的可能性——举例而言,我在自己的模型设计工作当中专注于让机器学习模型变得更容易理解也更容易阐释,这样,一个普通人也能明白并对机器学习模型作出评论。如果科学家无法对普通人解释自己的模型,那我会怀疑他们是否理解自己的概念。

第四,我会尝试打开反馈回路,看看模型是否精确,哪里不准确,并更新数据输入与模型。这听起来好像是个很不重要的概念,但通常预测性质的模型在现实世界里会只关注特别狭窄的人群,忽略其他人,因为这些数据会进入这样的反馈回路。

第一财经:你在书中写道,政府没有任何设立受害者赔偿基金的理由,但对大灾大难来说,这仍然是很常见的一种方式。商业赔偿比起政府设立的赔偿方式更不注重公平。你认为有什么更好的方法吗?

弗里德曼:澄清一下,我书中特别讨论的是美国(而非其他国家),我是说美国政府不应该这么做。因为美国有其他法律上的机制可以解决这个问题,包括人寿保险,并且我们的民事法律系统允许受害者(在遇难的情况下,允许死者的家庭和伴侣等)进行起诉。

另外,我对“9·11”遇难者补偿基金建立的先例有着怀疑态度,因为现在一个受害者赔偿基金是否应该被设立已经没有了明确的标准。我在书里写道:“政府重新分配税收来补偿‘9·11’受害者带来了新的问题,那就是到底什么性质的不幸遇难可以激活税收补偿。它也带来了一个永久的法律问题:如果税收可以用来补偿‘9·11’遇难者的家庭,那为什么其他遇难者得不到补偿?”

第一财经:你在书中描述“9·11”遇难者补偿基金的时候,最终得出的结论是最公平的赔偿方法是把所有人的生命价值看作完全相同。实际上就像你刚才说的,民事诉讼才是此类赔偿最常用的方法。受害者本人或者其家人对诉讼的执着程度,或者法律方面的资源,以及民事法庭随机选中的陪审团对受害者的同情程度,这些都对最终获赔的金额有直接影响。那些没有能力或没有资源长期继续诉讼的家庭,可能因此无法获得高额赔偿。这种诉讼的意愿及对自我价值的评估(它未见得与收入挂钩,穷人的诉讼执着程度与自我价值评估有可能与富人相当)也就成为了“统计生命价值”的一部分。这在你看来公平吗?

弗里德曼:我个人认为“统计生命价值”本身应用上的优点,正是他们对所有人一概而论,而不像基于收入的价值评估标准,在收入、财富以及不平等的社会差异(性别差异、种族差异)等方面都有非常大的跨度。我在书中写过,我认为公平的生命价值价码是“不取决于贫富、肤色、年龄的价码”。所以我不希望看到诸如“自我价值评估”进入统计体系当中,它会带来更多的偏见,得出更为不公平的结论。

数据不会那么“干净”

第一财经:你是统计学家,但你也在书中批评了很多统计学的方法,特别是基于问卷调查的统计学决策过程。我觉得这很有意思。在我自己的生活经验里,问卷调查在美国医疗行业非常普遍。就诊人经常被问一些听起来荒唐的问题,比如在0~10之间选择自己的疼痛程度或者抑郁程度,等等。你认为这些方法有哪些缺陷?为什么它们那么普遍地被应用?

弗里德曼:我的工作在统计学、经济学、数据科学各方面都有,就我自己的工作来说,我认为需要让专家对解释自己的工作负责,包括数据输入、关键预设、模型预测及模型限制等方面。

举例而言,临床试验已经进行了好几十年了,参与临床试验的人群通常是根据诊断小心翼翼选择的(他们有什么病,没有什么病),之前吃过什么药,有什么并存病,属于什么人口范畴,等等,这些数据都在临床试验里受到控制,所以可能药物的有用程度会比在现实世界里高出很多。净结果是临床试验当中的人群通常并非药物上市后会服用的人群,因此临床试验的结论通常限制于某一分支的未来病人。我专注于用“现实世界的论据”并在现实世界当中实施,这样才能更好地理解其有效程度。数据不会那么“干净”(为了解决数据质量的问题,建模的方法也通常比较高阶),所以至少在我看来,这样的数据处理方法比纯粹通过临床试验得出结论,并认为这些结论会在现实世界里被重复,要有代表性得多。

你说的用数值衡量疼痛的问题,在现实当中反而是有效的,可能它跟直觉相反,确实有一些价值(虽然可能这种价值有定向性质)。

第一财经:你在讨论成本效益分析的时候,提到这些分析有时候会忽略一小群人的具体需求,甚至不但不推进公平,反而推进更多的不公。这是个很有趣的观点,也是很多社会活动分子对数据为本的技术官僚的批评,认为现实中的人的感情没有在数据分析的过程当中被考虑进去,你怎么看?

弗里德曼:我在书中反复强调的一点是,我认为社会活动分子应该经常与技术官僚、特定领域专家、政策制定者以及其他相关人士进行交流。两者之间不应该存在冲突,两边人士都应该为进行对话付出努力。我非常享受别人用所谓“新鲜的眼睛”来看我的工作,我希望他们的建议能帮助我的工作变得更好,但我也认识一些专家对自己的工作防范心很强,不喜欢接受批评。统计学家乔治·博克斯(George Box)有句很有名的话——“所有的模型都是错的,但还是有点用”,我很欢迎这种态度。

第一财经:你的书中让我最为惊讶的数据,是美国环保局把每条美国人生命的价值定在900万美元。至少在我看来,这比一般人脑子里的数额要大得多。这么算的话,美国全国的生命加起来价值高达3000万亿美元,比美国过去100年的GDP加起来还要多。900万美元也比你书中提及的“9·11”遇难者补偿基金给出的最高金额高得多。你怎么看待这个数字?

弗里德曼:我在书中对各种“统计生命价值”的方法都持有批评态度,我觉得每种方法都有技术上和逻辑上的问题。当然,用收入来计算有更大的问题。我在书里写了,“每种用价码判断生命价值的方法都是逻辑上不成立的……虽然这些价码有缺陷且缺乏逻辑,它们依然被使用,有着现实世界里的意义。”

我觉得监管机构用高价当作当下的统计学生命价值来进行成本效益计算,有其可取之处。它强迫各个行业投资更多的金额到消费者保护当中。没有很强的监管系统、高额生命价值和法律上的后果,很多大公司会把注意力放在短期盈利上,忽略长期安全方面的顾虑。

那么这个数字是不是“太高”呢?可能你说得对,也许是有点太高了,但从他们计算的角度来看,大体维度上是正确的。

与“9·11”遇难者相比的话,我们必须把差不多40%的通货膨胀考虑进去。另外,“9·11”遇难者补偿金的计算方式是在一定法律限制之下的,所以这种比较不一定合理。

第一财经:《终极价值》一书最终的目的是给读者思考“生命值多少钱”这个问题提供多种方法,如果读者想要在这一路径上继续阅读下去的话,你有什么推荐的书目或研究吗?

弗里德曼:有很多的书籍可以阅读,我在书后也附录了一份书单。我特别推荐肯尼斯·芬博格(Kenneth Feinberg)的《生命值多少钱?》(What is Life Worth?)和迈克尔·桑德尔(Michael Sandel)的《金钱不能买什么》(What Money Can’t Buy)。

第一财经:你能谈谈这本书后你新的研究吗?

弗里德曼:我热爱数据科学,希望更多人能理解这个行业,并参与到各个方面中。全球范围内,数据科学是一个大家都能参与的领域,并且可以在日后创造更多的价值。我最近完成了一些手稿,主要是向美国六、七年级的初中生介绍数据科学,用类比的方式介绍一些基本概念,不是一本真正的教科书。对我来说,这是让我非常有激情的一个工作项目。除此以外,我也想写一本为非常忙碌的职业人士介绍数据科学的书,让他们能了解专业数据科学的基本概念和术语,帮助他们更好地与数据科学家合作。

第一财经:最后一个问题是很难不问的,读者读完了你的书肯定会想问你,你认为一条美国人命值多少钱?

弗里德曼:我要尽可能不回答这个问题……我希望每个读者都能得出他们自己的结论,并在自己的国家为自己相信的那个数字作出努力,无论在哪个行业。

本文地址:https://lkwed.com/post/10280.html
版权声明:本文为原创文章,版权归 天顺注册招商 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?