在算法的偏见可能调控发挥?

A Q&A on managing the social impact of A.I.

信用: 皮特·瑞恩

森德希尔·马纳森

森德希尔·马纳森 | 2020年7月27日

去年,您发表的一篇论文在介绍如何使用所产生的种族偏见的结果医疗机构的算法。什么外卖的确在人类偏见如何算法偏差不同的术语,其报价?

该文件可能是,通过一些措施,但是奇怪的论文中我曾经工作过上。它的规模庞大的一个提醒,算法可以达到。

确切的数字很难得到,但大约有8000万美国人通过该算法进行评估。这不是对一些无关紧要的事情:它是由许多卫生保健系统,以决定哪些患者应该得到正式投入所谓的保健管理计划的算法。护理管理方案,是谁将会是在医院了很多人。如果你有很多情况下,你会在系统频繁,所以你不应该去通过正常的大门,也许你应该有一个礼宾谁只是你的作品。你会得到更多的资源来管理这个复杂的护理。 

它花费了很多钱把别人的护理管理计划。你真的想针对这些程序。所以问题是,谁应该是他们?

在过去的五年里,一直在使用的人开发的健康记录,以找出谁在使用保健不少风险最高的算法。这些算法产生一个风险评分,以及我的coresearchers,我想知道是否有这些成绩的任何种族偏见。

我们寻找它的方式就是把两个人给出了相同的分数由算法,一白一黑。那么,我们看着那些两个人,问是否平均,白色的人有疾病的同一级别的黑人。我们发现的是,他或她没有,当算法给出两个人以同样的比分,白色的人往往比黑的人更健康。我的意思是非常健康,非常等等。如果你说,“有多少白人,我会必须从计划中删除,以及有多少黑人就我不得不投入,直到他们的患病水平大致相等?”你将不得不加倍黑人患者的数量。它是一个巨大的间隙。 

我说这是我在上一部分工作,因为这个东西的庞大规模最疯狂的项目之一。但也有很多是发生在一个大规模的社会不公。当我们说,是什么让这确实很奇怪是“让我们弄清楚什么导致了它。”在算法偏文学,每个人的行为像算法是人,像他们偏向[在这个意义上,人们。它只是一小片的代码。什么地方出了问题的代码?

这个项目告诉我们应该吓唬我们关于算法,还能有什么应该让我们对他们的巨大希望。

我们所发现的东西,我们在我们所有的活性成分的一次又一次的寻找工作中,你每次看到的算法做了一些非常糟糕的,没有工程错误的时间。这是非常,比在代码中的bug的传统,你已经习惯了完全不同的:当你的电脑死机,一些工程的bug已经显示出了。我从来没有见过在临时代办工程的bug错误是什么人问算法做。他们只是在做他们怎么问的问题是错误的。

在这种情况下,我们说:“好吧,你看,它的路要走。我们如何找出它在做什么错?好了,让我们来找出什么人也希望优化“。他们想找到生病的人,但他们是如何衡量疾病?权利要求:它们使用他们有数据测量它。 

所以病是由多少美元来衡量所产生的患者,这是极微妙的不同。病不等于美元。他们是高度相关的,但它们不是完全一样的东西。而事实证明,如果你看花总块钱,你实际上并没有看到任何算法种族偏见。在相同的风险评分,选择黑色和患者选择的白斑病患者具有相同的平均花费的美元。

再次,成本高与健康的相关性,但不能跨种族。在健康的同一水平,我们花更少的非裔美国人。所以当算法去预测成本,它显然没有找到最病非裔美国人是作为吸引力,最病白斑患者。 

我要指出,这不是做愚蠢的事情。大约有内置五点六个这样的算法,并且他们都有这个bug。有的被私人公司建造,有的被非营利组织建立,有的被学者建立的,但这个错误是致命的,这是因为它的产品管理方面的无处不在。

这些算法的构建方式是,一组数据科学家去告诉这些卫生系统,“我们可以建立一个风险评分。是什么东西,你想在风险?”卫生系统说:“好了,我们想找到最病的病人,”他们提供他们所拥有的数据。 

卫生系统还没有意识到的错误。数据科学家不知道很多关于医疗保健领域。那么,谁知道很多关于上下文的人,谁知道很多关于编码的人之间,东西落在贯穿性裂缝。从域编码翻译是我们的问题后,出现问题后看问题。 

事实上,计算机代码秤,但也意味着解决方案的规模,这是关于它的伟大的事情。一旦我们意识到这是问题,我们建立了训练以预测健康的算法。现在正在被按比例:今年年底,我们将有这个东西固定为5000万人。我们可能得在明年固定整个问题。

我从来没有工作过的任何社会科学的这个样子,在那里你找到了这样的不平等,在这个规模的一些问题,突然你就可以修复它。这个项目告诉我们应该吓唬我们关于算法,还能有什么应该让我们对他们的巨大希望。

可以调节帮助解决如何算法偏差的问题?

我们要分开了两次类型的bug。我刚才描述的错误是坏的企业和坏的社会。所以,而不是监管者,有可能只是与人力资本的人找到这些问题的一个很好的套利机会,妥善制定解决方案。对于那些私下糟糕的错误,有一个巨大的赚钱机会或职业决策的机会。 

让我们来个不同类型的错误,即私下并不坏,或者甚至稍好,但社会上很糟糕的错误。应该有一个稳压器,将着眼于这些算法和审核呢?我认为答案是肯定的。 

想想就业的情况。美国平等就业机会委员会是几乎从来没有能够通过门来获得诉讼,因为它很难证明一个人的歧视。即使我们有说整个系统是歧视性的,产生的证据表明,一个动作由一个人是歧视性是很难做到的统计数据。他们会只是说,“当然,我没有录用的人,但是那是因为有这个其他人谁是更好的。”但谁又能说谁更出色?这是一个非常复杂的事情。

有与算法,谁就会有动力来捕捉这些监管机构美元,生产者提交的利益。谁在另一边?

的优点是,调节器具有用于调节的算法是,不像人类,算法是显着的可审计。通知甚至在我提到的文章中,我们只是把算法,说:“太好了,让我看看你会为这组病人做什么,告诉我,你会为这组病人做什么,我们会进行比较。 ”我不能去人力资源经理说,“我要告诉你一百万份简历,我会看到你与他们做了什么。”算法是精美的审计。 

我们将在接下来的十年中看到的变化之一是,希望所有的算法智能调节。我所说的智能的意思是不是进入的,他们应如何设计等基本事实,但把保障在说有一些属性,他们应该有。如果我们不在乎,因为我们应该,大约有不是种族不平等,这是一个特性,任何监管机构可以检查任何就业算法或任何其他算法。这是非常辨认的。

你会为了调节需要检查偏倚的算法?

比方说,监管机构有兴趣的算法,帮助雇主筛选决定聘用谁。所以我们采取的是越来越常见算法的具体类别。这些算法采取的简历和排名。和你担心,可以将这些算法有某种偏见?

一个稳压器需要两件事情。她需要最简单的事情是访问该算法的代码。什么她会做的是说,“我要通过这个算法运行一百万份简历。我现在要做的事情一样采取同样的简历,它从男性到女性的名字而改变。”她只是要运行一堆你可能会在编码“单元测试”,但在这种情况下叫什么,对于是否有尺寸上的不同测试,你不想要的。这是一个调节器要检查的第一件事。

监管机构将要检查的第二件事是,“什么是用于构建该算法的训练数据?我想这一点,我想知道,如果你建立了具有我所关心的群体一些不同的影响的算法“。 

假设有人建立了一个粗制滥造招聘的算法,它看上去在为你去了大学。它不看名字是否是种族或没有,所以设计师可能会说,“看,我的算法是不是歧视性的。”但监管机构需要能够看到设计师的数据,说:“不,你只看到这一点。我们通过数据去。这里有一个更好的算法。”而更好的算法不再使用仅这一个代理。为什么是怎么回事?因为如果我真的想对弱势群体的歧视,我会用代理一样,“你去好学校?”

它实际上是相当容易,只要法律上说,这些东西需要被存储到检查的歧视。这将是与其他监管场所一致。采取财政:你必须保持信息的很长一段时间。审计人员必须能够进来,内部收入服务必须能够进去。

你能想象到会错算法调整?

这里最大的危险是监管俘获。我们有我们已经避免了IT产业,但这是很容易出现监管俘获一个部门。有与算法,谁就会有动力来捕捉这些监管机构美元,生产者提交的利益。谁在另一边?它需要我们的消费者,但什么是我们该怎么办?透明度的算法是不会带来很多的人出来游行。

所以这将是我最大的恐惧:这是一个地方,是算法能够产生的危害是弥漫大,但是从坏的算法收益都集中在几个演员。 ,设置了一个糟糕的监管情况。

其他地方有一些真正的危险是一些金融监管机构在某些国家找到了一个方法来解决,这就是,要防止的创新金融产品的过度管制。复杂的对冲和其他复杂的产品可以创建隐藏的大的系统性风险。但坦率地说,金融知识就是对资金面确实不错,所以有很多人创新的东西。你希望他们进行创新,因为大部分是好的,但监管机构需要以某种方式保持了坏的。你怎么保持了坏的不保持了好的? 

审计的目的,你不需要审计师作为一个人,了解该算法。您希望审计师能够运行一堆东西来测试它。

这得到,为什么我是说,如果监管机构发现自己进入了基本事实,出了问题。如果,另一方面,他们具有简单,透明的测试,这将是美国食品和药物管理局没有太大的不同。它不会打扰你,如果FDA局长和他的同事不知道太多关于生物制剂。他们需要知道的唯一的事情是我们如何药物试验运行,以及如何确保它不是经营不善。他们需要在该活动的专家。

我们需要一个透明的方式来测试这些算法,希望以比药物试验成本要低得多,但我们都同意,如果他们没有通过这个测试,这不是良好的创新可言。不幸的是,当你看到调控提出的建议国会议员,他们是关于希望含糊的声明。他们说,“我们要取缔算法判别。”那有什么意思?一旦你已经做了这样的规定,谁得到的实践来定义是什么意思?既得利益得到定义。

在您的研究,您认为有之间的算法是如何解释的是人们如何公平它的输出是一个权衡。是用于调节他们的关注?

很多人都熟悉的想法,算法是“不可解释的。”这个词是超载。人们用它来意味着什么都没有做相互至少两件事情。 

一个是:作为一个人,如何能我明白什么算法完成?这是因为很多关于我的认知局限的一个问题,因为它是关于算法。例如,它会很容易写下一个数学公式,这是透明的,但几乎每个人都将在盯着说,“这是什么东西做的?”但是这是我们的。式是完全透明的。这一切都没有。你有你需要的一切。所以解释性的这第一个定义是常见的,但它完全是一部关于人类认知的局限性声明。 

现在让我们开始第二类解释性问题:不可预测,我们甚至无法审核的算法。这将是一个糟糕的算法,如果是这样的话。每一个算法我知道的是在这个意义上,你可以通过它运行的情况下,看看到底会发生什么可解释的。你可以一遍又再次做到这一点。算法是完全可预测的。他们是一致的。你可以与他们合作。这是我们很难理解,因为与人类,在手这两个形影相随:有人谁是可以理解的我们也预见到我们。

审计的目的,你不需要审计师作为一个人,了解该算法。您希望审计师能够运行一堆东西来测试它。技术可审计的该级别是值得所有的算法共享。 

不如意的事情,当我们问算法是解释给我们。当我们问算法是解释给我们,您可以看到自然什么事情发生:他们真的开始服用我们的偏见,因为这就是他们将要解释我们的方式。简单容易使人类思维理解,但本质上简单导致不公平。

森德希尔·马纳森 在芝加哥大学布斯计算和行为科学的罗马世家大学教授。这份成绩单是编辑摘录。原来的谈话发生6月10日是由芝加哥大学布斯的EMBA项目主办危机事件系列中的思想领导力的一部分。