背 景
人工智能颠覆人类的办公方式是毋庸置疑的。如今,机器通常会完成许多十年前还被认为不适合自动化的任务。然而,即使完全自动化成为一种技术可能性,许多任务仍依赖于人力投入。因此,由于人类经常为算法提供互补能力,将人与机器结合可能会带来更好的结果。作者聚焦基于人工智能建议的人类决策领域。该领域过往研究主要关注于决策表现性能最大/优化,但关于人工智能的决策建议如何影响人类特有的认知(人类特有,机器没有)这一问题一直被忽视。然而,人类特有的认知,在决策过程中意义非凡,对许多合作的工作环境有积极的影响,它使得人类和人工智能具有互补性。基于人工智能建议决策的人类失去其独特知识(即互补性),可能对长期的决策表现、持续改进和创新极其不利。然而,当人类通过失去自己的独特知识而失去这种互补性时,每个人的决定就会开始模仿其他人类和人工智能的决定。因此,人类的行为开始变得更像机器或半机器人(“Borgs”)。作者通过分析和实验研究以下三个广泛的研究问题来探索这种损失的本质及其影响:
•人工智能的建议如何影响人类的决策准确性和独特的人类认知?
•如何减轻人工智能建议对人类独特知识的负面影响?
•失去对群体智慧的独特人类认知的后果是什么?
假 设
结合文献,文中提出了4个主要假设 ,具体内容罗列如下。
H1a: 当收到人工智能的建议时,人预测的准确性会提高。
H1b: 当接受人工智能的建议时,人的独特认知会减少。
H2a: 当接收到AI的确定性时,人预测的准确性会提高。
H2b: 人的独特认知通过提供人工智能的确定性而增加。
H3a:当人工智能建议被个人化时,人类的准确性并不会降低。
H3b:当人工智能建议个性化时,独特的人类知识会增加。
H4a:当获得人工智能建议时,群体智慧的受益随着群体规模的减小而减小。
H4b:当获得AI的确定性时, 群体智慧带来的好处会随群体规模的增加而增加。
H4c:当人工智能的建议是个性化时,群体智慧带来的好处会随着群体规模的增加而增加。
作者建立了一个分析模型框架(AnalyticalModeling Framework),以支撑假设猜想,从理性决策者的角度。然后进行了一系列的实验,以证明文章的理论见解得到了经验的支持。
实验设计
(一)基础实验设计
在实验中,受试者必须从10个可能的图像类别中选择一个焦点图像(例如,一只小黑狗的图像)。对于这10个图像类,作者展示了类名和属于该类的13张图片,作者从ImageNet数据库(www.image-net.org)中采样了100张图像和相应的正确类标签。所有的受试者都分类了同样的100张聚焦图像。图像具有不同程度的主观难度;例如,人类可能会发现,对一辆消防车进行分类比识别特定的狗品种更直接。在每一个分类之后,受试者报告他们对自己选择的确定程度,分为4个等级(“不确定的1/4”,“相当不确定的2/4”,“相当确定的3/4”,“相当确定的4/4”)。
所有研究包括两个主要条件:“无人工智能”条件下的受试者单独工作。他们自己做决定,没有得到任何帮助。在“人工智能建议”条件下,受试者从图像分类方面表现最好的人工智能那里获得建议。对于每一幅图像,会给1000个可能的类别打分。这个分数表示选定的类是给定焦点图像的真实类的可能性。在我们的实验中,人工智能会向受试者推荐确定性得分最高的图像类。在我们的100张图像集合中,AI的准确率为77%,图3和图4显示了这些实验实施的截图。它们说明它们之间的唯一区别就是是否有人工智能的建议。
(二)测量
正如在作者在理论模型中所提到的,作者主要关注两种测量方法:人类的准确性和人类的独特知识。
人类的准确率是用正确分类的图像数除以图像总数来衡量的。
人类的独特知识是用人工智能正确分类的图像数除以图像数来衡量的。
作者在实验中基于这两种测量方法进行假设、测试和报告。
研究结果
实验1:人工智能建议和提供人工智能确定性的效果
作者首先检测了预先提出的关于人工智能建议的影响的假设,并提供人工智能对人类准确性和独特的人类知识的确定性。准确性和独特人类知识的汇总统计数据见表2,平均结果见图5。
因此,假设1a得到证实: 当人类被提供人工智能建议时,准确性会提高。除了预先提出的假设外,作者还得出结论,当提供人工智能建议时,人类的准确率(0.799)超过了人工智能的准确率水平0.770 (p < .001)。作者没有找到足够的证据支持假设2a,也不能得出结论说,当人工智能提供关于其确定性的信息时,准确性会进一步提高。
根据Levene检验(F(2,455) = 1.807, p = .165),不同处理的独特人类认知的方差没有显著差异。方差分析表明,不同处理的平均人类独特知识是不同的(F(2,455) = 47.336, p < .001, η2 = .172)。当人类独自工作时,人类的平均独特知识是0.123,而人工智能建议将人类的独特知识减少到0.073。HSD表明这5个百分点的差异是显著的(p< .001),表示有很大的影响(d = 1.125)。当作者额外呈现AI的确定性(处理3)时,人类的独特知识是0.087。这与其他两种处理方法有显著差异(p < .001)。处理2和处理3之间的差异为1.4个百分点,这表示影响很小(d = .285)。因此,假设1b和假设2b得到了证实,即人工智能建议减少了人类独特的知识,而提供关于人工智能确定性的信息在一定程度上缓解了这种影响。
实验2:人类对人工智能建议反应的异质性
表4显示了汇总统计数据。总的来说,结果可以复制实验1的主要结论,收到建议的效果有所提高。由于人工智能的建议,所有指标都有所提高。正确建议的好处和不正确建议的危害在个体之间存在相当大的差异。
为了说明这种变化不能用不同水平的AI信任和使用来解释,作者在图6中绘制了所有受试者的利益和危害。原始数据显示有很多变化,没有明确的模式。因此,对建议的反应似乎因人而异。
实验3:个性化人工智能的建议
与上述实验结果分析过程类似,图5和表7表明,假设3a得到验证:个性化人工智能建议不会降低准确性。假设3b也得到验证,与总是提供人工智能建议相比,个性化的人工智能建议显著增加了人类的独特知识。与没有人工智能建议的人类相比,提供个性化建议的准确性显著提高,而独特的人类知识不会显著减少。
实验4:群体智慧
为了检验假设4a和4b,作者以群体准确性为因变量进行了简单的线性回归分析。关于自变量,作者考虑:群体规模(1至15之间),人工智能建议(1为处理2和处理3),群体规模和人工智能建议的交互作用,人工智能确定性(1为处理3),以及群体规模和人工智能确定性的交互作用。回归结果汇总在表6的左列中。结果表示,人工智能确定性与人群规模之间存在显著的正向交互作用,因此,假设4a和4b均得到验证。
为了检验假设4c,作者同样使用了线性回归方法,用AI个性化代替自变量AI确定性。回归结果汇总在表6的右列中。结果表明,人工智能个性化与人群规模之间存在显著的正向交互作用,假设4c也得到了验证。
综上,本文的研究表明,人工智能的建议有两个主要影响。首先,正如预期的那样,在大量研究的支持下,通过接受人工智能的建议,人类的决策表现可以提高。然而,作者也强调了一个迄今为止还未被证实的影响:人类失去了他们独特的知识/认知,并因此与其他人类决策者和人工智能互补。
参考文献:
论文信息: Fügener, A., Grahl, J., Gupta, A., &Ketter, W. (2021). Will Humans-in-the-Loop Become Borgs? Merits and Pitfalls ofWorking with AI. Management Information Systems Quarterly (MISQ)-Vol, 45.
下载链接: https://misq.umn.edu/will-humans-in-the-loop-become-borgs-merits-and-pitfalls-of-working-with-ai.html
作者详细信息:
AndreasFügener
andreas.fuegener@uni-koeln.de
https://wiso.uni-koeln.de/en/forschung/find-an-expert/experts/prof-dr-andreas-fuegener
Faculty of Management, Economics, and Social Sciences,University of Cologne, Cologne, GERMANY
Jörn Grahl
anjoerngrahl@googlemail.com
https://wirtschaftsinformatik.uni-koeln.de/en/institute/alumni
Faculty of Management,Economics, and Social Sciences, University of Cologne, Cologne, GERMANY
Alok Gupta
alok@umn.edu
https://carlsonschool.umn.edu/faculty/alok-gupta
Carlson School ofManagement, University of Minnesota, Minneapolis, MN, U.S.A
Wolfgang Ketter
ketter@wiso.uni.koeln.de
https://wiso.uni-koeln.de/de/forschung/find-an-expert/experts/prof-dr-wolfgang-ketter
Faculty of Management,Economics, and Social Sciences, University of Cologne, Cologne, GERMANY andRotterdam School of Management, Erasmus University, Rotterdam, THE NETHERLANDS