本文主要内容来自《Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality》这篇论文以及主要作者ETHAN MOLLICK 伊桑·莫利克的的介绍文章,并经过了润色和修改。转载请务必附带原文和参考链接。
一直以来很多人宣传熟练使用AI可以大大提高自己的工作效率,不会使用AI可能会落后于其他对AI比较熟悉的人,AI对一些工作效率的提升是毋庸置疑的,但是到底可以提升多少是个问题。
哈佛大学商学院昨天发布了一个研究论文可能给出了一部分比较量化的成果,先说结论:
在工作中使用AI可以带来工作效率的显着的改善。使用AI的实验者比没有使用AI的实验者平均多完成了 12.2% 的任务,完成任务的速度提高了 25.1% ,并且产生的结果质量提高了 40%
所有任务的输出质量分布。蓝组没有使用AI,绿组和红组使用了AI,红组还接受了一些关于如何使用AI的额外培训。
接下来我们看一下论文的细节:
在崎岖的边疆之中
AI很奇怪。实际上,没有人真正知道像GPT-4这样最先进的大型语言模型的全部能力范围。没有人真正知道最佳使用方式或它们失败的条件。没有使用说明书。在某些任务上,AI非常强大,而在其他任务上,它有可能输出失败的结果。除非你经常使用AI,否则你不会知道哪个是哪个。
结果就是我们所说的“人工智能的崎岖边界”。想象一下一座堡垒的城墙,有些塔楼和城垛伸出到乡间,而其他的则向城堡中心折回。这堵墙就是人工智能的能力,离中心越远,任务就越困难。墙内的一切都可以由人工智能完成,而墙外的任务对人工智能来说则很难。问题在于这堵墙是看不见的,所以一些任务在逻辑上可能看起来离中心的距离相同,因此难度也相同——比如写一首十四行诗和一首恰好50个字的诗——但实际上它们位于墙的不同侧面。人工智能在写十四行诗方面很擅长,但由于它以标记而不是单词来概念化世界,它总是产生出多于或少于50个字的诗。同样地,一些意想不到的任务(比如创意生成)对人工智能来说很容易,而其他一些对机器来说似乎很容易的任务(比如基本数学)对大型语言模型来说却是挑战。
我让ChatGPT与Code Interpreter一起为您可视化这个问题:
为了测试人工智能对知识工作的真正影响,我们选取了数百名被测试者,并随机决定是否允许他们使用人工智能。我们让那些被允许使用人工智能的被测试者获得了GPT-4的访问权限,这是全球169个国家的每个人都可以通过Bing免费访问,或者通过支付每月20美元给OpenAI来获得的同一模型。没有特殊的微调或提示,只是通过API使用GPT-4。
我们随后进行了大量的预测试和调查,以建立基准,并要求顾问为一家虚构的鞋类公司做各种各样的工作,这些工作是BCG团队精选出来的,以准确地代表顾问的工作内容。这些工作包括创意任务(“为一个未开发市场或运动提出至少10个新鞋的创意。”),分析任务(“基于用户对鞋类行业市场进行细分。”),写作和营销任务(“为你的产品起草一份新闻发布营销文案。”),以及说服力任务(“给员工写一份激励备忘录,详细说明你的产品为何能胜过竞争对手。”)。我们甚至与一位鞋类公司高管核实了这些工作的真实性 - 他们是真实的。而且,考虑到人工智能的能力,这些任务可能是我们预期在前沿领域内的任务。
根据我们的理论,并且正如我们所讨论的,我们发现有AI访问权限的被测试者表现明显更好,无论我们是否先简要介绍了AI(图表中的“概述”组)或者没有。这对于每一个衡量指标都成立,无论是完成任务所需的时间,总体完成的任务数量(我们给定了总体时间限制),还是输出质量。我们使用人工和AI评分员对质量进行评估,他们之间达成了一致(这本身就是一个有趣的发现)。
我们还发现了其他有趣的事情,这种效应在其他人工智能研究中越来越明显:它作为一个技能水平的平衡器。在我们开始实验时评估被测试者们时,得分最低的被测试者在使用人工智能后,他们的表现有了最大的提升,达到了43%。顶级被测试者仍然得到了提升,但提升幅度较小。看到这些结果,我认为不够多的人在考虑一个技术将所有工人提升到最高绩效层面时意味着什么。这可能就像过去矿工是否擅长挖掘岩石一样重要...直到蒸汽铲车被发明出来,现在挖掘能力的差异已经不再重要。人工智能还没有达到那种程度的变革,但技能平衡将产生重大影响。
崎岖的边界之外
但故事还没有结束。BCG设计了另一个任务,这个任务经过精心挑选,以确保AI无法得出正确答案。这并不容易。正如我们在论文中所说:“由于AI的出人意料的能力,很难设计一个在AI的边界之外的任务,在这个实验中,高人力资本的人类在工作中能够始终胜过AI。”但我们找到了一个任务,利用了AI的盲点,确保它会给出一个错误但令人信服的答案,而人类能够解决这个问题。事实上,人类顾问在没有AI帮助的情况下,84%的时间能够正确解决问题,但当顾问使用AI时,他们的表现更差,只有60-70%的时间能够正确解决问题。发生了什么事?
在一篇与我们共同合作的论文中,Fabrizio Dell'Acqua展示了为什么过度依赖人工智能可能会适得其反。在一项实验中,他发现使用高质量人工智能的招聘人员变得懒散、粗心,并且在自己的判断能力上变得不够熟练。他们错过了一些优秀的申请者,并且做出的决策比那些使用低质量人工智能或根本不使用人工智能的招聘人员更糟糕。当人工智能非常出色时,人类没有理由努力工作和专注。他们让人工智能接管,而不是将其作为工具使用。他将这种现象称为“在驾驶中睡着”,它可能会损害人类的学习、技能发展和生产力。
在我们的实验中,我们还发现被测试者在使用人工智能时会打瞌睡 - 实际上,那些使用人工智能的被测试者的答案比那些不允许使用人工智能的被测试者更不准确(但他们在撰写结果方面的工作仍然比不使用人工智能的被测试者做得更好)。如果你不知道人工智能的边界在哪里,那么人工智能的权威性可能会具有欺骗性。
半人马和机械人
但是很多被测试者确实在内外边界任务中都做得很好,既获得了人工智能的好处,又避免了不利因素。关键似乎是采取以下两种方法之一:成为半人马或成为半机器人。幸运的是,这并不涉及将电子小玩意儿嫁接到你的身体上,也不会被诅咒变成希腊神话中的半人半马。它们实际上是两种在人与机器之间整合工作的方法,用来穿越人工智能的崎岖边界。
半人马工作有明确的界限,就像神话中半人半马的人体和马体之间的明确界线一样。半人马有着战略性的劳动分工,可以在人工智能和人类任务之间切换,根据每个实体的优势和能力来分配责任。当我在借助人工智能进行分析时,我经常以半人马的方式进行。我会决定使用哪些统计技术,然后让人工智能来处理生成图表。在我们在BCG的研究中,半人马会自己完成他们最擅长的工作,然后将任务交给人工智能处理边界上的任务。
另一方面,半机械人将机器和人混合在一起,深度整合二者。半机械人不仅仅是将任务委派出去,而是与人工智能紧密结合,来回穿梭于这个不平坦的边界之间。一部分任务被交给人工智能处理,比如启动一个句子让人工智能来完成,这样半机械人就发现自己与人工智能协同工作。这就是我建议在写作中使用人工智能的方式,例如。这也是我在论文中生成的两个插图(不平坦的边界图像和54行图表),它们都是由ChatGPT构建的,在我最初的指导和引导下完成。
半人马模式具有以下特点:
根据人和AI各自的优势进行任务划分。将适合人类完成的子任务交给人类,将适合AI完成的子任务交给AI。
高度敏感于技术前沿的参差。能够辨别哪些子任务适合人类,哪些适合AI。不会全权把整个任务交给AI,而是把任务分解成适合人类或AI的子任务。
在任务流程的不同阶段采用不同的具体做法。例如在分析过程开始或结束时利用AI的文本精炼能力,帮助设置分析过程或整理最终输出。
人类控制整个工作流程,根据需要切换使用人类知识或AI能力。
整合人类和AI的优势,发挥双方的最大效用。
总之,半人马模式强调人与AI紧密结合,但是各司其职,人类主导整个流程,根据任务的性质合理调配人类和AI资源。
机械人模式具有以下特点:
不仅进行简单的劳动分工,而是在子任务层面上的紧密结合。外界观察者难以判断输出是由人类还是AI产生的。
人类并不仅仅依赖AI,而是不断地询问、试验、纠正AI,以获取更好的输出。
采用各种方式提高AI的效用,例如指定人格、要求编辑修改、提供示例等。
在整个工作流程中使用AI进行各个子任务。
人类和AI交替或协同完成某个子任务的不同部分,如人类初始化一个句子,AI完成句子等。
人类和AI输出高度集成,难以分割。
我感觉这两种方式更像是现在人类跟AI合作的两个阶段:第一种大概知道AI的能力边界,可以简单的使用和复用AI输出的结果提升自己的工作能力。第二种机械人可以熟练的使用AI深入探索AI能力更加精细化的更AI协作和AI一起创作内容。
在崎岖的边界上跳舞
我们的论文以及其他学者的一系列优秀工作表明,无论对于人工智能的本质和未来进行哲学和技术上的辩论如何,它已经成为我们实际工作中的强大颠覆者。而这并不是一个被夸大的新技术,它将在五年内改变世界,或者需要大量投资和巨大公司的资源 - 它已经在这里,现在就在这里。精英被测试者用来加速工作的工具与每个阅读这篇文章的人所拥有的工具完全相同。而被测试者们使用的工具很快将比你所拥有的更糟糕。因为技术前沿不仅是崎岖不平的,而且还在不断扩展。我非常有信心,在接下来的一年里,至少会有两家公司发布比GPT-4更强大的模型。崎岖的前沿在不断前进,我们必须为此做好准备。
除了可能引起焦虑之外,还值得注意人工智能的其他缺点。使用人工智能时,人们往往会进入自动驾驶模式,甚至在驾驶中睡着,无法察觉人工智能的错误。与其他研究一样,我们也发现,虽然人工智能的输出质量比人类高,但总体上也有些同质化和雷同之处。这就是为什么半机械人和半人马很重要——它们使人类能够与人工智能合作,产生比单独的人类或人工智能更多样化、更正确、更好的结果。而成为其中的一员并不难。只需在工作任务中充分利用人工智能,你就会开始看到那个参差不齐的前沿,开始理解人工智能在哪些方面令人惊讶地出色,以及它的不足之处。
在我看来,问题已经不再是人工智能是否会重塑工作,而是我们希望它意味着什么。我们可以选择如何利用人工智能来使工作更加高效、有趣和有意义。但我们必须尽快做出这些选择,以便我们可以开始积极地以伦理和有价值的方式使用人工智能,成为半机械人和半人马,而不仅仅是对技术变革做出反应。与此同时,这个不断变化的边界不断前进。