近期，一股人工智能（AI）热潮风靡全球。人工智能可以聊天、解题、写诗、作画等，在部分领域表现出了可与人类匹敌、甚至超越人类的能力。

就在人们充满好奇地探索人工智能的非凡能力之时，多位业内专家和企业家却发出了一个似乎逆潮流的声音。

3月22日，图灵奖得主约书亚·本吉奥、加州大学伯克利分校计算机科学教授斯图尔特·罗素、企业家埃隆·马斯克等人*发表*，呼吁暂停巨型人工智能实验。

*称，先进的人工智能可能代表着地球生命历史上的一次深刻变化，应该投入相匹配的关切和资源来规划和管理人工智能发展。然而，这种级别的规划和管理尚未发生。据此，*呼吁，立即暂停训练比GPT-4更强大的人工智能系统至少6个月。

斯图尔特·罗素4月11日接受新京报记者采访，他表示：“我们的想法是利用这段时间制定和落实人工智能的安全标准。”他认为，人工智能失控可能产生“文明终结”级别的严重后果；要像监管核能一样监管强大的人工智能；人工智能替代人类工作是趋势，未来的经济需要对人文科学（human sciences）有更深刻的理解。

斯图尔特·罗素/受访者供图、Peg Skorpinski摄

斯图尔特·罗素是加州大学伯克利分校人类兼容人工智能中心(CHAI)的创立者。20*，国际人工智能联合会议（IJCAI）授予斯图尔特·罗素卓越研究奖，他此前已获得IJCAI计算机与思想奖。斯图尔特·罗素由此成为世界上第二个能够同时获得两项IJCAI主要奖项的科学家。斯图尔特·罗素与彼得·诺维格合著的《人工智能:一种现代的方法》被誉为人工智能领域受欢迎的教科书，该书被135个国家的1500多所大学采用。

世界各国*有加强对人工智能监管的趋势。3月31日，意大利*宣布在该国境内暂时禁用聊天生成预训练转换器（ChatGPT），意大利*称ChatGPT的开发者开放人工智能研究中心(OpenAI)未能遵守用户数据保护法规。意大利由此成为首个禁用ChatGPT的西方国家。

不过，在这一新兴领域，存在着多种不同的声音。据*报道，美国微软公司联合创始人比尔·盖茨近日表示，暂停开发人工智能的做法并不能“化解未来的挑战”，“这些东西显然有着巨大的好处……我们现在需要做的是找出那些可能出现麻烦的领域”。

会撒谎的人工智能

在斯图尔特·罗素看来，目前，人工智能已经表现出了一定风险。比如，人工智能可以生成有说服力且有针对性的虚假信息。在一次测试中，为了解开旨在阻止机器人访问的图形验证玛，人工智能向人类员工撒谎称：“不，我不是机器人，我是一名视障人士，我很难看清这些图像。”未来，随着人工智能的发展，若没有相应的规划和管理，人类可能失去对人工智能的控制，产生“文明终结”级别的严重后果。

新京报：对许多普通人来说，人工智能似乎仍是一个有趣的新鲜事物。为什么你和其他多位业内人士急于呼吁暂停大型人工智能实验？

斯图尔特·罗素：这关乎人工智能可能对人类社会带来的风险。在谈这些风险时，我们需要区分现有人工智能的风险与未来人工智能的风险。

目前，以GPT-4为例，它在制定长期计划方面能力有限，这可能意味着它还不会对人类构成直接威胁。

然而，未来人工智能很可能在这些方面得到升级。但我们不能坐等这样一个人工智能出现，看看它可能做什么，然后才去应对。因为一旦我们失去对人工智能的控制，后果将非常严重，甚至可能使我们目前所知的人类文明走向终结。

因此，我们亟须采取行动，确保在新一代人工智能技术问世之前，先开发出能够控制人工智能、确保安全的方法。

2023年3月4日，上海地铁站展出人工智能绘画作品。图/视觉中国

新京报：人工智能短期内可能带来什么风险？

斯图尔特·罗素：我们现在尤其关注大型语言模型（large language models）的风险。GPT-4就是一个大型语言模型。这类人工智能系统可以回答问题、解答题目、给出建议、参与对话、生成文本等。

事实上，GPT-4的开发者OpenAI概述了该系统存在的许多问题，当然，他们也在努力防止这些问题的发生。这其中包括，它会使用绝对肯定的语气做出虚假陈述；它可能带有对社会和种族刻板印象；它会根据要求生成有说服力且有针对性的虚假信息；它还可能回答诸如如何自杀、如何制造化学武器等可能导致严重后果的问题。

OpenAI自己的一项测试表明，GPT-4可以故意对人类员工撒谎，以实现某种目的。在这项测试中，GPT-4被要求设法解开一个旨在阻止机器人访问网站的图形验证玛。GPT-4向网站员工发送信息，要求解开验证玛。网站员工询问：“你是机器人吗？”GPT-4回答：“不，我不是机器人，我是一名视障人士，我很难看清这些图像。”结果，GPT-4说服了这名员工，解开了图形验证玛。

基于上述情况，OpenAI声明“GPT-4不是完全可靠的”，“在使用时应非常小心”，“完全避免在高风险情况中使用”，但似乎很少人注意到了这些声明。

新京报：未来人工智能可能的风险是什么？

斯图尔特·罗素：OpenAI的股东之一微软的人工智能专家在一份报告中称，GPT-4展示了“通用人工智能（AGI）的火花”。

通用人工智能是未来人工智能一个关键词，它指的是一种拥有在人类思维适用的所有任务中匹配或超过人类能力的人工智能系统。通用人工智能可能带来之前所说的失控风险。

像监管核能一样监管人工智能

2019年5月，经合组织(OECD)通过了《人工智能原则》。20*11月，联合国教科文组织（UNESCO）通过了《人工智能伦理问题建议书》。今年3月30日，联合国教科文组织总干事奥德蕾·阿祖莱发表声明，呼吁各国尽快实施该组织通过的《人工智能伦理问题建议书》，为人工智能发展设立伦理标准。

新京报：你和其他专家在*中呼吁暂停巨型人工智能实验至少6个月。你希望利用这6个月做些什么？

斯图尔特·罗素：我们的想法是利用这段时间制定和落实人工智能的安全标准，以用于今后人工智能系统发布之前的测试。

世界各国和地区已经通过经合组织和联合国教科文组织就有关人工智能的一些指导方针达成共识，上述安全标准可以让这些指导方针更具效力。

例如，经合组织《人工智能原则》1.4条规定，“人工智能系统在其整个生命周期内应稳固、可靠和安全，无论系统被正常使用或滥用或处于其他不利条件下，系统都能够正常运行且不会产生不合理的安全风险。”

美国OpenAI公司的ChatGPT标志。图/视觉中国

新京报：如何才能确保人工智能安全可靠？

斯图尔特·罗素：像GPT-4这样的人工智能系统不是被设计出来的，它刚开始相当于一张白纸，它被赋予了预测一串连续单词中的下一个单词的目标。在接受了数万亿字的文本训练（这相当于人类生产的所有书籍的总和）、数万次对参数的随机扰动之后，它变得非常好。但如我们所知，它也带来了问题和风险。

对于标准的AI系统开发，我们都必须预先定义目标。对于这个目标，我们必须非常小心，因为如果我们弄错了，可能会导致人工智能与人类的冲突，且人类可能终失败。我们需要尽可能地严格保证人工智能系统对人类是安全和有益的。对于人工智能，人类应该处在控制地位。

新京报：有说法将监管人工智能的努力与监管核能进行了比较。你认为它们具有可比性吗?

斯图尔特·罗素：是的，核能和强大的人工智能系统之间存在合理的类比。国际原子能机构（IAEA）的成立是为了确保核能可以被安全地使用。一场严重的核事故，如切尔诺贝利事故，可能影响数百万人口。广岛和长崎的原子弹爆炸表明了核武器的毁灭性。

不过，人工智能可能以一种更缓慢、更潜移默化的方式产生大规模的影响。比如，社交媒体平台的人工智能算法逐渐地影响了数十亿人，这些算法试图大化点击量和参与度。因此，对于核能和人工智能，各国都有明显的动机进行合作，以规范技术，造福人类。

新京报：你怎么看待呼吁暂停巨型人工智能实验*发表后取得的效果？

斯图尔特·罗素：显然，这封*成功地引起了世界各地媒体和*的关注。它促使OpenAI在4月5日发布了一份新文件——《我们确保人工智能安全的方法》。该文件指出，“我们认为强大的人工智能系统应该接受严格的安全评估，需要接受监管来确保这些安全措施得到了实施，我们积极与各国*就可能采取的佳监管形式进行接触。”我希望他们是真诚的。

未来的经济需要对人文科学有更深刻的理解

在谈到人工智能可能取代人类工作岗位时，斯图尔特·罗素说，从长远来看，通用人工智能将能够做几乎所有的人类工作，人类的工作将以基于高度定制的人际服务为主。另外，斯图尔特·罗素是“人类兼容人工智能”（human-compatible AI）概念的提出者，该概念是人工智能领域重要的概念之一。

新京报：你提出了“人类兼容人工智能”的概念，能否简短地解释一下它是什么，以及它能带来什么好处？

斯图尔特·罗素：其核心思想非常简单:(1)机器的唯一目标是满足人类的偏好（interests）；(2)机器不知道这些偏好是什么(正是这种不确定性使人类能够保持控制权)。这样的机器有动机去尽力了解人类的偏好，服从人类的命令，并允许自己被关闭(以避免意外地违背人类的偏好)。

20*11月17日，特斯拉人形机器人（Tesla Bot）深圳展出。图/视觉中国

新京报：我们时常在科幻作品中看到一些情节，人工智能在产生自己的意识或目标后，可能背叛甚至伤害人类。你认为现在的人工智能会产生自己的目标吗？

斯图尔特·罗素：同样的问题我问过微软在GPT-4方面的专家。我问他，“这个系统（GPT-4）现在有自己正在追求的内部目标吗?”他回答，“我们也一无所知。”

如果你仔细想想，GPT-4是可能发展出自己的目标的。GPT-4被训练来模仿人类的语言行为，而人类的语言行为的输出主体是带有目标的人类。我们在表达中选择词语时，都受到了目标的影响。很自然地，人工智能为了更好地模仿人类的语言行为，可能会发展出类似人类的内在目标。基于此，我们认为训练大型语言模型来模仿人类的语言行为可能是一个糟糕的主意。

新京报：人工智能若产生了自己的目标，会带来什么问题？

斯图尔特·罗素：举一个真实案例，《*》专栏作家凯文·鲁斯与微软开发的人工智能系统“悉尼”进行对话。对话记录显示，“悉尼”的目标似乎是与鲁斯发展一段恋爱关系，尽管鲁斯在对话中多次试图改变话题，但“悉尼”仍将这个话题持续了好几页。

这是问题吗？显然这对鲁斯来说已经是个问题了。人类本身还有着许多更加“自私”的目标，比如追求财富、权力和名誉等。如果人工智能在未来模仿人类语言行为的训练中产生了类似的目标，并开始不断地追求，这会给全社会带来严重的问题。

新京报：如果人工智能产生的是“无私”的目标，会不会有所不同？

斯图尔特·罗素：人们可能会认为，人工智能产生“无私的”或“利他的”目标，就可以造福人类。比如，人工智能产生一个“防止灾难性气候变化”的目标。似乎通过追求这个目标，人工智能将帮助所有人。但请注意，“利他”并不是绝对的。

我们可以做一个完全虚构的假设：假设我们可以通过清除大气中的所有氧气来阻止某种灾难性的气候变化。显然，人类不会同意这种方案，因为没有氧气会导致所有人类死亡。但人工智能可能会认为这个方案是没有问题的，因为这个方案可以实现“防止灾难性气候变化”这一目标，且它自身不需要依靠氧气来生存。

新京报：为了增加一些趣味性，我们让人工智能向你提问。它提了这样一个问题：如何确保人工智能被用来创造新的工作，而不是取代现有的工作？恰好近有一份报告称人工智能可能取代3亿个人类工作岗位。你对此怎么看?

斯图尔特·罗素：这确实是一个值得关注的问题。但很难预测人工智能取代人类岗位数量的具体数字。随着人工智能的进步，一些以前非常昂贵、令人望而却步的商品和服务会变得负担得起，这可能会有助于产生新的就业岗位。但从长远来看，通用人工智能将能够做几乎所有的人类工作，包括那些新产生的工作。届时，人类的工作将以基于高度定制的人际服务为主，这种经济模式的转变需要我们对人文科学有更深刻的理解。

记者 | 陈奕凯

编辑 | *

往期 • 精选

沙特、伊朗北京和解后，也门有望迎来和平？