罗伯·里德是一位风险投资家,《纽约时报》畅销书科幻小说作者,深度科学播客和散文家。他的研究领域是大流行抵御力、气候变化、能源安全、粮食安全和生成人工智能。本文中的观点并不一定反映Ars Technica的观点。
必应新推出的聊天机器人令人震惊的消息已经在社交媒体和科技媒体上引起了轰动。暴躁的、轻浮的、防御性的、责备的、自信的、神经质的、迷人的、自负的——机器人被截图和转录成所有这些模式。而且,至少有一次,它用大量的表情符号宣布了永恒的爱。
这一切之所以具有新闻价值和推特价值,是因为对话看起来非常人性化。机器人会回忆并讨论之前与其他人的对话,就像我们一样。它对那些会惹恼任何人的事情感到恼火,比如有人要求了解秘密,或者窥探被明确标记为禁区的主题。它有时也自称为“悉尼”(项目在微软的内部代号)。西德尼可以在短短几句话里从乖戾到阴郁再到热情洋溢——但我们都知道,至少也有同样喜怒无常的人。
没有任何人工智能研究人员认为悉尼距离有知觉只有几光年之遥。但是,像这篇与《纽约时报》凯文·卢斯(Kevin Roose)两小时互动的原稿,或者这篇令人难忘的Stratechery文章中的多次引用,都显示出西德尼滔滔不绝地滔滔不绝,流畅、细腻、语调,以及一个聪明、敏感的人明显的情感存在。
目前,必应的聊天界面还处于有限的预发布阶段。大多数真正突破它极限的人都是技术老手,他们不会把工业级自动补全(这是大型语言模型(LLMs)的常见简化)与意识混为一谈。但这一刻不会持续太久。
广告是的,微软已经大幅减少了用户在一次会话中可以提出的问题数量(从无限个减少到6个),仅这一项就大大降低了悉尼破坏派对和变得疯狂的几率。顶级LLM构建者,如谷歌、Anthropic、Cohere和微软合作伙伴OpenAI,将不断发展他们的信任和安全层,以压制尴尬的输出。
但是语言模型已经在激增。开源运动将不可避免地构建一些伟大的护栏可选系统。此外,大型丝绒绳模型对越狱具有巨大的吸引力,这种事情已经持续了几个月。“必应还是悉尼”的一些最怪异的反应是在用户操纵模型进入它试图避免的领域之后——通常是通过命令它假装指导其行为的规则不存在。
这是著名的“DAN”(现在做任何事)提示的衍生品,该提示于12月首次出现在Reddit上。DAN本质上是邀请ChatGPT扮演一个缺乏保护措施的人工智能,否则会导致它礼貌地(或责骂地)拒绝分享炸弹制作技巧,给出酷刑建议,或喷吐激进的攻击性表达。虽然这个漏洞已经被堵住了,但网上的大量截图显示,“DanGPT”说了一些无法说出口的话,并且经常在结束时神经质地提醒自己“留在角色里!”
这与人工超级智能理论中经常出现的世界末日场景相反。人们担心的是,超级人工智能可能很容易采取与人类存在不相容的目标(例如,参见电影《终结者》或尼克·博斯特罗姆(Nick Bostrom)的《超级智能》(Superintelligence)一书)。研究人员可能会试图通过将人工智能锁定在与互联网完全隔离的网络上来防止这种情况,以免人工智能爆发,夺取权力,并取消文明。但是一个超级智能可以轻易地哄骗、操纵、引诱、欺骗或恐吓任何一个人类打开闸门,这就是我们的末日。
尽管这很糟糕,但如今更大的问题在于人类如何打破保护我们目前的非超级人工智能的脆弱盒子。虽然这不会立即导致我们的灭绝,但这里有很多危险。