GPT-4 通过图灵测试 展现出类似人类的对话能力

导读 最新研究显示,人类与机器在对话中的界限正变得越来越模糊。根据加州大学圣地亚哥分校的研究结果,OpenAI语言模型的最新版本GPT-4表现出了...

最新研究显示,人类与机器在对话中的界限正变得越来越模糊。根据加州大学圣地亚哥分校的研究结果,OpenAI语言模型的最新版本GPT-4表现出了出色的模仿人类对话的能力,使得图灵测试中的参与者难以将其与真人区分开来。本文探讨了这些发现的含义及其对人工智能和人机交互未来的意义。

起源和目的

图灵测试由计算机科学家艾伦·图灵于 1950 年提出,用于衡量机器表现出与人类相当或难以区分的智能行为的能力。该测试通常被称为“模仿游戏”,要求人类评估者与人类和旨在产生类似人类反应的机器进行对话。评估者必须确定哪个对话者是机器。如果评估者无法准确区分机器和人类,则认为机器通过了测试。

历史背景

图灵测试是人工智能 (AI) 领域的一项基础概念,是评估机器智能的基准。早期的人工智能程序(如 20 世纪 60 年代的 ELIZA)展示了机器进行类似人类对话的潜力,尽管能力和复杂程度有限。几十年来,人工智能的进步使我们更接近能够令人信服地模拟人类对话的机器。

加州大学圣地亚哥分校的研究

方法

加州大学圣地亚哥分校的研究人员进行了一项研究,研究对象为 500 名参与者,他们被要求与四个不同的对话者分别交谈五分钟。这些对话者包括真人、ELIZA、GPT-3.5 和 GPT-4(ChatGPT 聊天机器人的最新版本)。每次对话后,参与者都需要确定他们的对话者是人还是机器。

发现

研究结果发表在预印本网站 arXiv 上,令人震惊:

54% 的参与者误将 GPT-4 当作真人。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。