要打造更好的人工智能助手首先要对人类的非理性行为进行建模

导读 为了构建能够与人类有效协作的人工智能系统,首先要有一个良好的人类行为模型。但人类在做出决定时往往表现不佳。这种不合理性尤其难以建模...

为了构建能够与人类有效协作的人工智能系统,首先要有一个良好的人类行为模型。但人类在做出决定时往往表现不佳。

这种不合理性尤其难以建模,通常可以归结为计算限制。人类不可能花费数十年的时间来思考单一问题的理想解决方案。

麻省理工学院和华盛顿大学的研究人员开发了一种对代理(无论是人类还是机器)行为进行建模的方法,该方法可以解释可能妨碍代理解决问题的能力的未知计算约束。

他们的模型可以通过查看智能体之前行为的一些痕迹来自动推断智能体的计算约束。结果,即代理所谓的“推理预算”,可用于预测该代理的未来行为。

在一篇新论文中,研究人员展示了如何使用他们的方法从先前的路线推断某人的导航目标,并预测棋手在国际象棋比赛中的后续动作。他们的技术与另一种流行的此类决策建模方法相匹配或优于另一种方法。

最终,这项工作可以帮助科学家教授人工智能系统人类的行为方式,从而使这些系统能够更好地响应人类合作者。电气工程和计算机科学(EECS)研究生、该论文的主要作者AthulPaulJacob表示,能够理解人类的行为,然后从该行为推断出他们的目标,可以使人工智能助手变得更加有用。这项技术。

“如果我们知道人类即将犯错,在了解他们之前的行为方式后,人工智能代理可以介入并提供更好的方法来做到这一点。或者代理可以适应其人类合作者的弱点能够对人类行为进行建模是构建能够真正帮助人类的人工智能代理的重要一步,”他说。

Jacob与华盛顿大学助理教授AbhishekGupta以及资深作者JacobAndreas(EECS副教授、计算机科学与人工智能实验室(CSAIL)成员)共同撰写了这篇论文。该研究将于5月7日至11日在奥地利维也纳举行的国际学习表征会议(ICLR2024)上发表。

建模行为

几十年来,研究人员一直在构建人类行为的计算模型。许多先前的方法试图通过向模型添加噪声来解释次优决策。该模型可能会让智能体在95%的情况下做出正确的选择,而不是始终选择正确的选项。

然而,这些方法可能无法捕捉到这样一个事实:人类并不总是以同样的方式表现得次优。

麻省理工学院的其他人也研究了在面对次优决策时规划和推断目标的更有效方法。

为了建立他们的模型,雅各布和他的合作者从之前对国际象棋棋手的研究中汲取了灵感。他们注意到,在进行简单的动作时,玩家在行动前思考的时间较少,而在具有挑战性的比赛中,实力较强的玩家往往比实力较弱的玩家花更多的时间进行计划。

雅各布说:“最终,我们发现计划的深度,或者人们思考问题的时间,是人类行为方式的一个很好的体现。”

他们构建了一个框架,可以从智能体之前的行动中推断出规划的深度,并使用该信息来模拟智能体的决策过程。

他们方法的第一步是运行算法一段时间来解决正在研究的问题。例如,如果他们正在研究国际象棋比赛,他们可能会让国际象棋算法运行一定数量的步骤。最后,研究人员可以看到算法在每一步做出的决策。

他们的模型将这些决策与解决相同问题的代理的行为进行比较。它将使代理的决策与算法的决策保持一致,并识别代理停止计划的步骤。

由此,模型可以确定代理的推理预算,或者该代理将为该问题计划多长时间。它可以使用推理预算来预测代理在解决类似问题时的反应。

可解释的解决方案

这种方法非常有效,因为研究人员可以访问问题解决算法做出的全套决策,而无需做任何额外的工作。该框架还可以应用于任何可以用特定类别的算法解决的问题。

“对我来说,最引人注目的事情是这个推理预算非常容易解释。这意味着更棘手的问题需要更多的计划,或者成为一个强大的参与者意味着计划更长时间。当我们第一次开始这样做时,我们并没有我认为我们的算法能够自然地识别这些行为,”雅各布说。

研究人员在三种不同的建模任务中测试了他们的方法:从之前的路线推断导航目标,从某人的言语暗示猜测其交流意图,以及预测人与人之间的国际象棋比赛中的后续动作。

他们的方法在每个实验中要么匹配要么优于流行的替代方法。此外,研究人员发现他们的人类行为模型与玩家技能(国际象棋比赛)和任务难度的衡量标准非常匹配。

展望未来,研究人员希望使用这种方法来模拟其他领域的规划过程,例如强化学习(机器人技术中常用的试错方法)。从长远来看,他们打算继续在这项工作的基础上实现开发更有效的人工智能协作者的更大目标。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。