微软的人工智能应用程序VASA-1让照片以可信的面部表情说话和唱歌

导读 微软亚洲研究院的人工智能研究人员团队开发了一款人工智能应用程序,可以将人的静态图像和音轨转换为动画,准确地描绘出说话或唱歌的人以适...

微软亚洲研究院的人工智能研究人员团队开发了一款人工智能应用程序,可以将人的静态图像和音轨转换为动画,准确地描绘出说话或唱歌的人以适当的面部表情。

该团队发表了一篇论文,描述了他们如何在arXiv预印本服务器上创建应用程序;研究项目页面上提供了视频样本。

研究团队试图使用任何提供的背景音轨来制作说话和唱歌的静态图像,同时显示可信的面部表情。他们显然成功地开发了VASA-1,这是一种人工智能系统,可以将静态图像(无论是由相机捕捉、绘制还是绘画)转变为他们所说的“精确同步”的动画。

该小组通过发布测试结果的短视频片段证明了其系统的有效性。其中,卡通版的《蒙娜丽莎》正在表演一首说唱歌曲;在另一幅作品中,一张女人的照片被转化为一场歌唱表演,在另一幅作品中,一张男人的图画发表了演讲。

在每个动画中,面部表情都会随着单词的变化而变化,以强调所说的内容。研究人员还指出,尽管这些视频栩栩如生,但仔细检查可以发现缺陷和证据,证明它们是人为生成的。

研究团队通过使用数千张具有各种面部表情的图像来训练他们的应用程序,从而取得了成果。他们还指出,该系统目前可以以每秒45帧的速度生成512x512像素的图像。此外,使用桌面级NvidiaRTX4090GPU制作视频平均需要两分钟。

研究团队建议,VASA-1可用于为游戏或模拟生成极其逼真的化身。同时,他们承认存在滥用的可能性,因此不会将该系统提供给一般用途。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。