专访万兴科技董事长吴太兵：文本大模型理解人类，文生视频大模型理解世界

2024-05-14 20:42:11

导读小枫来为解答以上问题。专访万兴科技董事长吴太兵：文本大模型理解人类，文生视频大模型理解世界,这个很多人还不知道，现在让我们一起来看...

小枫来为解答以上问题。专访万兴科技董事长吴太兵：文本大模型理解人类，文生视频大模型理解世界,这个很多人还不知道，现在让我们一起来看看吧~.~！

　　记者林典驰深圳报道

　　在近期热播综艺《歌手2024》中，网上发布的片头中“海平面的潮起潮落”等多个场景便是由文生大模型“天幕”生成。

　　2月，Sora大模型横空出世，将大模型领域最热话题又重新拉回到视频模型上，国内诸如万兴科技（300624）、生数科技等公司均发布了各自具备文生视频能力的大模型，一场大模型的竞速正在徐徐拉开。

　　有别于文本大模型的“百模大战”，视频大模型由于其本身算力成本极高，算法难度复杂，所需数据规模数倍于图文大模型，因而国内目前宣布具备文生视频能力的大模型厂商并不多，至今难以大规模落地。

　　另一方面，视频流量占消费互联网总流量的82%，创作者寄希望于文生视频功能出现，视频大模型发展潜力巨大。

　　4月底，万兴“天幕”音视频多媒体大模型宣布正式公测，具备近百项音视频原子能力，一键生成时长支持60秒+。

　　近期，在“2024长江独角兽峰会”上，记者专访了万兴科技（300624.SZ）董事长吴太兵。

　　尽管大模型已在万兴科技旗下创意软件中规模化应用，但“天幕”生成效果离吴太兵预想中仍有差距。

　　他坦言，万兴“天幕”不追求一夜之间的突破，而是采取应用驱动的策略，针对实际用户场景进行能力强化和数据准备。在AIGC时代，万兴更多像电力系统中的终端设备制造商角色，专注于矩阵化的数字创意软件终端应用开发，而非单纯的大模型提供商。

　　在互联网世界中，视频占总流量超过八成。巨大的流量市场也催生了创作需求，数据显示，全球视频创作者规模已达到3.05亿，视频类内容触达到用户群体则高达43亿。

　　为创作一段真实世界的视频，动效师和剪辑师可能需要耗费数天的时间，只为复杂细节和模拟物理世界建模。

　　而随着AI技术的爆发性增长，视频大模型可以通过AI自动化生成高质量的视频内容，大大缩短制作周期和成本。

　　不仅于此，吴太兵表示，中长期来看，视频大模型不仅能够模拟真实物理世界，还应拥有丰富想象力，成为对真实世界的映射。例如，当前游戏场景都是预先生成的，想象空间和体验感有限，未来视频大模型若能助力相关画面实时动态生成，将显著提高玩家的游戏体验。

　　事实上，在供给侧，能够提供高质量支持的音视频大模型仍相对不足，这是因为视频大模型落地并不简单。

　　吴太兵向记者表示，如果说文本大模型只需要理解人类，那么视频大模型需要处理和还原视觉与听觉等信息，理解并构建一个接近真实的世界，这一任务的难度远超文本处理。

　　并且，大模型面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。

　　“粗略估算，训练一天的视频数据量相当于互联网一个月的文本大模型的数据量，‘天幕’按照特定场景组织数据训练，一定程度缓解数据‘焦虑’。”吴太兵称。

　　在吴太兵看来，各家视频大模型在技术方向上并没有本质区别，关键是看企业愿意投入多少资本和人力，购买多少版权数据。

　　百模大战商业模式推演

　　在通往AGI的道路上，除了需要多模态大模型，业界亟需探索更好的商业模式，2024年这一步伐明显加快。

　　当前，百模“激战正酣”，大厂和创业公司在大模型领域厮杀。其中既有做通用大模型如百度的文心、阿里的通义、腾讯的混元，也有面向行业、场景的垂直大模型如万兴的“天幕”、云天励飞的天书在金融、教育、工业等多个领域“智能涌现”。

　　据Gartner研究预测，到2030年，90%的数字内容都将是AI生成，这场AI竞速谁也不想落下牌桌。

　　“AIGC对创业公司来说喜忧参半，喜的是有崭新的赛道出现，忧的是这是一个需要大量资本投入的赛道。”吴太兵认为，巨头更多集中在通用大模型，模式和定位相对稳定；相比而言，万兴具备快速调整策略的灵活性，但又比创业公司更有积淀。

　　随着AI技术不断发展，国内相继出现妙鸭相机、Kimi等现象级爆款，也有专注B端软件基础上，用AI工具增强原有解决方案，又或是AI Agent（AI 智能体）的崛起。

　　吴太兵认为，大模型B端和C端并不是完全割裂，这跟营销渠道建设的优先级有关，好比家用电脑和办公室电脑实际上并没多大区别，更多是大模型所服务的用户和用途有差异。万兴主要用户是C端，同时也有很多企业付费，更愿意用个人用途和商业用途区分。

　　对于万兴的定位，吴太兵有自己的一番思考。他表示，如果将AIGC类比为电力系统，万兴科技更多像电力系统中的终端设备制造商的角色，专注于矩阵化的数字创意软件终端应用开发，而非单纯的大模型提供商。万兴希望做AIGC时代的“美的”，选择创作者的细分市场，开发矩阵化的数字创意软件应用。

　　具体到文生视频大模型，由于运算和推理的成本过高，至今难以大规模落地，视频模型的技术迭代需要烧钱，落地应用后，用户的使用也会带来巨额的计算成本。

　　吴太兵表示，大模型的商业模式还没有完全打通，付费意愿也是需要考量的问题。Sora大模型尚未公测，业界也是猜测其推理成本很高，万兴“天幕”当前处于分批公测状态，一次性放开还不太现实，成本太高。

　　对于百模大战的终局，吴太兵判断，文本大模型集中度高，进入门槛较低，同质性较强，随着参与的机构数量增多，时间逐渐延长，在算力和数据等成本压力下最后一定会角逐出几家寡头。但对于音视频大模型而言，由于细分领域更多，诸如动漫、写实等风格，每个方向数据集都会有较大的差异，多元化的可能更多一些。

来源：21世纪经济报道

以上就是关于【专访万兴科技董事长吴太兵：文本大模型理解人类，文生视频大模型理解世界】的相关内容，希望对大家有帮助！

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢。

标签：

上一篇:晶盛机电：蓝宝石长晶研发再创新纪录

下一篇:最后一页