台大等机构打破:AI已毕视频内容准确神情生成

这项由台湾大学通信工程学征询所的张凯波、郑维元等征询者,以及英伟达公司的王宇祥等群众集结完成的征询,发表于2025年12月的arXiv预印本平台。有兴趣深入了解的读者不错通过论文编号arXiv:2512.04356v1查询齐全论文。
当咱们看到一段视频时,大约准确神情其中的物体和动作似乎是理所天然的事情。然而关于东谈主工智能来说,这个看似简单的任务却荫藏着宽敞的挑战。现在的多模态假话语模子诚然大约生成领会的视频神情,但泛泛出现严重的"幻觉"问题——也即是说,它们会神情视频中根蒂不存在的物体和动作。
磋商这么一个场景:当你条目AI神情一段滑雪视频时,它可能会告诉你视频中有东谈主在跳伞,或者宣称看到了根蒂不存在的雪橇。这种迤逦不单是是小问题,在医疗会诊或自动驾驶等需要高度准确性的范围,这么的迤逦可能带来严重后果。
传统的贬责决策大多专注于静态图像的物体幻觉问题,但视频包含了时辰维度,动作的准确识别成为了愈加复杂的挑战。征询团队阻滞到,要贬责这个问题,需要同期处理两个层面:一是让AI正确识别视频中的物体,二是准确连续这些物体之间的动作联系。
征询团队建树了一个名为SANTA的翻新框架,这个名字代表"自增强对比对都"。这个框架的中枢念念想雷同于一个训导丰富的厚确凿雠校学生的迤逦:领先识别学生容易犯的迤逦类型,然后针对性地筹算陶冶来雠校这些迤逦。
SANTA框架的第一个翻新在于"幻觉性自增强"机制。这个机制的使命旨趣很像一个反面讲义的集合器。当AI模子生成视频神情时,系统会专诚让它继承那些诚然听起来合理但实质上迤逦的词汇。比如,当真实视频中有东谈主在"直立"时,系统可能会纪录下AI倾向于说成"坐着"的迤逦倾向。通过集合这些"反面讲义",系统就能更好地连续AI容易在哪些地点出错。
更具体地说,这个历程就像制作一册"常见迤逦手册"。系统会让AI在每个生成技艺中继承概率最高但又不属于正确谜底集合的词汇。正确谜底集合包括视频中真实存在的物体和动作,以及它们的同义词和上位词。通过这种表情,系统不错系统性地发现AI的"念念维盲区"。
SANTA的第二个中枢翻新是"轨迹-短语对比对都"机制。传统行为时时将视频作为一系列寂寥的图片来处理,这么就无法捕捉物体在时辰上的一语气性和动作的齐全历程。新的行为令像一个提神的不雅察者,不仅温文每个顿然的画面,还跟踪物体在通盘视频历程中的盛开轨迹。
这个轨迹跟踪历程使用了最新的视觉定位技艺,大约精准标志出每个物体在视频中的位置变化。同期,系统还引入了一个"动作压缩器"模块,专门认真从物体之间的联系变化中提真金不怕火动作信息。这就像一个专门分析跳摆动作的厚实,不仅看每个舞者的位置,还要连续他们之间的互助联系。
动作压缩器采用了感知器架构,使用一组可学习的查询向量来捕捉不同类型的动作形态。当系统分析一个动作时,会让这些查询向量与有关物体的轨迹特征进行交互,然后选出最能代表刻下动作的查询扫尾。这个历程确保了系统大约从复杂的空间-时辰联系中提真金不怕火出准确的动作信息。
通盘稽查历程采用了对比学习的战略,这种战略的使命旨趣雷同于"正反对比"的教学行为。系统同期学习正确的神情应该是什么样的,以及迤逦的神情是什么样的。通过束缚强化正确的关联,同期扼制迤逦的关联,AI模子渐渐学会生成愈加准确和可靠的视频神情。
为了考证SANTA框架的有用性,征询团队在多个泰斗数据集上进行了全面的现实。他们使用了MiraData数据集进行稽查,这个数据集包含了42715个高质地的视频-文本对,每个视频平均长度为72.1秒,神情文本平均长度达到318个词。
现实扫尾令东谈主印象深化。在MiraData-9k测试集上,SANTA在物体幻觉评估方面比现存最好行为平均进步了4.02%,在动作幻觉评估方面进步了5.54%。更首要的是,在加权评估目的下,这些进步辩认达到了3.77%和7.7%。
征询团队还在FactVC数据集上进行了考证,这个数据集专门用于评估视频神情的事实准确性。扫尾显现,SANTA在精准率、调回率和F1分数等重要目的上都达到了最好推崇。在视频问答任务VidHal上,SANTA在物体和动作有关的问题复兴准确率上辩认达到了86.3%和85.8%,卓绝了悉数对比行为。
颠倒值得温文的是,征询团队通过t-SNE可视化技艺展示了SANTA的使命机制。可视化扫尾清亮地显现,在哄骗SANTA之前,正确的视频-文本特征和迤逦的幻觉特征在特征空间中羼杂在全部,界限不清。而在哄骗SANTA之后,这两类特征被显著分开,迤逦的幻觉特征被有用地从正确特征等分离出来。
为了测试行为的普适性,征询团队在不同的基础模子上进行了考证。除了在LLaVA-Video模子上取得权贵进步外,在Qwen2.5-VL模子上也得回了一致的改进后果,讲授了SANTA框架的通用性和安详性。
征询还深入分析了各个组件的孝顺。现实标明,仅添加物体级别的对都就能带来权贵进步,而进一步加入动作级别的对都则能得回罕见的改进。齐全的SANTA框架在悉数评估目的上都达到了最好后果,讲授了各个组件之间的协同作用。
值得一提的是,征询团队还测试了SANTA在通用视频神情任务上的推崇。在Dream1k基准测试中,SANTA不仅减少了幻觉时势,还进步了全体的视频神情质地,从32.5分进步到32.7分。这讲授了提高神情准确性并不会毁伤模子的抒发才气,反而大约增强其全体性能。
关于物体轨迹质地的影响分析也很有启发性。即使在使用较低置信度阈值(从0.25降到0.15)导致更多误检的情况下,SANTA仍然大约保捏安详的性能进步,显现了其对噪声的鲁棒性。
从技艺已毕的角度来看,SANTA的稽查历程相对高效。征询团队采用了6e-5的学习率,批次大小为64,使用64帧均匀采样,在2000个稽查技艺内就能达到理想后果。动作压缩器模块采用了16个可学习查询,均衡了估计遵循和表征才气。
这项征询的真谛真谛远远超出了技艺层面的改进。在医疗影像分析中,准确的视频神情大约匡助医师更好地连续病理历程。在自动驾驶范围,可靠的场景连续对安全性至关首要。在教训技艺中,准确的视频内容分析大约为个性化学习提供更好的营救。
天然,这项征询也有一些抑制。现在的行为主要针对相对清亮的视频内容,关于十分暗昧或复杂场景的处理才气仍有进步空间。此外,行为的估计复杂度诚然相对可控,但在处理超长视频时仍需要进一步优化。
预测将来,这项征询为多模态AI的发展指明了首要宗旨。通过迷惑自增强学习和细粒度对比对都,SANTA框架不仅贬责了刻下的技艺痛点,也为后续征询提供了可贵的念念路。跟着视频内容的爆炸式增长和AI哄骗场景的束缚膨胀,这种大约准确连续和神情视频内容的技艺将证据越来越首要的作用。
说到底,让AI大约像东谈主类相似准确连续视频内容,一直是东谈主工智能范围的首要宗旨。SANTA框架通过艰深的筹算,让AI不仅大约"看见"视频中的物体,更大约"连续"它们之间的动作联系。这种跨越不单是是技艺上的打破,更是让AI更接近真实连续寰宇的首要一步。关于平时东谈主来说,这意味着将来的AI助手将大约更准确地匡助咱们分析视频内容,不管是整理家庭摄像、协助使命申报,仍是扶助专科分析,都将变得愈加可靠和实用。
Q&A
Q1:什么是SANTA框架?
A:SANTA是"自增强对比对都"框架的简称,由台湾大学和英伟达集结建树,专门用于贬责AI在神情视频时出现的"幻觉"问题。它能让AI准确识别视频中真实存在的物体和动作,幸免神情不存在的内容。
Q2:AI视频神情中的"幻觉"问题有多严重?
A:这个问题相称严重,现在的AI泛泛会神情视频中根蒂不存在的物体和动作。比如看滑雪视频时说成跳伞,或者看到不存在的物品。在医疗会诊、自动驾驶等重要哄骗中,这种迤逦可能带来严重后果。
Q3:SANTA框架比较传统行为有什么上风?
A:SANTA的中枢上风是同期处理物体和动作两个层面的准确性。它不仅能识别视频中的物体,还能连续物体间的动作联系。现实显现,它在物体准确性上进步4.02%,动作准确性上进步5.54%,权贵卓绝现存行为。
http://www.vapidvixen.com/sisijingpinshipin/9627.html