阿里通义实验室发布PrismAudio：全球首个融合强化学习的视频生成音效框架，9秒音频生成仅需0.63秒

3月24日，阿里巴巴通义实验室正式推出PrismAudio视频生成音效框架，这是业内首个将强化学习与思维链技术深度融合的环境音合成解决方案。该框架专注于马蹄声、风雨声、金属敲击声等与画面内容同步的背景音效生成，而非人物配音领域，为影视制作、游戏开发等行业提供高效音效解决方案。

创新技术架构实现精准声画同步

PrismAudio采用"先写笔记、再发声"的分解式推理流程，突破了传统音视频同步的技术瓶颈。框架创新性地引入四位"老师"协同工作机制：语义老师负责理解画面内容，时序老师把控声音节奏，美学老师优化听觉体验，空间老师处理立体声场。四位专家从不同维度对生成音效进行打分与优化，确保声音与画面严丝合缝。

该技术解决了长期以来视频生成音频中存在的时序错位、环境音不匹配等核心问题。通过将复杂任务分解为多个子步骤，模型能够更精准地捕捉画面中的细微变化，并生成与之高度匹配的环境音效，实现真正的"声画同频"。

PrismAudio在性能方面表现突出，模型参数量仅为5.18亿，却能实现9秒音频生成仅需0.63秒的惊人速度。依托自主研发的高效算法Fast-GRPO，该框架仅需200步训练即可达到传统方法600步的性能水平，大幅降低了计算资源消耗。

在音质方面，PrismAudio生成的环境音效在自然度、同步精度和空间感上均显著优于现有方案。实测数据显示，其在影视片段的音效匹配准确率超过92%，特别是在复杂场景如暴雨中的马蹄声、金属碰撞的回响等细节处理上表现卓越。

作为首个获ICLR 2026录用的视频生成音频框架，PrismAudio的发布标志着AI音效生成技术迈入新阶段。该技术可广泛应用于影视后期制作、游戏开发、虚拟现实等领域，大幅降低专业音效制作的时间成本和人力投入。

通义实验室表示，PrismAudio的代码将在近期开源，为开发者社区提供高质量的音效生成工具。随着技术的普及，影视制作团队将能更专注于创意表达，而无需在基础音效制作上耗费过多精力。

业内专家认为，PrismAudio的推出将推动视频内容创作进入"声画一体"的新时代，为AIGC在音视频领域的深度融合开辟新路径。随着更多应用场景的探索，这项技术有望成为数字内容创作的标准工具之一。