热点:

    英伟达与MIT联合开发音频生成新技术

      [  中关村在线 原创  ]   作者:清风与鹿

    英伟达与MIT联合开发音频生成新技术

    近日,一项由英伟达与麻省理工学院联合开发的新技术引发关注。该技术名为 Audio-SDS,是一种基于文本条件的音频扩散模型扩展方法,首次将 Score Distillation Sampling(SDS)应用于音频生成领域。

    近年来,音频扩散模型在生成高质量音频方面展现了强大的能力,但其在优化具有明确语义和可解释性的参数方面仍存在局限。新提出的 Audio-SDS 方法,通过融合预训练模型的强大生成能力与参数化音频表示手段,突破了这一限制。

    该方法无需依赖大规模特定任务的数据集,即可灵活运用于多种音频处理任务,包括 FM 合成器参数校准、物理冲击音效合成以及音源分离等关键场景。借助 SDS 方法,用户能够根据高级文本提示,直接调整 FM 合成参数、冲击音模拟器设置或分离掩码,实现更加直观和高效的音频编辑。

    研究团队采用了基于解码器的 SDS 架构、多步去噪机制及多尺度频谱图分析等技术进行实验验证。结果显示,Audio-SDS 在主观听感测试及多项客观评价指标(如 CLAP 分数和信号失真比 SDR)上均表现出色。

    Audio-SDS 的一大优势在于,它通过一个统一的预训练模型支持多种音频任务,避免了对大量任务专属数据集的依赖,为音频生成与编辑提供了一种更具通用性的解决方案。尽管如此,研究者也指出,该方法在模型覆盖范围、潜在编码伪影以及优化稳定性等方面,仍有改进空间。

    这项技术的提出,为音频生成领域带来了新的思路,也为未来更高效、更灵活的音频内容创作提供了可能。

    本文属于原创文章,如若转载,请注明来源:英伟达与MIT联合开发音频生成新技术https://news.zol.com.cn/982/9825658.html

    news.zol.com.cn true https://news.zol.com.cn/982/9825658.html report 1170 近日,一项由英伟达与麻省理工学院联合开发的新技术引发关注。该技术名为 Audio-SDS,是一种基于文本条件的音频扩散模型扩展方法,首次将 Score Distillation Sampling(SDS)应用于音频生成领域。近年来,音频扩散模型在生成高质量音频方面展现了强大的能力,但其在优化...
    提示:支持键盘“← →”键翻页阅读全文
    本文导航
    • 第1页:Audio-SDS创新音频生成
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错