EzAudio - 腾讯联合约翰霍普金斯大学推出的文本到音频生成模型

2025-04-10 12:02:26

8人浏览

EzAudio是什么

EzAudio是由约翰霍普金斯大学和腾讯AI实验室共同推出的一款文本到音频（Text-to-Audio, T2A）生成模型。基于一种高效的扩散变换器技术，用在从文本提示生成高质量的音频效果。EzAudio的创新之处在于优化的模型架构和数据高效训练策略，在生成速度、效率和音频真实感方面都达到新标准。EzAudio引入无分类器引导重缩放技术，简化模型使用保持音频质量。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

上一篇：PearAI - 开源的AI代码编辑器，基于VSCode开发直接与代码库对话

下一篇：FLUX-Controlnet-Inpainting - 阿里妈妈推出的开源AI图像修复工具