VALL_E_X语音克隆带6款模型-整合版。VALL-E X: 多语言文本到语音合成与语音克隆。此实现支持三种语言(英语、中文、日语)的零尝试、单语 / 跨语言文本到语音功能。
VALL-E X 可以通过仅使用未曾见过的说话者的 3 秒录音作为声学提示,合成高质量的个性化语音,即使是对于一位母语讲者,也可以在另一种语言中执行。此实现支持三种语言(英语、中文、日语)的零尝试、单语 / 跨语言文本到语音功能。
VALL-E X 是一个强大而创新的多语言文本转语音(TTS)模型,最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念,但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。我们很乐意与社区分享我们的预训练模型,让每个人都能体验到次世代TTS的威力。
源码功能
- 多语言 TTS: 可使用三种语言 – 英语、中文和日语 – 进行自然、富有表现力的语音合成。
- 零样本语音克隆: 仅需录制任意说话人的短短的 3~10 秒录音,VALL-E X 就能生成个性化、高质量的语音,完美还原他们的声音。
- 语音情感控制: VALL-E X 可以合成与给定说话人录音相同情感的语音,为音频增添更多表现力。
- 零样本跨语言语音合成: VALL-E X 可以合成与给定说话人母语不同的另一种语言,在不影响口音和流利度的同时,保留该说话人的音色与情感。
- 口音控制: VALL-E X 允许您控制所合成音频的口音,比如说中文带英语口音或反之。
- 声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,VALL-E X 可以保留该声学环境,使合成语音听起来更加自然。
使用教程
- 上传一个持续3到10秒的语音作为音频提示,并键入您想要合成的文本。
- 模型将用您的音频提示相同的声音合成给定文本的语音。
- 该模型还倾向于保留您给定语音的情感和声学环境。