Stability AI 展示了一种新型的文本到语音(TTS)模型
它不需要提前录制人声样本作为参考,只需用文字描述想要的声音特征,比如“一个英国口音的女声,语速较快”,模型就能生成相应的声音。
它还能根据文本描述来调整语音的性别、口音、语速和音调等多个特征。
不仅模仿还能根据描述合成新的声音...
主要功能特点:
1、高保真语音生成:该模型能够仅根据文字描述在广泛的口音、韵律风格、通道条件和声学条件下生成高保真度的语音,提供丰富多样的听觉体验。
2、自然语言控制:通过自然语言提示来直观地控制说话者的身份和风格,无需参考语音录音,简化了语音生成过程,使其更加灵活和易于使用。
它能够接受关于说话者身份(比如性别、口音)、说话风格(快速、慢速、高音、低音等)、录音条件(好像在一个安静的房间里或有背景噪音的环境中)等方面的文字描述,并根据这些描述生成相应的语音。
3、可扩展的标记方法:研究提出了一种新的、可扩展的方法来标记说话者身份、风格和录音条件,允许在大型数据集上训练模型,从而提高了模型的适用性和灵活性。
4、音频质量的显著提升:通过提出的方法显著提高音频保真度,即便完全依赖现有数据,也能超越最近的工作,提高了语音的清晰度和真实感。
5、属性细粒度控制:模型支持对多种语音属性的细粒度控制,包括性别、说话者音调、音调调制、说话速率、通道条件和口音,为用户提供定制化的语音输出选项。
6、创造新的声音:不仅仅模仿已知的声音,还能创造出全新的、只通过文字描述就能设定的声音风格和特征。
工作原理:
1、数据集标记:他们开创了一种技术进步,使得模型可以自动学习和理解怎样根据文字的描述来生成人的语音。
他们使用了一个非常庞大的数据集——包含了45,000小时的语音记录——来训练他们的人工智能模型。模型通过学习这些语音数据,能够理解并模仿人类语音的不同特征,比如改变语音听起来的性别(男声或女声)、口音(比如英国口音或美国口音)、说话的速度(快或慢),以及音调的高低。
重要的是,尽管这个巨大的语音数据集中只有一小部分是高质量的录音,研究者们的技术仍然能够利用这些高质量的样本来提高整个模型生成语音的自然度和真实感。这意味着,基于这个模型,即使是用非常有限的高质量语音数据,也能生成听起来非常自然和真实的人声,这在技术上是一个显著的进步。
2、语音生成模型训练:使用标记好的大规模数据集,研究者训练了一个深度学习模型,这个模型学会了如何基于输入的自然语言描述生成语音。模型训练涉及学习不同的声音属性之间的关系,以及如何根据描述中的要求调整这些属性。
项目及演示:https://t.co/1xNqHl2CoV
论文:https://t.co/Hhie5wxmjD