Stability AI 展示了一种新型的文本到语音（TTS）模型它不需要提前录制人声样本作为参考，只需用文字描述想要的声音特征，比如“一个英国口音的女声，语速较快”，模型就能生成相应的声音。它还能根据文本描述来调整语音的性别、口音、语速和音调等多个特征。不仅模仿还能根据描述合成新的声音...…

发布时间: 2024-02-07 11:40:15

2分

数据加载中

Stability AI 展示了一种新型的文本到语音（TTS）模型
它不需要提前录制人声样本作为参考，只需用文字描述想要的声音特征，比如“一个英国口音的女声，语速较快”，模型就能生成相应的声音。
它还能根据文本描述来调整语音的性别、口音、语速和音调等多个特征。
不仅模仿还能根据描述合成新的声音...…
IT技术
( twitter.com )

Stability AI 展示了一种新型的文本到语音（TTS）模型

它不需要提前录制人声样本作为参考，只需用文字描述想要的声音特征，比如“一个英国口音的女声，语速较快”，模型就能生成相应的声音。

它还能根据文本描述来调整语音的性别、口音、语速和音调等多个特征。

不仅模仿还能根据描述合成新的声音...

主要功能特点：

1、高保真语音生成：该模型能够仅根据文字描述在广泛的口音、韵律风格、通道条件和声学条件下生成高保真度的语音，提供丰富多样的听觉体验。

2、自然语言控制：通过自然语言提示来直观地控制说话者的身份和风格，无需参考语音录音，简化了语音生成过程，使其更加灵活和易于使用。

它能够接受关于说话者身份（比如性别、口音）、说话风格（快速、慢速、高音、低音等）、录音条件（好像在一个安静的房间里或有背景噪音的环境中）等方面的文字描述，并根据这些描述生成相应的语音。

3、可扩展的标记方法：研究提出了一种新的、可扩展的方法来标记说话者身份、风格和录音条件，允许在大型数据集上训练模型，从而提高了模型的适用性和灵活性。

4、音频质量的显著提升：通过提出的方法显著提高音频保真度，即便完全依赖现有数据，也能超越最近的工作，提高了语音的清晰度和真实感。

5、属性细粒度控制：模型支持对多种语音属性的细粒度控制，包括性别、说话者音调、音调调制、说话速率、通道条件和口音，为用户提供定制化的语音输出选项。

6、创造新的声音：不仅仅模仿已知的声音，还能创造出全新的、只通过文字描述就能设定的声音风格和特征。

工作原理：

1、数据集标记：他们开创了一种技术进步，使得模型可以自动学习和理解怎样根据文字的描述来生成人的语音。

他们使用了一个非常庞大的数据集——包含了45,000小时的语音记录——来训练他们的人工智能模型。模型通过学习这些语音数据，能够理解并模仿人类语音的不同特征，比如改变语音听起来的性别（男声或女声）、口音（比如英国口音或美国口音）、说话的速度（快或慢），以及音调的高低。

重要的是，尽管这个巨大的语音数据集中只有一小部分是高质量的录音，研究者们的技术仍然能够利用这些高质量的样本来提高整个模型生成语音的自然度和真实感。这意味着，基于这个模型，即使是用非常有限的高质量语音数据，也能生成听起来非常自然和真实的人声，这在技术上是一个显著的进步。

2、语音生成模型训练：使用标记好的大规模数据集，研究者训练了一个深度学习模型，这个模型学会了如何基于输入的自然语言描述生成语音。模型训练涉及学习不同的声音属性之间的关系，以及如何根据描述中的要求调整这些属性。

项目及演示：https://t.co/1xNqHl2CoV
论文：https://t.co/Hhie5wxmjD

Markdown支持

评论加载中...

您可能感兴趣的：更多

又有大事情发生了！这是Meta AI新发布的Segment Anything 模型，并且开源了！这一年 AI的世界发展的速度真是让人震惊，演示视频如下：
时政
( github.com)

1年前 • Jixian Wang • -- 点击 • 下载视频 0 评论

00:00:12

Replit AI 发展报告：AI 项目增长 340 倍

Replit 在上周发布了一个 AI 发展现状报告，通过 Replit 上开发者的动态数据，展示了目前 AI 发展的一些有意思的信息。

在这个报告中，AI 相关的项目增长了 340 倍，其中利用 OpenAI 模型开发的占据了主导地位，但开源模型同样开始崛起。

Replit…
IT技术
( twitter.com)

9个月前 • GPTDAOCN • -- 点击 0 评论

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satble diffusion效率要高很多。
我尝试了一下，看起…
推特中文圈
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

OpenAI公布了超级对齐项目一项最新研究成果，探索了一种新方法：
如何使用能力较弱的 AI 模型来指导和控制更强大的 AI 模型。
这项研究的目的是为了解决一个问题：未来，当 AI 变得比人类更聪明时，人类如何能够有效地控制这些 AI。
研究结果显示：即使是相对较弱的 AI…
IT技术
( twitter.com)

4个月前 • 小互 • -- 点击 0 评论

I’ve resigned from my role leading the Audio team at Stability AI, because I don’t agree with the company’s opinion that training generative AI models on copyrighted works is ‘fair use’.
First off, I want to say that there are lots of people at Stability who are deeply…
时政
( twitter.com)

5个月前 • Ed Newton-Rex • -- 点击 0 评论

AIGC Weekly #27更新了，这周也有点热闹，新东西挺多，本期主要内容有：

• Figma Config 大会发布了自己的 AI 设计功能
• Stability AI 发布了 SDXL 0.9，图片素质大幅提升
• M…
IT技术
( twitter.com)

10个月前 • 歸藏 • -- 点击 0 评论

Stable Diffusion最新的模型 Stable Diffusion XL正式开放使用了。我也对其做了详细的测试。

这次没有在Stability AI自己的平台上而是在他们收购的clipdrop平台上，可能也觉得自己没有…
推特中文圈
( twitter.com)

1年前 • 歸藏 • -- 点击 0 评论

Stability AI 旗下Clipdrop 推出 Uncrop：终极纵横比编辑器，可以实现和新版PS类似的扩图功能。

IT技术
( twitter.com)

10个月前 • sundyme • -- 点击 • 下载视频 0 评论

00:00:30

Stability AI正式发布了他们从文字生成动画的工具Stable Animation，感觉效果和能力类似于Gen-1，主要包括下面三种能力。

文本到动画：用户输入文本提示（与 Stable Diffusion 一样）并调整…
IT技术
( twitter.com)

11个月前 • 歸藏 • -- 点击 0 评论

IT技术

又有大事情发生了！ 这是Meta AI新发布的Segment Anything 模型，并且开源了！这一年 AI的世界发展的速度真是让人震惊，演示视频如下： 时政 ( github.com)

时政

IT技术

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。 这个模型的效率要比原有的satble diffusion效率要高很多。 我尝试了一下，看起… 推特中文圈 ( twitter.com)

推特中文圈

IT技术

时政

AIGC Weekly #27更新了，这周也有点热闹，新东西挺多，本期主要内容有： • Figma Config 大会发布了自己的 AI 设计功能 • Stability AI 发布了 SDXL 0.9，图片素质大幅提升 • M… IT技术 ( twitter.com)

IT技术

Stable Diffusion最新的模型 Stable Diffusion XL正式开放使用了。我也对其做了详细的测试。 这次没有在Stability AI自己的平台上而是在他们收购的clipdrop平台上，可能也觉得自己没有… 推特中文圈 ( twitter.com)

推特中文圈

Stability AI 旗下Clipdrop 推出 Uncrop：终极纵横比编辑器，可以实现和新版PS类似的扩图功能。 IT技术 ( twitter.com)

IT技术

Stability AI正式发布了他们从文字生成动画的工具Stable Animation，感觉效果和能力类似于Gen-1，主要包括下面三种能力。 文本到动画：用户输入文本提示（与 Stable Diffusion 一样）并调整… IT技术 ( twitter.com)

IT技术

创建一个新帐户

登录

又有大事情发生了！这是Meta AI新发布的Segment Anything 模型，并且开源了！这一年 AI的世界发展的速度真是让人震惊，演示视频如下：
时政
( github.com)

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satble diffusion效率要高很多。
我尝试了一下，看起…
推特中文圈
( twitter.com)

AIGC Weekly #27更新了，这周也有点热闹，新东西挺多，本期主要内容有：

• Figma Config 大会发布了自己的 AI 设计功能
• Stability AI 发布了 SDXL 0.9，图片素质大幅提升
• M…
IT技术
( twitter.com)

Stable Diffusion最新的模型 Stable Diffusion XL正式开放使用了。我也对其做了详细的测试。

这次没有在Stability AI自己的平台上而是在他们收购的clipdrop平台上，可能也觉得自己没有…
推特中文圈
( twitter.com)

Stability AI 旗下Clipdrop 推出 Uncrop：终极纵横比编辑器，可以实现和新版PS类似的扩图功能。

IT技术
( twitter.com)

Stability AI正式发布了他们从文字生成动画的工具Stable Animation，感觉效果和能力类似于Gen-1，主要包括下面三种能力。

文本到动画：用户输入文本提示（与 Stable Diffusion 一样）并调整…
IT技术
( twitter.com)