# AI 开源模型分享最强语音识别和说话人分离模型Reverb 推出最强开源语音识别 (ASR) 和说话人分离 (Diarization) 模型, 评测结果击败 OpenAI 推出的 Whisper large-v3！# Reverb ASR 模型- 使用 20 万小时的人工转录数据训练- 达到了最新的词错误率 (WER) 水平- 支持可定制的逐字转录#

发布时间: 2024-10-04 10:50:13

1分

数据加载中

关注推特

收听电报

2

1

0

# AI 开源模型分享
最强语音识别和说话人分离模型
Reverb 推出最强开源语音识别 (ASR) 和说话人分离 (Diarization) 模型, 评测结果击败 OpenAI 推出的 Whisper large-v3！
# Reverb ASR 模型
- 使用 20 万小时的人工转录数据训练
- 达到了最新的词错误率 (WER) 水平
- 支持可定制的逐字转录
#
时政
( twitter.com )

1年前由 meng shao 提交

# AI 开源模型分享
最强语音识别和说话人分离模型

Reverb @rev 推出最强开源语音识别 (ASR) 和说话人分离 (Diarization) 模型, 评测结果击败 OpenAI 推出的 Whisper large-v3！

# Reverb ASR 模型
- 使用 20 万小时的人工转录数据训练
- 达到了最新的词错误率 (WER) 水平
- 支持可定制的逐字转录

# 模型架构
- 采用 CTC/attention 架构
- 包含 18层 conformer 和 6 层 transformer
- 约 6 亿参数
- 具有控制逐字输出的特定语言层

# 推理能力
- 支持多种解码模式: CTC、attention 和联合 CTC/attention 解码
- 生产环境就绪, 包括 WFST 束搜索、单字语言模型和 attention 重新评分
- 使用并行处理和后处理以提高效率

# Diarization 模型
- 基于 pyannote 框架, 使用 2.6 万小时标注数据进行微调
- v1 版本基于 pyannote3.0 架构, 有 2 个 LSTM 层, 220 万参数
- v2 版本是更先进的版本, 用 WavLM 替代了 SincNet 特征, 提供更精确的说话人分离

# 开源模型地址
https://t.co/AM7W8fh7FY
# 在线体验地址
https://t.co/g3Sgfil2Vy

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

3

2

2

西北工业大学开源了一个语音理解模型：OSUM，支持8种语音理解任务，从ASR到情感识别，以及语音到文本的深度理解
支持语音识别(ASR)
带时间戳的语音识别(SRWT)
声音事件检测(VED)
语音情感识别(SER)
说话风格识别(SSR)
说话者性别分类(SGC)
说话者年龄预测(SAP)
语音到文本对话(STTC)
时政
( twitter.com)

8个月前 • AIGCLINK • -- 点击 • 下载视频 0 评论

00:01:17

2

2

1

1

李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM
没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”
时政
( twitter.com)

3个月前 • Gantrol • -- 点击 0 评论

3

2

1

1

Swift
超快速 AI 语音助手 ⚡️🤖
技术方案组成 🧩
- ASR: Groq OpenAI Whisper 用于语音识别转录
- LLM: Groq Meta Llama 3 用于语言生成模型
- TTS: Cartesia Sonic 语音模型用于快速流式语音合成
- VAD: 语音活动检测，用于检测用户何时在说话
- Dev: TypeScript + Next.js,
时政
( twitter.com)

1年前 • meng shao • -- 点击 0 评论

4

1

0

0

🔞 十八禁！
ElevenLabs 语音AI模型在中国的最新应用。
时政
( twitter.com)

3个月前 • Inty News • -- 点击 • 下载视频 0 评论

00:00:23

5

2

1

1

#AI开源项目推荐# GPT-SoVITS-WebUI
强大的少样本语音转换与语音合成Web用户界面。
功能：
1. 零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。
2. 少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
3. 跨语言支持：…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:17:30

6

2

1

1

这个开源翻译项目今天在 Github 冲得太快了。它支持三种翻译模式：一问一答、对讲机模式、文本模式。需下载1.24GB翻译和语音识别模型，完全开源、免费和离线使用。目前只有 Android 端，有需要的朋友可以试试。
IT技术
( github.com)

1年前 • Geek • -- 点击 0 评论

7

3

2

2

最新阿里发布的 QWen2-VL-7B 的视觉语言模型有点强⚡️
OCR 能力达到同级开源模型 SOTA 效果！英文基础测试手写字识别准确度 “100%”🤯🤯 而且中文支持还不错！🔥
在线体验 👉
时政
( huggingface.co)

1年前 • Tom Huang • -- 点击 0 评论

8

2

1

1

【跨语种“AI同传”震撼登场，Meta谷歌连发重大突破，颠覆语音翻译】Meta谷歌接连放出重磅成果！Meta开源无缝交流语音翻译模型，谷歌放出无监督语音翻译重大突破Translation 3。
大陆资讯
( 36kr.com)

1年前 • 你妹的溢达 • -- 点击 0 评论

9

2

1

1

#AI开源项目推荐 subtitler
不需要上传视频到服务器，直接在浏览器端就可以语音转录成文本字幕，以及对转录的字幕编辑，生成带字幕视频的开源网站。语音转字幕利用的是 WebGPU，在浏览器端执行 Transformer + Whisper 模型（目前只能支持 tiny 和 base 模型）。视频生成是基于一个库叫
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

0.17302 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特