site stats
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解支持语音识别(ASR)带时间戳的语音识别(SRWT)声音事件检测(VED)语音情感识别(SER)说话风格识别(SSR)说话者性别分类(SGC)说话者年龄预测(SAP)语音到文本对话(STTC)
发布时间:
2
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多