site stats
这个工作量应该不小的。这个里面大概经过了语音识别,这个应该是Whisper。然后是做了一部分都voice clone,提取语音的音色等参数,然后再把数据给 tortoise-tts 合成带原始说话人音色的语音。然后还要做一部分的 lipsync。这个估计是拿wav2lip做的。…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多