site stats
先用demucs分离出用纯人声(特别嘈杂的就用lalal的付费api),然后用pydub或者ffmpeg根据音量切割人声轨,每当停顿达到1.5s(这个间隔根据视频特点自己调整间隔)就切出一段,将每段编号命名和对应起始位置的精确毫秒数都记录在excel里,用whisper读表挨个识别,每个编号片段的时间轴在记录时都加上exc…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多