VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容
也就是识别唇语!
VSP-LLM能将视频中的唇动转化为文本(视觉语音识别),以及将这些唇动直接翻译成目标语言的文本(视觉语音翻译)。
这意味着它不仅能识别视频中的口型和动作对应的语音内容,还能将这些视觉信息翻译成其他语言。
同时它能智能识别和去除视频中不必要的重复信息,使处理过程更快更准。
基于AV-HuBERT的开发:VSP-LLM是在AV-HuBERT模型代码的基础上开发的。
AV-HuBERT是Facebook开发的一个自监督的视觉语音模型,能够从视频中学习语音表示,尤其是从人的唇动中识别语音信息。这意味着VSP-LLM利用了AV-HuBERT在视觉语音识别方面的先进技术,作为其视觉语音处理组件的基础。
AV-HuBERT GitHub:https://t.co/wT1iYza3Ar
工作原理:
VSP-LLM结合了视觉语音处理和大语言模型(LLMs)的新型框架。这个框架的目的是利用LLMs的强大上下文理解能力,来提高视觉语音识别和翻译的准确性和效率。
1. 视觉语音模型的自监督学习:
视频处理:首先,输入的视频数据经过预处理,重点提取人物的唇动作,这些视觉信息包含了说话的内容。
自监督学习:使用自监督学习的方式,VSP-LLM训练一个视觉语音模型来理解和识别这些唇动作。自监督学习意味着模型能够在没有明确标注的数据的情况下,通过自我生成的反馈来学习和提取有用的信息。
2. 去除输入帧中的冗余信息:
视觉语音单元:为了提高处理效率,VSP-LLM设计了一种去重方法,通过识别视觉语音单元(即视频中的关键视觉特征),减少输入帧中的冗余信息。这意味着相似或重复的视觉信息会被合并,减少了模型需要处理的数据量。
3. 利用大语言模型(LLMs)进行上下文建模:
视觉到文本的映射:通过自监督视觉语音模型提取的信息被映射到LLM的输入空间中。这一步骤使得视觉信息能够以一种适合语言模型处理的方式被表示出来。
上下文理解:LLMs的强大之处在于其上下文建模能力。VSP-LLM利用这一能力,不仅能够识别视觉信息对应的文本内容,还能根据上下文信息理解和翻译这些内容。
4. 多任务执行:
视觉语音识别和翻译:VSP-LLM能够根据指令执行多种任务,包括将视频中的唇动作识别为具体的文本(视觉语音识别),或者将这些唇动作直接翻译成目标语言的文本(视觉语音翻译)。
5. 低秩适配器(LoRA):
计算效率:为了进一步提升训练的计算效率,VSP-LLM采用了低秩适配器(LoRA),这是一种优化训练过程,减少计算资源需求的技术。
GitHub:https://t.co/p1EWQAxoFB
论文:https://t.co/YKXsOMhiUZ