Google在处理长视频方面取得重要进展。DeepMind开发了一种新型的人工智能模型，名为Mirasol3B，专门用于理解和分析长视频中的音频、视频和文本信息。 Mirasol3B模型的独特之处在于，它能够分别处理视频和音频，以及与视频内容相关但不一定同步的文本信息（比如视频标题或描述）。…

Google在处理长视频方面取得重要进展。DeepMind开发了一种新型的人工智能模型，名为Mirasol3B，专门用于理解和分析长视频中的音频、视频和文本信息。

Mirasol3B模型的独特之处在于，它能够分别处理视频和音频，以及与视频内容相关但不一定同步的文本信息（比如视频标题或描述）。

这样模型可以更有效地理解和分析视频中发生的事情，即使视频很长。

Mirasol3B模型不仅能够理解视频画面和声音之间的同步关系，还能够理解这些视听信息与相关文本（如视频描述或字幕）之间的关系。

工作原理：

Mirasol3B模型是一种多模态自回归模型，通过将多模态建模分解为独立的自回归模型，根据不同模态的特征进行处理。

1、多模态处理：多模态指的是模型能够同时处理多种类型的数据，如视频、音频和文本。Mirasol3B模型能够同时理解视觉信息（视频）、听觉信息（音频）和语言信息（文本）。

2、自回归建模：自回归模型是一种用于时间序列数据的模型，它预测未来的值基于过去的值。在Mirasol3B中，这种方法被用于理解视频和音频数据中的时间序列，即模型学习如何基于前一时刻的数据来预测下一时刻的数据。

3、时间对齐和上下文模态：Mirasol3B处理两种类型的模态：时间对齐的模态（如视频和音频，它们通常是同步的）和时间不对齐的模态（如文本）。Mirasol3B模型不仅能够理解视频画面和声音之间的同步关系，还能够理解这些视听信息与相关文本（如视频描述或字幕）之间的关系。

4、处理长视频：与其他多模态模型相比，Mirasol3B能够处理更长的视频序列。这是通过优化模型结构和参数来实现的，使其能够有效地处理长时间的视频数据，而不会因为数据量过大而导致性能下降。

5、模态组合器：为了有效地结合不同模态的信息，Mirasol3B使用了一种称为“组合器”的特殊模块。这个模块的作用是将视频和音频的信息结合起来，生成一个统一的表示，这样模型就可以同时考虑视觉和听觉信息。

举例解释：

想象一下，你正在看一个烹饪教程的视频。这个视频不仅有画面（视频），还有厨师的讲解（音频），可能还有文字说明（文本）。Mirasol3B的任务就是要同时理解这三种不同类型的信息。

1.处理不同类型的信息：Mirasol3B能够同时处理视频中的画面、声音和文字。这意味着它可以看到厨师在做什么，听到他们的讲解，同时理解任何文字说明。

2.时间对齐：在视频和音频中，时间对齐非常重要。例如，当厨师说“现在加入盐”时，视频中应该显示他们正在加盐。Mirasol3B能够确保这些信息是同步的。

3.理解长视频：与其他模型相比，Mirasol3B能够处理更长的视频。这意味着即使是一个小时长的烹饪教程，它也能够理解整个过程。

4.组合器机制：Mirasol3B使用一种特殊的技术，名为“组合器”，来处理视频和音频信息。这就像是将视频和音频的信息混合在一起，以便模型可以同时考虑视觉和听觉信息。

总的来说，Mirasol3B是一个高级的AI模型，它可以理解和分析包含多种类型信息的长视频。这种方法使得模型能够处理复杂的多模态信息，提供更准确的视频内容分析和理解。

这对于自动生成视频摘要、改进视频搜索结果或者提供更丰富的视频观看体验等应用非常有用。

详细：https://t.co/mmKM8OC07Z
论文：https://t.co/6VvvI8fnH5