site stats
【AI变鉴片大师,多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入,只通过一个非常简单的办法就达成了如上能力,那就是:单帧画面压缩到只用2个token编码。
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多