site stats
LLaVA-Mini是一个高效的图像/视频理解大模型,仅需1个视觉token来表示每张图像:计算开销(FLOPs减少77%)、响应时延(低至40毫秒)以及显存占用(降至 0.6MB/图像,支持24GB GPU上进行长达 3 小时的视频处理)。Paper:Code & Demo:
发布时间:
2
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多