马斯克X AI发布Grok-1.5 Vision 多模态模型
Grok-1.5V能够处理文本以及各种视觉信息,包括文档、图表、截图和照片。
基准测试中,Grok-1.5V 的能力和GPT 4V不相上下,多项指标甚至超过GPT 4V!
在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型!
应该是使用了特斯拉的摄像头数据进行了训练!
RealWorldQA基准:这是一个新的基准测试,旨在评估多模态模型在理解真实世界物理空间方面的能力,包含超过700个问题和答案,主要采用来自车辆前摄像头等实际环境中的图像。
•能力:Grok-1.5V 在多个领域与现有前沿多模态模型竞争,特别是在多学科推理和理解文档、科学图表等方面表现出色。
•基准测试:在不使用思维链提示的情况下,通过对比其他模型,Grok-1.5V 在多个数据集上的表现令人瞩目,尤其是在新的RealWorldQA基准测试中,这一测试评估了模型对现实世界空间的理解能力。
应用代码示例:展示了如何将流程图转化为Python代码,执行一个简单的猜数字游戏。
详细: https://t.co/7G7ulonT5A
点击图片查看原图