昨天的 OpenAI 开发者大会,正式推出了“图生文”的 GPT-4 Vision 模型。
我有点好奇,找了一张中文图片,让 GPT-4 跟 @JinaAI_ 的 SceneXplain(图一)比较一下,看看谁的文字描述比较准。https://t.co/QebQTEnOLj
GPT-4 的结果(图二)不算很理想,似乎中文处理不太行,把“佳节”看成了“家乐福” ,还编造了一段。相比之下,SceneXplain 的中文理解(图三)就好很多。
我以前就在用 SceneXplain,这里推一下。它经过中文强化,更适合中文用户,可以生成图像描述、视频摘要、故事脚本等(图四),可用于电商图片生成文案、社交媒体的图片分析、无障碍读屏等场合。
它对开发者也很友好,提供 API 调用,结果以 JSON 格式输出,方便加工后放入自己的项目。
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图