#AI开源项目推荐:Vary
一套视觉感知上限极高的通用多模态框架:Vary
有多模态能力,并且可以做 OCR 和公式识别。
底层是基于LLaVA 和 Qwen(通义千问)
测试了一下,中英文 OCR 识别准确率相当高,公式识别也很不错,测试了一篇文章里的公式,只有一个地方把 g 认成了 σ ,其他都对了。
在线演示:https://t.co/8tmFqr6lku
项目地址:https://t.co/ys8QzTNY9X
论文:https://t.co/PEHIrOqz0E
知乎上的介绍:https://t.co/D7sE5X0pde
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图