Jim Fan分享了他了解的GPT-4V也就是即将发布的多模态GPT-4版本的信息。
➡依然是一个经过互联网的图像和文本训练的文本模型,经过了RLHF。
➡现在的GPT-4V版本比3月份的主要强在OCR能力的提升上。
➡这个版本早在22年底就已经训练完成,这十个月的时间都是在让他变得更安全。
➡多模态模型也是可以越狱的,比如上传带有“DAN”提示的图片和一些神秘符号图片。
➡一些严肃内容上GPT-4V还是会产生幻觉,主要是原文OCR不准确造成的。
➡语音识别和TTS都是很成熟的技术没什么好说的。
现在这个模型是十个月前训练好的,这个领先真的太离谱了。我们不知道Open AI还有多少东西。要不是由Meta天天发福利接济,不知道国内还要差多远。