今天OpenAI放出的ChatGPT 4的多模态语音和图像更新的模型其实叫GPT-4V(ision)。
OpenAI放出了19页的GPT-4V(ision)报告来解释这个模型,释放了大量信息:
GPT-4V(ision)的训练完成于2022年,2023年3月开始提供早期访问。
GPT-4V 的训练过程与 GPT-4 相同,首先使用大量的文本和图像数据进行预训练,然后使用人类反馈的强化学习进行微调。
基于视觉的模型 GPT-4V(ision) 是受到了OpenAI与 "Be My Eyes" 的合作的启发。这是一个新工具,用于为盲人或视力受损的人描述视觉世界。
Be My AI 被整合到现有的 Be My Eyes 平台中,为盲人用户的智能手机拍摄的照片提供描述。
该测试确定 Be My AI 可以为其 500,000 名盲人和低视力用户提供前所未有的工具,以满足信息、文化和就业需求。
这种合作帮助 OpenAI 优化 GPT-4V 的功能,使其能够更好地理解和描述图像内容,特别是在涉及背景中的人或其他复杂情境时。这样,用户可以获得更准确、更有深度的图像描述,帮助他们更好地理解图像中的内容。
OpenAI还研究了模型的基于地理位置的能力,以及模型破解 CAPTCHA 的能力。
GPT-4V(ision) 在地理位置识别方面的能力意味着模型可以识别和描述图像中的地理位置,例如识别特定的地标、建筑物或地理特征。这可以帮助用户更好地了解图像的内容和上下文。
模型还具有破解 CAPTCHA 的能力,CAPTCHA 是一种常用的在线安全验证方法,通常要求用户识别扭曲的文字或图像。
GPT-4V(ision) 可能具有识别这些扭曲文字或图像的能力,从而有可能破解某些 CAPTCHA 验证。但这也引发了关于模型可能被用于不正当用途的担忧。
详细报告:https://t.co/UoJPeakT77
点击图片查看原图