【AI变鉴片大师，多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入，只通过一个非常简单的办法就达成了如上能力，那就是：单帧画面压缩到只用2个token编码。

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

29796 位用户此时在线

关注推特

收听电报

6月14日傍晚，新西兰奥克兰街头中国总理李强的车队经过时，迎接李强到访的队伍和抗议李强到访的队伍发生激烈冲突。

6月13日，湖南常德热市镇岩坪村一干部在接待办事民众时，双脚搭在桌上，一边抽烟一边玩游戏，对民众爱答不理。桌上的工作牌显示，该干部系支部书记张以春。当地政府表示:将批评教育。

恒大歌舞团团长白珊珊挑战全网陀螺舞大雄：单从舞者角度说基本功还是相当不错的。从国内肮脏的环境来讲，那就不好说了她是一名冲锋陷阵的战士，她是一位攻城略地的将军，她是为恒大拿下项目的斗士 …… 你一跳，跳空了六个钱包；你一跳，跳崩了无数楼房。

6月12日BBC报道，台湾LGBT摄影师林家夯5月31日在南京参加书展时被拘，林家夯称，当天下午在摆摊宣传自己的摄影书时，被公安带走，警方不仅检查了他的行李箱，还把他带到附近的公安局，脱光其全身衣物拍照、抽血、检查支付宝交易记录。之后又被要求念了一段诈骗集团的文字录音，并与其他人拘留在一起，

小孩食堂起义失败，看中国社会的一个缩影。

如果你和这个美女第一次约会，她是这样吃牛排🥩的，你会怎么样？🥹🥹

6月13日，湖南农业大学信息与智能科学技术学院召开《翻墙治理专项行动》主题班会宣教资料中显示，"学校将配合网信、国安等部门，抓一批此次宣讲后仍违规翻墙的典型案例。"

网传重庆某商业银行支行一名80后已婚女员工，给60后已婚副行长深情表白视频，我认为是妥妥的性贿赂！

拜登这是怎么了，在如此重大的国际场合。

传世经典，专家是吃屎屙饭的货！

6月13日，海南海口。全国各地的律师齐聚海南高院声援张庆方律师，要向海口高院的领导争取律师辩护权，讨要说法。 5月24日，张庆方律师在海口中院庭上捍卫自己的辩护权时被几名法警强行架走。

澤倫斯基在對義大利參加七國集團峰會期間會見了印度總理莫迪，雙方討論了全球和平高峰會籌備狀況及峰會議題，感謝莫迪總理派高階代表團出席高峰會。

俄羅斯本土別爾哥羅德地區發生爆炸

据说，茅台酒厂的踩曲女工是清一色的处女研究生，只有处女用脚踩出来的，才能特供中南海，据说饮者长寿。这商业噱头够狗血的。

南昌师范学院附中，教师们集体讨薪，校长也无可奈何。连公立省级重点高中都拖欠工资，可以想象，共产党地方财政已经在崩溃的边缘了。

当众被唱生日歌，简直是社恐患者的最大阻碍

308萬买的房子只能能賣110万，如果今天美帝肯下场打中共，只需举旗得了，其它由中国人来做。习近平现在整天自吹到处莺歌燕舞，你猜中国人怎么想？怪不得省委书记近日全部亮出兼任国安委主任了。

恶意卖惨 6月13日，专家钮文新在节目中表示，有一批人对股票市场恶意卖惨，拼命表达自己亏惨了，亏了多少钱，这样的做法实际上也是一种恶意做空。股票市场必须警惕这些人背后的动机。该言论引发股民一致吐槽：股民亏了钱发几句牢骚你们就受不了了？

日本小学生做英文作业。他们采访了一个美国人，先自我介绍，然后用了礼貌用语“May I...” 最后送给美国人一个小礼物。学习，交流，实践，礼仪汇于一体。日本并没有灌输对学生们的仇美交易，培养小战狼，以致长大后变成恶狼，见谁捅谁。相反，日本在科技上经济上社会文明程度上发展，进入发达国家。

“中国是个法制社会”，哈哈哈哈，我发出银铃般的笑声。

山东，临沂，纸面服刑杀人犯。1987年，村霸贺法田开枪杀人，只被判了10年，而且这10年牢也没坐，而是只在看守所待了半年就出来自由活动，气焰也更加嚣张，到处伤人。村民窦勤孝看不过去就不停举报。2023年4月，他把举报人窦勤孝捅死了，警方抓到他时还找到两把枪。之后被判死刑。

张铁林否认加入英国🇬🇧籍后混不下去了，只能回到中国🇨🇳捞钱👎

5月27日，解放军上海警备区战备建设局向上海国有企业发函，要求统计上海市国企的民兵建设数据信息。

视频【（黑肤）道教青年：把张三丰都整不会了】

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

【AI变鉴片大师，多模态大模型挑战超长3小时视频】包括GPT-4V等在内的同类模型基本只能处理图像。贾佳亚团队的LLaMA-VID支持单图、短视频和长视频三种输入，只通过一个非常简单的办法就达成了如上能力，那就是：单帧画面压缩到只用2个token编码。
大陆资讯
( www.qbitai.com )

6个月前由捂裆大湿兄提交

闪电预览

1周内 1个月内 1年内全部时间

推荐阅读：《多模态和多模态大模型 (LMM)[译]》
这是一篇相当详尽的讲述多模态和多模态大模型的文章！内容分为三部分。
* 第 1 部分围绕多模态的概念展开，讲述了使用多模态的原因、不同类型的数据模态以及多模态任务的种类。
* 第 2 部分深入探讨了多模态系统的核心原理，以 CLIP 和 Flamingo…
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 0 评论

可以拿这图去测试各大模型的多模态能力😄
IT技术
( twitter.com)

7个月前 • 宝玉 • -- 点击 0 评论

一篇有意思的论文：《战争与和平 (WarAgent): 基于大语言模型的多智能体世界大战模拟》
论文展示了如何利用大语言模型 (LLM) 模拟复杂的人类行为
大语言模型在模拟人类冲突和细腻行为方面展现出了令人着迷的应用潜力，特别是通过多智能体 AI 系统实现。
我们可以通过对 LLM…
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

Google终于发布了传言中的强大多模态LLM Gemini，他们说这是迄今为止最强大的AI模型。从描述来看确实非常强大。
Google CEO的介绍视频也翻译好了，下面模型是具体的介绍：
◆Gemini 是多模态的，意味着它可以理解、操作和结合不同类型的信息，包括文本、代码、音频、图像和视频。…
IT技术
( twitter.com)

6个月前 • 歸藏 • -- 点击 • 下载视频 0 评论

00:04:34

Runaway 发布的：探索通用世界模型
我们相信，人工智能（AI）的下一次重大飞跃将源自于能够理解视觉世界及其变化的系统。正因如此，我们启动了一项长期的研究项目，专注于开发我们所称的“通用世界模型”。
什么是通用世界模型（GWM）呢？
通用世界模型是一种 AI…
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

#AI开源项目推荐#：Video-LLaVA
北京大学的多模态图像视频识别
论文摘要：…
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:02:06

OpenAI公布了超级对齐项目一项最新研究成果，探索了一种新方法：
如何使用能力较弱的 AI 模型来指导和控制更强大的 AI 模型。
这项研究的目的是为了解决一个问题：未来，当 AI 变得比人类更聪明时，人类如何能够有效地控制这些 AI。
研究结果显示：即使是相对较弱的 AI…
IT技术
( twitter.com)

6个月前 • 小互 • -- 点击 0 评论

微软官方出的 Windows AI Studio，如果你需要：
- 本地测试Phi-2 小模型
- 测试 RAG
- 微调模型
- 针对 Windows 优化模型
并且你是Windows 系统 + NVIDIA 的显卡，可以试试用它。
官方说明：
Windows AI Studio 通过集成 Azure AI Studio Catalog 和其他类似 Hugging Face 的AI 模型目录中的最新 AI…
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

苹果发布了一个多模态大模型，但是很多人似乎没有注意？？？
苹果12月14日释放了一个名为Ferret的多模态大语言模型，该模型不仅可以准确识别图像并描述其内容。
同时它还能够识别和定位图像中的各种元素，无论你用怎样的方式描述图像内容，Ferret都能准确地在图像中找到并识别出来。
Ferret拥有…
IT技术
( twitter.com)

5个月前 • 小互 • -- 点击 0 评论

彭博社来打脸了：谷歌的 Gemini AI 模型表现出色，但与 OpenAI 相比仍有差距
这家科技巨头最新推出的 AI 模型，与 OpenAI 八个月前推出的产品相比，进步有限。
一般而言，感恩节和圣诞节之间推出新技术的机会并不多，但对于 Alphabet Inc. 旗下的谷歌来说，这是充满挑战的时刻。…
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

AI 芯片在 2023 年第四季度取得了重大进展。以下是Prateek Joshi列出的引起他注意的 9 项进展：
1.英特尔全新AI芯片：Gaudi3将挑战Nvidia和AMD。此举预示着AI芯片技术竞争的白热化。
2、微软进军AI芯片：微软推出首款AI芯片Maia 100。这标志着AI芯片市场多元化迈出重要一步。
3. Nvidia…
IT技术
( twitter.com)

5个月前 • Will • -- 点击 0 评论

推荐教程：构建你自己的 AI 辅助编码助手
介绍如何 DIY 一个端到端（从 IDE 插件、模型选型、数据集构建到模型微调）的 AI 辅助编程工具，类似于 GitHub Copilot、JetBrains AI Assistant、AutoDev 等。
IT技术
( github.com)

5个月前 • 宝玉 • -- 点击 0 评论

有人尝试了借助开源大语言模型，无需联网在本机实现和游戏 NPC 自由对话，技术栈：
- Mistral7b，开源大语言模型
- StyleTTS2 文字转语音
- llama.cpp 用来运行大语言模型的库
生成一句新对话的时间大约为 2-3…
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:02:16

AI iPhone前奏？苹果发表论文，提出“在手机内存上运行LLM（大语言模型）的方法”
大陆资讯
( wallstreetcn.com)

5个月前 • 拉拉么 • -- 点击 0 评论

闪电预览

重大利好，ollama支持多模态了（视觉模型），今天刚更新：
1. llava
2. bakllava
公司电脑是Windows，我只能回家试了。
可以做很多有意思的事情，例如用视觉模型控制浏览器那个项目，是不是就可以省钱了：）
时政
( twitter.com)

6个月前 • linear uncle • -- 点击 0 评论

Meshy-1：一个生成高质量3D模型的AI工具
支持：
1.文本到3D：输入文本提示，输出3D模型。
2.图像到3D：输入正面视图图像，输出3D模型。
3.文本到纹理：上传模型和文本，生成高质量纹理。
宣称可以在一分钟以内生成质量可接受的模型和材质，而且目前生成效果是市场上最好的。…
IT技术
( twitter.com)

7个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:30

建议关注 Google 新发布的 VideoPoet，它并非基于扩散模型，而是多模态大语言模型，基本上扩散模型能支持的功能它都能做，比如说：如文本到视频、图像到视频、视频到音频的转换，以及视频风格化、补画（inpainting）或延伸画（outpainting）处理。…
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:01:00

Topazlabs推出可以将视频分辨率提升到4K/8K甚至16K分辨率的工具：Topaz Video AI 4
1、24种时序感知AI模型：软件使用了24种不同的AI模型，这些模型经过训练，专门用于升级、增强、稳定和平滑视频画面。
2、超高清内容替换：能够将视频升级至高达16K分辨率，并修复压缩造成的画面问题。…
IT技术
( twitter.com)

5个月前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:11

🚨 突发事件：Google DeepMind 刚刚透露了 Gemini-ChatGPT 的最大竞争对手。
Gemini 是第一个在 MMLU 上超越人类专家的多模式人工智能，得分超过 90%。
他们说这是迄今为止最强大的AI模型。
Ultra 用于高度复杂的任务，
Pro 适用于广泛的任务
Nano 用于设备上的任务
IT技术
( twitter.com)

6个月前 • Will • -- 点击 • 下载视频 0 评论

00:06:22

这几个月没干别的，没日没夜的考了几个证：
- ChatGPT安装工程师
- AI伦理执行官
- 神经网络导航员
- 大自然语言模型搬运工
IT技术
( twitter.com)

6个月前 • 小互 • -- 点击 0 评论

这篇文章《Discover 4 Open Source Alternatives to GPT-4 Vision》介绍了 4 个 GPT-4 Vision 的开源替代方案：
1. LLaVa（大型语言和视觉助手）
LLaVA 代表了一种创新的、从头到尾训练的大型多模态（multimodal）模型。它融合了视觉编码器和…
IT技术
( llava-vl.github.io)

5个月前 • 宝玉 • -- 点击 0 评论

福布斯发布了他们2024年的十个AI预测，看了一下还挺靠谱的也不长，就翻译了一下。
先看一下具体的十条预测，正文理由太长了可以去链接里看翻译完的：
◆ Nvidia将大幅加大努力成为云服务提供商。
◆ Stability AI将会倒闭。
◆ “大型语言模型”和“LLM”这些术语将变得不那么常见。
◆…
IT技术
( twitter.com)

5个月前 • 歸藏 • -- 点击 0 评论

Stability AI又悄悄放大招，发布了通过SDXL蒸馏的SDXL Turbo模型，SDXL Turbo类似LCM生成图片需要的步数从原来的50步变为了1步。
据他们CEO所说，目前SDXL Turbo在4090上可以实现每秒14帧的图像生成。
SDXL Turbo目前只有非商业用途许可。
你可以在这里下载模型和权重：
IT技术
( huggingface.co)

6个月前 • 歸藏 • -- 点击 • 下载视频 0 评论

00:00:23

复旦大学张奇教授团队写了一本在线免费的电子书，《大规模语言模型：从理论到实践》， 300 页篇幅，将大模型从理论到实战的每个阶段都描述的较为清楚。
全文在线阅读地址：
IT技术
( twitter.com)

6个月前 • Barret李靖 • -- 点击 0 评论

大陆资讯

IT技术

可以拿这图去测试各大模型的多模态能力😄 IT技术 ( twitter.com)

IT技术

IT技术

IT技术

IT技术

#AI开源项目推荐#：Video-LLaVA 北京大学的多模态图像视频识别 论文摘要：… IT技术 ( twitter.com)

IT技术

IT技术

IT技术

IT技术

IT技术

IT技术

推荐教程：构建你自己的 AI 辅助编码助手 介绍如何 DIY 一个端到端（从 IDE 插件、模型选型、数据集构建到模型微调）的 AI 辅助编程工具，类似于 GitHub Copilot、JetBrains AI Assistant、AutoDev 等。 IT技术 ( github.com)

IT技术

有人尝试了借助开源大语言模型，无需联网在本机实现和游戏 NPC 自由对话，技术栈： - Mistral7b，开源大语言模型 - StyleTTS2 文字转语音 - llama.cpp 用来运行大语言模型的库 生成一句新对话的时间大约为 2-3… IT技术 ( twitter.com)

IT技术

AI iPhone前奏？苹果发表论文，提出“在手机内存上运行LLM（大语言模型）的方法” 大陆资讯 ( wallstreetcn.com)

大陆资讯

重大利好，ollama支持多模态了（视觉模型），今天刚更新： 1. llava 2. bakllava 公司电脑是Windows，我只能回家试了。 可以做很多有意思的事情，例如用视觉模型控制浏览器那个项目，是不是就可以省钱了：） 时政 ( twitter.com)

时政

IT技术

IT技术

IT技术

IT技术

这几个月没干别的，没日没夜的考了几个证： - ChatGPT安装工程师 - AI伦理执行官 - 神经网络导航员 - 大自然语言模型搬运工 IT技术 ( twitter.com)

IT技术

IT技术

IT技术

IT技术

复旦大学张奇教授团队写了一本在线免费的电子书，《大规模语言模型：从理论到实践》， 300 页篇幅，将大模型从理论到实战的每个阶段都描述的较为清楚。 全文在线阅读地址： IT技术 ( twitter.com)

IT技术

创建一个新帐户

登录

可以拿这图去测试各大模型的多模态能力😄
IT技术
( twitter.com)

#AI开源项目推荐#：Video-LLaVA
北京大学的多模态图像视频识别
论文摘要：…
IT技术
( twitter.com)

推荐教程：构建你自己的 AI 辅助编码助手
介绍如何 DIY 一个端到端（从 IDE 插件、模型选型、数据集构建到模型微调）的 AI 辅助编程工具，类似于 GitHub Copilot、JetBrains AI Assistant、AutoDev 等。
IT技术
( github.com)

有人尝试了借助开源大语言模型，无需联网在本机实现和游戏 NPC 自由对话，技术栈：
- Mistral7b，开源大语言模型
- StyleTTS2 文字转语音
- llama.cpp 用来运行大语言模型的库
生成一句新对话的时间大约为 2-3…
IT技术
( twitter.com)

AI iPhone前奏？苹果发表论文，提出“在手机内存上运行LLM（大语言模型）的方法”
大陆资讯
( wallstreetcn.com)

重大利好，ollama支持多模态了（视觉模型），今天刚更新：
1. llava
2. bakllava
公司电脑是Windows，我只能回家试了。
可以做很多有意思的事情，例如用视觉模型控制浏览器那个项目，是不是就可以省钱了：）
时政
( twitter.com)

这几个月没干别的，没日没夜的考了几个证：
- ChatGPT安装工程师
- AI伦理执行官
- 神经网络导航员
- 大自然语言模型搬运工
IT技术
( twitter.com)

复旦大学张奇教授团队写了一本在线免费的电子书，《大规模语言模型：从理论到实践》， 300 页篇幅，将大模型从理论到实战的每个阶段都描述的较为清楚。
全文在线阅读地址：
IT技术
( twitter.com)