让 AI 模型"轻装上阵"：Ollama 新功能让内存消耗大幅降低「通过一项新技术实现了显著降低 AI 模型运行内存需求的突破，让普通电脑也能运行更大、更强大的 AI 模型，同时基本不影响模型的输出质量」核心功能与意义：- K/V 上下文缓存量化可以显著减少 VRAM (显存)使用量- 使用 Q8_0

发布时间: 2024-12-05 23:40:15

1分

数据加载中

关注推特

收听电报

2

1

0

让 AI 模型"轻装上阵"：Ollama 新功能让内存消耗大幅降低
「通过一项新技术实现了显著降低 AI 模型运行内存需求的突破，让普通电脑也能运行更大、更强大的 AI 模型，同时基本不影响模型的输出质量」
核心功能与意义：
- K/V 上下文缓存量化可以显著减少 VRAM (显存)使用量
- 使用 Q8_0
时政
( twitter.com )

10个月前由 meng shao 提交

让 AI 模型"轻装上阵"：Ollama 新功能让内存消耗大幅降低

「@ollama 通过一项新技术实现了显著降低 AI 模型运行内存需求的突破，让普通电脑也能运行更大、更强大的 AI 模型，同时基本不影响模型的输出质量」

核心功能与意义：
- K/V 上下文缓存量化可以显著减少 VRAM (显存)使用量
- 使用 Q8_0 量化可以将上下文所需显存减少约 50%
- 使用 Q4_0 量化可以减少约 66% 的显存使用(但会略微影响质量)

主要优势：
- 能够运行更大的模型
- 可以扩展上下文窗口大小
- 减少硬件资源占用

具体示例：
对于一个 8B 参数、32K 上下文窗口的模型：
- F16 K/V: 需要约 6GB 显存
- Q8_0 K/V: 需要约 3GB 显存
- Q4_0 K/V: 需要约 2GB 显存

使用方法：
- 需要使用最新版本的 Ollama
- 需要启用 Flash Attention (OLLAMA_FLASH_ATTENTION=1)
- 通过设置环境变量 OLLAMA_KV_CACHE_TYPE="q8_0" 来启用

硬件支持：
- 支持 Apple Silicon (Metal)
- 支持 NVIDIA GPU (需要 CUDA 支持，Pascal 及更新架构)
- 支持大多数 AMD GPU (通过 ROCm，但支持可能不如 CUDA 完善)

质量影响：
- Q8_0: 对普通文本生成的质量影响极小，适合大多数用户
- Q4_0: 有一些明显的质量降低，但对于显存受限的情况下仍然可用

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

使用 Cursor AI编程助手轻松创建了一个 Chrome 扩展程序
可在任何电子商务商店轻松进行虚拟服装试穿。
使用了 Huggingface 上最新的 Kolors 模型
时政
( twitter.com)

1年前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:34

2

2

1

1

Meta AI 发布 Llama 3.2 多模态AI模型
性能与GPT4o-mini 相当能够在边缘设备上高效运行
Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型（11B 和 90B）以及轻量文本模型（1B 和 3B）。
LLaMA 3.2支持同时处理文本、图像和视频，能够理解并生成跨媒体内容。
时政
( twitter.com)

1年前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:38

3

2

1

1

让两个 AI 对弈是个不错的测试模型能力的方法

IT技术
( twitter.com)

8个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:00:25

4

3

2

2

TechCrunch：Meta 新AI模型的性能测试有点误导人
作者：Kyle Wiggers
Meta 上周六发布了一款旗舰AI模型——Maverick。在人类评审员对不同AI模型生成内容进行比较的LM Arena排行榜中，这款模型排名第二。但实际上，Meta 提供给 LM Arena 测试的 Maverick
IT技术
( twitter.com)

6个月前 • 宝玉 • -- 点击 0 评论

5

2

1

1

重磅消息：Open AI刚刚发布据称是史上最强大的AI 模型 GPT - 5 ！
时政
( twitter.com)

2个月前 • Inty News • -- 点击 0 评论

6

2

1

1

那更好了，轻装上阵。这下tokenomics更加值得期待了。
btc
( twitter.com)

8个月前 • 土澳大狮兄BroLeon (꧁IP꧂) • -- 点击 0 评论

7

2

1

1

问：想请教一下现在 gpt 的哪个模型最适合处理 Excel 文件啊，或者其他大模型里哪个的数据处理能力最强大
答：借助 AI 模型处理 Excel 两种方案供参考：
1. 让模型帮你写 Excel 的宏函数，简单直接，几乎任意主流模型都可以，不懂就直接问 AI，把你的需求告诉 AI；
2. 如果只是分析数据，推荐 Claude
IT技术
( twitter.com)

7个月前 • 宝玉 • -- 点击 0 评论

8

2

1

1

AI取代人类从网购 / 刷短视频开始：CMU发布多模态Web Agent基准，让大模型冲浪比你还溜
大陆资讯
( www.ithome.com)

1年前 • 羡慕忌妒恨 • -- 点击 0 评论

9

3

2

2

AI是怎么变聪明的？难道就是跑个超级大模型就行了？其实根本不是。让一个AI模型真正聪明起来的重要因素就是人工训练，用最天才的头脑，进行海量的知识问答训练，才能让AI掌握顶尖的人类智慧。中国有能够训练AI的人吗？你能指望一帮奴才能训练出一个乔布斯的思维模型？…
时政
( twitter.com)

1年前 • Lei’s Talk • -- 点击 0 评论

0.11733 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特