深度解析为何不推荐Ollama，推荐多GPU服务器使用vLLM或Ex

爱生活爱珂珂 2025-09-04 08:31:57

深度解析为何不推荐 Ollama，推荐多 GPU 服务器使用 vLLM 或 ExLlamaV2：

• Ollama 实质上是 llama.cpp 的封装，未跟进最新多 GPU 及 Tensor Parallelism 优化，导致多卡环境下严重拖慢整体性能。

• llama.cpp 适合 CPU 或单卡环境，支持 CPU offloading，适合 GPU 资源有限的用户，但不支持批量推理和多 GPU 并行，无法发挥多卡优势。

• vLLM 与 ExLlamaV2 均支持 Tensor Parallelism 和批量推理，能够将大型模型计算分摊到多张 GPU，实现显著加速，尤其适合 8+ 卡服务器。

• ExLlamaV2 独创 EXL2 量化算法，在显存受限时表现优异，兼顾速度与精度，适合高效批量推理。

• 作者自建 14 卡 RTX 3090 AI 服务器，实测 vLLM 和 ExLlamaV2 大幅领先 Ollama 和 llama.cpp，轻松处理数千异步请求，性能稳定且资源利用率高。

• Ollama 仅适合单卡、简单聊天模型，批量任务或复杂推理时极易卡顿，且环境配置和显存分配不合理，使用体验差。

• 推荐从源码级别理解推理引擎差异，避免被闭源工具锁定，提升本地 AI 服务稳定性和自主可控性。

心得：

1. 多 GPU 服务器使用支持 Tensor Parallelism 的推理引擎是释放硬件潜力的关键，避免用不支持的工具造成资源浪费。

2. 量化技术和模型架构深度结合，能在保持准确度的同时极大缩减显存和计算需求，提升整体效率。

3. 彻底掌握推理引擎和硬件架构细节，远比盲目追随闭源产品更能保障长期技术优势和业务连续性。

详情阅读👉 ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/

多GPU 推理引擎 vLLM ExLlamaV2 本地AI TensorParallelism llama_cpp Ollama

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

深度解析为何不推荐 Ollama，推荐多 GPU 服务器使用 vLLM 或 Ex

2

Jupyter Agent Dataset：针对数据分析与代码智能的标杆训练集，

3

新书《Agentic Design Patterns》由谷歌专家 Antonio

4

[人人能懂] 从社交脑到自我精炼（扫码收听）

5

[LG]《Distilled Pretraining: A modern len

6

[LG]《When Agents go Astray: Course-Corre

7

[LG]《Learning to Refine: Self-Refinement

8

[CL]《Jointly Reinforcing Diversity and Q

9

[LG]《Social World Models》X Zhou, J Liu,

10

早！[太阳] 早安

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

这是iPhone17只看正面时你立马能区分升级的地方：灵动岛变小了

4

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

5

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

6

小米澎湃OS3官宣8月28日发布了，而且值得一提的是这次是OS3单开一场，可

7

真我15000mAh新机曝光，从系统UI来看，这款手机似乎就叫“15000mAh

8

小米澎湃OS3眼看小米澎湃的发布会要开了，这次升级最核心的就是手机系统，改动确实

9

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，

2

这是谁同意的？荣耀500Pro改设计了？这果里果气的确定好看？相对于外观设计

3

历代iPhone对比，17Pro真的很丑吗？我们是终于等到了iPhone改外观

4

荣耀GT2配置提前看，应该就是今年最强中高端性价比手机大体的参数已经确定，内

5

中国留给美国只有5-8年时间。深圳新凯来公司主动曝光成为爆炸性新闻，意味中国基本

6

朋友问我这几款手机怎么选，计划长期用下去，不想折腾来回换手机简单对比下来，荣

7

iPhone的A处理器永远比不上M处理器哪怕是A20pro也比不上M1

8

小米终于想通了下一代旗舰全系标配100W快充，还有7000mAh电池，再次领先

9

小米手机16系列全系参数曝光！米粉速瞅小米16系列发布时间确定9月25日左右，

10

一加这是不打算给友商留活路了啊。刚看到一加Ace6Pro的爆料，我下巴都快