Mac本地运行LLM教程小白也能在mac上玩大模型
在Mac上跑大模型教程来了,有台16GB内存的MacBook Air就行。(作者Fatih,原文:blog.6nok.org/experimenting-with-local-llms-on-macos)
步骤和注意事项:
一、两种推荐方式:
1. llama.cpp(开源)
- 可通过Nix安装:`nix profile install nixpkgsllama-cpp`
- 运行推荐模型命令示例:
```
llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF
```
- 启动后在浏览器访问:`127.0.0.1:8080`
- 优点:跨平台、配置灵活、轻量
2. LM Studio(闭源,但简单易用)
- UI友好,适合不想命令行的人
- 支持模型浏览、运行时选择(llama.cpp或MLX)
- 可切换模型/分支对话/自定义system prompt/设定模型行为
- 提供基本安全机制(比如工具调用需手动确认)
二、模型选择建议:
- 模型大小限制:别选超过可用内存的模型。16GB内存的机器建议模型控制在12GB以下;
- 量化版本优先:如Q4或Q4_K_M,体积更小、性能够用;
- 用途区分:
- 文本生成:Gemma、Qwen3等基础模型;
- 视觉理解:支持图像输入的模型(Vision);
- 逻辑推理:带Reasoning标签的模型;
- 工具调用:支持Tool use,可调用API、本地脚本等;
三、推荐的一些模型(按用途和性能折中考虑):
- Gemma 3 12B QAT:文本生成快且自然
- Qwen3 4B Thinking:小而强,适合初学者
- GPT-OSS 20B:大而全,但对资源要求高
- Phi-4:微软推出,推理能力也不错
四、其他使用建议:
- 上下文管理:LM Studio会显示token使用率,建议定期总结对话避免信息丢失;
- 功能拓展:可以接入工具(如浏览器、代码执行环境、记忆系统),但记得按需启用,避免上下文污染;
- M系列芯片建议:建议使用Apple Silicon设备(M1/M2/M3),性能和兼容性更好;
- 不要期待“AI觉醒”:它不是有意识的存在,仅是复杂的补全系统。
只要一台mac,就能拥有一个离线、可控、完全属于你自己的AI助手。