💻 端侧本地AI部署专区

🌱 新手一步部署（置顶）

1Ollama 一键部署（最简单！）

Windows/Mac/Linux 通用：
① 下载 Ollama：ollama.com/download
② 安装后打开终端（CMD/Terminal）
③ 执行一条命令即可运行模型：
ollama run deepseek-r1:1.5b（1.5B低配版，2GB内存可跑）
ollama run qwen2.5:7b（7B标准版，8GB内存）
④ 等待下载完成 → 直接在终端对话！完全离线，0成本。

💡 低配推荐：2GB显存/4GB内存 → deepseek-r1:1.5b · 4GB显存/8GB内存 → qwen2.5:7b · 8GB显存/16GB内存 → llama3.2:8b

2Web界面：ChatGPT风格聊天

安装 Ollama 后运行：ollama pull open-webui
然后启动 WebUI 容器：docker run -d -p 3000:8080 ghcr.io/open-webui/open-webui:main
浏览器打开 http://localhost:3000 即可获得类ChatGPT界面，模型跑在本地。

⚠️ 注意：用 WebUI 需要安装 Docker，若不想装Docker，可直接用 Ollama 命令行交互。

🟥 AMD 显卡 & 低配电脑专属优化

1AMD 显卡运行 Ollama

Ollama 原生支持 AMD ROCm（Linux）和 DirectML（Windows）。
Windows 用户下载 Ollama 后设置环境变量：
set HSA_OVERRIDE_GFX_VERSION=11.0.0（RX7000系列）
set HSA_OVERRIDE_GFX_VERSION=10.3.0（RX6000系列）
然后正常 ollama run deepseek-r1:1.5b 即可使用 AMD GPU 加速。

2CPU Only 方案（无显卡也能跑）

完全不用显卡，仅用 CPU 和内存运行。Ollama 默认使用 CPU 模式。
推荐模型：
• 4GB内存 → deepseek-r1:1.5b（1.5B参数，速度快）
• 8GB内存 → qwen2.5:7b（7B参数，质量可接受）
• 16GB内存 → llama3.2:8b（8B参数，效果最好）

3量化模型节省显存

使用 4-bit 量化版模型，显存需求直降 75%：
ollama run deepseek-r1:1.5b-q4_K_M（1.5B量化版，仅需0.8GB显存）
ollama run qwen2.5:7b-q4_K_M（7B量化版，仅需4GB显存）

💡 量化 vs 原版：4-bit量化质量损失约5%，但显存需求下降75%，性价比极高。

📚 离线AI实操教程

💻

DeepSeek 离线部署

1.5B/7B/14B/32B 多版本，从Ollama一键部署到API调用。

新手

📺 看教程

🌐

通义千问 Qwen 部署

阿里Qwen2.5/3系列，中文能力最强，适合本地知识库/写作。