Ollama 设置指南

通过 Ollama 的私有本地模型使用离线 AI 模式。

离线 AI 的含义

启用离线 AI 后，支持文件的分析会通过你的本地 Ollama server 运行，而不是发送到云端 provider。

从官方网站下载 macOS 版 Ollama，完成安装后打开一次应用，让本地服务器启动。

Zush 最适合搭配能理解图片、截图、PDF 和预览的视觉模型。建议先使用：

ollama pull qwen2.5vl:3b

Ollama 通常会在后台运行。如果 Zush 无法连接，可在终端启动：

ollama serve

打开 Zush，进入 AI Setup，开启 Offline AI mode，刷新模型列表，选择模型并运行 Test。

按任务选择：qwen2.5vl:3b 适合速度，gemma3:4b 适合平衡，granite3.2-vision:2b 适合文档。

速度

处理日常截图和图片时最快的首选。

大多数 Apple Silicon Mac最快

ollama pull qwen2.5vl:3b

平衡

当速度和质量都重要时，这是很好的默认选择。

建议 8GB+ 内存均衡

ollama pull gemma3:4b

文档

适合文档预览、扫描件和结构化视觉内容的小型视觉模型。

大多数 Apple Silicon Mac快速

ollama pull granite3.2-vision:2b

也可以从 Ollama 模型目录选择其他视觉模型。

在终端运行 ollama list。如果列表为空，请先下载模型，然后刷新 Zush。

确认 Ollama 正在运行，并且 Zush 中的 host 设置为 http://127.0.0.1:11434。

使用 qwen2.5vl:3b 这类更小的模型，关闭占内存的应用，或在大批量处理时切回 Cloud。

离线 AI 与 Cloud 和 BYOK 分开。Cloud 使用 Zush credits，BYOK 使用你的服务商密钥，离线 AI 使用设备上的 Ollama。