
Silly Tavern 新版找不到 Ollama?三步搞定本地模型设置
Silly Tavern(当前最新版本可参考 1.16.0)很适合作为自托管或家庭服务器上的前端;配合 Ollama、LM Studio,可以把本地 LLM跑在自家机器里,聊天内容尽量留在本机,满足隐私与本地部署需求。升级后常有人问:Ollama / LM Studio 的界面去哪儿了?其实并不是删掉了,而是 API 连接面板里主 API与 API Type 的层级变深了。下面用三步带你走到正确入口。
为什么找不到 Ollama?
新版本里 API 连接区域重新归类,主要有三点:
1. 主 API 分成两条路线
点顶部工具栏的插头图标(API Connections),第一个下拉框是主 API(main_api)。Ollama、LM Studio 走的是 Text Completion(文本补全),不是默认更容易看到的 Chat Completion(聊天补全)。选错这一条,后面就不会出现预期选项。
2. LM Studio 不再单独占一项
在「文本补全」面板里,LM Studio 与 LiteLLM 等被合并为 Generic (OpenAI-compatible) [LM Studio, LiteLLM, etc.],必须展开 API Type 才能看到。
3. Ollama 是独立的 API 类型
选好 Text Completion 之后,在 API Type 里选 Ollama,才会出现专用地址栏和模型下拉。在 Chat Completion 里翻再找也不会出现,属于正常行为,换路线即可。
三步找到入口
步骤一:把主 API 切成「文本补全」
打开 API 连接面板,将第一个下拉框从 Chat Completion 改为 Text Completion。

步骤二:在 API Type 中选择 Ollama
文本补全面板展开后,在 API Type 中选 Ollama。若使用 LM Studio,则选 Generic (OpenAI-compatible) [LM Studio, LiteLLM, etc.]。

步骤三:填写 URL、选模型并连接
在 API URL 中填入本机默认地址 http://127.0.0.1:11434,点击 Connect。成功后,Ollama 模型下拉框会列出已安装的模型,选中即可。

Ollama 设置(原生方式,推荐)
本地环境
确认 Ollama 已安装并在运行,可在终端拉取模型:
# 示例:拉取 llama3.2
ollama pull llama3.2
# 或直接运行(首次会自动下载)
ollama run qwen3.5:27b在 Silly Tavern 中填写
| 设置项 | 填写内容 |
|---|---|
| 主 API | Text Completion |
| API Type | Ollama |
| API URL | http://127.0.0.1:11434 |
| Ollama 模型 | 从下拉框选择已安装的模型 |
为什么不能用通用 OpenAI 接口填 Ollama? Ollama 使用自家的
/api/generate,与 OpenAI 的/v1/chat/completions格式不同。硬塞进 Generic OpenAI 往往会报错,请使用专用的 Ollama 类型。
LM Studio 设置(OpenAI 兼容)
LM Studio 的本地服务器暴露的是 OpenAI 兼容接口,因此应使用 Generic (OpenAI-compatible),而不是 Ollama 类型。
配置表
| 设置项 | 填写内容 |
|---|---|
| 主 API | Text Completion |
| API Type | Generic (OpenAI-compatible) [LM Studio, LiteLLM, etc.] |
| Server URL | http://127.0.0.1:1234(LM Studio 默认) |
| API Key | 纯本地可留空 |
须先在 LM Studio 中加载模型并启动 Local Server,否则 Silly Tavern 无法连接。
实机测试:qwen3.5:0.8b 适合角色扮演吗?
连上 Ollama 后,用 qwen3.5:0.8b 试了一局角色扮演——结果不太理想:

回复里混进了代码片段和系统提示里的标签,难以正常对话。参数量 0.8B 对复杂角色扮演偏小,建议至少 7B 及以上;想要更稳的体验可优先考虑 14B 或 27B。更大参数的实测可参考本站中文稿 Qwen 3.5-27B 与日语角色卡实测,或日文站 同题评测。
参考链接
- Silly Tavern 官方文档
- Ollama 项目
- LM Studio 官网
- MiniTavern 官网(手机端 AI 角色扮演应用)
关于作者
常见问题(FAQ)
Q1:点 Connect 没反应,也不报错?
请先确认主 API 是否为 Text Completion——这是最常见的遗漏。再确认 Ollama 是否在运行:终端执行 ollama list 能列出模型即正常。LM Studio 用户请确认本地服务已启动。
Q2:显示连接成功,但发消息没有回复?
检查模型名是否与 Ollama 侧完全一致,拼写错误有时会静默失败。也可尝试关闭**流式输出(Streaming)**或降低上下文长度;参数不匹配偶尔会导致请求卡住。
Q3:为什么输出里会混入奇怪代码或标签?
多为模型太小:例如 0.8B 这类超小模型容易把系统提示或格式标签泄到正文里,指令跟随能力也弱。建议换到 7B 以上;角色扮演场景更推荐 14B / 27B。
Q4:Text Completion 和 Chat Completion 有什么区别?该用哪个?
两者并存、用途不同。Ollama 与多数本地链路走 Text Completion;OpenAI、Claude 等云端 Chat Completion。没有绝对优劣,按所接服务类型选择即可。
Q5:手机上能用本地大模型吗?
手机直接跑大模型并不现实。若想在手机上玩 AI 角色扮演,可尝试 MiniTavern——配置 OpenRouter、DeepSeek 等 API 即可使用,无需自己搭服务器。
Q6:Silly Tavern「自托管」和云端 API 有何不同?
自托管时,可在 PC 或家庭服务器上同时跑 Silly Tavern 与 Ollama(或 LM Studio),推理与对话记录多可留在本地。云端 Chat Completion(如 OpenAI)数据会经过服务商,通常按场景组合使用。本文步骤面向希望把对话与推理尽量留在本地的部署方式,核心是 Text Completion → Ollama / Generic。
发布日期:2026 年 3 月 23 日
最后更新:2026 年 3 月 23 日
