OpenClaw 的图片识别与生成能力配置指南
OpenClaw 不仅能处理文本,还能「看懂」图片和「画出」图片。这篇文章带你了解背后的模型能力,以及如何在 OpenClaw 中配置和使用这些功能。
一、多模态模型的能力概览
在深入配置之前,先搞清楚几个概念:
| 能力类型 | 说明 | OpenClaw 中的配置项 |
|---|---|---|
| 文本理解 | 处理文字输入、对话、推理 | 默认模型即可 |
| 图片识别 | 看懂图片内容、OCR 文字提取、物体识别 | imageModel |
| 图片生成 | 根据文字描述生成图片 | imageGenerationModel |
| 视频理解 | 分析视频内容(部分模型支持) | 取决于所选模型 |
| 视频生成 | 根据文字生成视频(需特定模型) | 插件或 API 调用 |
| 向量嵌入 | 将内容转为向量用于语义搜索 | memorySearch |
OpenClaw 的 image 和 image_generate 两个工具分别对应图片识别和图片生成能力,通过配置不同的模型来驱动。
二、主流多模态模型对比
国外模型
| 模型 | 图片识别 | 图片生成 | 视频理解 | 视频生成 | 特点 |
|---|---|---|---|---|---|
| GPT-4o / GPT-4.1 | ✅ | ✅ | ✅ | ❌ | 多模态均衡,1M 上下文 |
| Gemini 2.5 Pro | ✅ | ✅ | ✅ | ❌ | 原生多模态,超长上下文 |
| Claude 4 / 3.5 Sonnet | ✅ | ❌ | ❌ | ❌ | 图片理解强,不支持生成 |
国内模型
| 模型 | 图片识别 | 图片生成 | 视频理解 | 视频生成 | 特点 |
|---|---|---|---|---|---|
| Qwen3.5-Plus | ✅ | ❌ | ✅ | ❌ | 阿里原生多模态,图文理解强 |
| Qwen3.6-Plus | ✅ | ❌ | ✅ | ❌ | 增强 Agentic Coding,多模态输入 |
| MiniMax-M2.7 | ❌ | ❌ | ❌ | ❌ | 纯文本模型,专注 Coding 和 Agent,不支持多模态 |
| MiniMax-M2.5 | ❌ | ❌ | ❌ | ❌ | 纯文本模型,同上 |
| MiniMax image-01 | ❌ | ✅ | ❌ | ❌ | 专用图片生成模型 |
| GLM-5 / GLM-4.7 | ✅ | ❌ | ✅ | ❌ | 智谱多模态,中文优化 |
| Kimi K2.5 / K2.6 | ✅ | ❌ | ✅ | ❌ | 月之暗面,超长上下文 |
💡 关键区别:图片识别(看懂图片)和图片生成(画图)是两套不同的模型。通常一个模型只擅长其中一项,所以 OpenClaw 需要分别配置。
⚠️ 关于 MiniMax:MiniMax-M2.7 / M2.5 自身是纯文本模型,不支持图片输入。但如果你通过
minimax-portal提供商(OAuth 登录)使用 OpenClaw,它会自动启用 MiniMax 的 Image Understanding MCP 能力,实现图片识别。这是 OpenClaw 的插件机制提供的,跟 M2.7 模型本身无关。
以阿里为例
阿里百炼平台的通义千问系列中:
- Qwen3.5-Plus / Qwen3.6-Plus:支持图片、视频输入,具备强大的图像识别和理解能力,但不支持图片生成
- 如果需要图片生成,则需要搭配专门的图像生成模型
以 MiniMax 为例
MiniMax 系列中:
- MiniMax-M2.7 / M2.5:纯文本模型,不支持图片输入。但如果通过
minimax-portalOAuth 使用,OpenClaw 会自动启用 Image Understanding MCP 来提供图片识别能力 - MiniMax image-01:专门的图片生成模型,根据文字生成高质量图片,支持多种风格和比例
三、配置图片能力
OpenClaw 通过两个配置项分别控制图片识别和图片生成能力:
| 配置项 | 作用 | 推荐模型 |
|---|---|---|
imageModel |
图片识别(看懂图片) | bailian/qwen3.5-plus |
imageGenerationModel |
图片生成(画出图片) | minimax-portal/image-01 |
配置路径示意
1 | gateway |
下面分别介绍两项配置的具体方法。
3.1 配置图片识别(imageModel)
查看当前配置:
1 | cat ~/.openclaw/openclaw.json | grep -A 3 '"imageModel"' |
如果没有输出,说明未配置。在 agents.defaults 中添加:
1 | "imageModel": { |
💡 推荐模型:
bailian/qwen3.5-plus是阿里百炼的通义千问多模态模型,图片理解能力出色,中文支持好。也可用bailian/qwen3.6-plus(更新版)。
3.2 配置图片生成(imageGenerationModel)
查看当前配置:
1 | cat ~/.openclaw/openclaw.json | grep -A 3 '"imageGenerationModel"' |
在 agents.defaults 中添加:
1 | "imageGenerationModel": { |
💡 推荐模型:
minimax-portal/image-01是 MiniMax 的专用图片生成模型,生成质量高,支持多种比例和风格。
3.3 让 OpenClaw 自己配置(推荐)
不想手动改文件?直接告诉 OpenClaw 就行:
“帮我配置图片识别模型,用 qwen3.5-plus”
“帮我配置图片生成模型,用 minimax-portal/image-01”
OpenClaw 会自动编辑配置文件并重启 Gateway。
3.4 完整配置示例
1 | "agents": { |
四、测试效果
4.1 测试图片识别
给 OpenClaw 发一张图片,让它描述内容:
“这张图里有什么?”
OpenClaw 会调用 image 工具,将图片传给配置的 imageModel 进行分析并返回结果。
示例效果(我自己的测试):
1 | 用户:这张图里有什么? |
4.2 测试图片生成
让 OpenClaw 生成一张图片:
“帮我生成一张小狗的图片”
OpenClaw 会调用 image_generate 工具,使用配置的 imageGenerationModel 生成图片。
示例效果(我自己的测试):
1 | 用户:生成一只小狗的图片 |
4.3 发送生成的图片
图片生成完成后,OpenClaw 需要通过 message 工具 把图片发送给你。这是因为图片生成是后台任务,生成的图片需要主动投递到对话中。
流程如下:
1 | 你让 OpenClaw 生成图片 |
五、常见问题
Q: 配置了 imageModel 但图片识别不工作?
A: 确认模型是否支持图片输入。不是所有模型都支持多模态,例如 opencode-go/deepseek-v4-flash 就不支持图片识别,只能用文本来生成图片?不对,纯文本模型根本无法识别图片。所以一定要配一个支持多模态的模型。
Q: 图片生成特别慢?
A: image_generate 是后台异步任务,生成时间取决于模型服务端的负载。通常 10-30 秒完成。
Q: 生成的图片怎么没显示在对话里?
A: 检查 OpenClaw 的 message 工具权限是否正确。OpenClaw 需要通过 message 工具把图片发送回来。
总结
| 能力 | 配置项 | 推荐模型 | 主要工具 |
|---|---|---|---|
| 图片识别 | imageModel |
bailian/qwen3.5-plus |
image |
| 图片生成 | imageGenerationModel |
minimax-portal/image-01 |
image_generate |
记住两条核心原则:
- 图片识别和图片生成是两套模型,需要分别配置
- 不想手动改配置?直接告诉 OpenClaw 就好 🦞
