最近我一直在打磨一个 Codex Skill,名字叫 visual-ip-illustrations。它解决的问题很小,也很具体:写文章时配图太麻烦。
这个麻烦不是“画不出来”。现在 AI 画图工具已经很多了,随手写一段 prompt,也能得到一张看起来不错的图。真正的问题在于,图片一旦要放进文章,就会遇到另一层约束:它要贴合上下文,要能解释文章里的一个判断、流程或状态变化,还要尽量保持风格一致。
很多时候,一张图单独看挺好,放进文章里就像临时凑上去的装饰。好看,但不工作。
一、配图不是生成图片
很多 AI 配图方案会把重点放在“生成质量”上。
比如画面是否精致,角色是否可爱,构图是否丰富,色彩是否统一。这些当然重要,但对文章配图来说,它们只解决了后半段问题。
前半段更关键:这篇文章到底哪里需要图?
技术文章、产品文章、方法论文章里的插图,通常承担几类任务:
| 插图类型 | 它解决的问题 | 常见位置 |
|---|---|---|
| 概念图 | 把抽象概念具象化 | 开篇、概念引入 |
| 流程图 | 解释步骤和链路 | 原理拆解、实现过程 |
| 对比图 | 表达取舍和差异 | 方案比较、观点论证 |
| 状态图 | 展示变化和演进 | 架构演进、问题复盘 |
| 情绪图 | 降低阅读压力 | 段落过渡、轻量总结 |
真正难的是第一步:从文章里识别出适合视觉化的“认知锚点”。
所谓认知锚点,可以理解为读者读到这里时,最需要一个画面来帮他停一下、看清楚的地方。它可能是一句话判断,也可能是一个复杂流程,还可能是一个技术权衡。
如果只是把标题丢给画图模型,模型大概率会生成一张主题海报。看起来没问题,但它并没有真正参与文章表达。
所以这个 Skill 的设计思路很简单:
先读文章,找到最适合视觉化的内容锚点,再把锚点转换成插图规划,最后生成图片。
这个顺序很重要。
很多团队做内容自动化时会急着“出图”,结果 prompt 写得越来越长,风格词越堆越多,但图片和文章之间的关系依然松散。问题并不在画图模型,而在前面的内容理解和图像规划没有做好。
二、Skill 承担的是编排层
这个项目是基于原版小黑 skill 做的二开。它不是单纯包装一个画图 prompt,而是把“文章配图”拆成了一个可重复执行的流程。
大致可以看成这样:

这里面 Codex Skill 扮演的角色,更像一个编排层。
它不只关心最终图片,而是关心:
- 文章中哪些位置适合插图
- 每张图要表达什么核心意思
- 角色应该做什么动作
- 画面里允许出现哪些可见文字
- 多张图之间风格是否一致
- 当前文章适合生成几张图
这也是我觉得 Skill 形态有意思的地方。
如果只是一次性 prompt,很多规则会散落在对话上下文里。今天能生成,明天换一篇文章就不稳定。Skill 的价值在于把这些经验固化下来,让它成为一个可复用的能力单元。
这有点像早期大家写脚本自动化。第一次是手工命令,第二次复制粘贴,第三次你就会忍不住把它封装成脚本。AI 工作流也是一样,重复出现的判断和动作,迟早会沉淀成某种 Skill、Agent 或工具链。
三、视觉 IP 是长期资产
目前这个 Skill 支持多个视觉 IP 路线:
- Xiaohei
- Littlebox
- Tom
- Ferris
- Seal
- OpenClaw
- Go Gopher
这些 IP 没有严格使用标准。任意文章都可以使用任意形象,看个人偏好,也看文章气质。
但这里有一个值得展开的点:文章配图如果长期做下去,视觉 IP 本身会变成内容资产。
很多个人写作者、技术博客、产品团队,其实长期缺的不是某一张惊艳的封面图,而是一套稳定的视觉语言。读者反复看到同一个角色、同一种构图风格、同一类标签表达,会慢慢形成熟悉感。
这和产品设计里的 Design System 很像。
单个按钮好不好看是一回事,整套按钮、颜色、间距、组件状态能不能长期稳定复用,是另一回事。文章配图也类似。一次性生成图片解决的是当前文章能不能发,视觉 IP 解决的是长期内容有没有识别度。
当然,这里也有 trade-off。
视觉 IP 越稳定,品牌感越强,但表达自由度会下降。比如一个固定角色很适合解释流程、表达困惑、展示对比,但不一定适合所有严肃场景。如果文章主题偏安全事故、企业架构治理、重大技术风险,过于可爱的形象可能会削弱语气。
所以更合理的方式不是“一套 IP 打天下”,而是维护几条视觉路线:
| 视觉路线 | 适合内容 | 风险 |
|---|---|---|
| 可爱角色型 | 技术科普、方法论、轻量产品文 | 容易显得不够严肃 |
| 极简符号型 | 架构文章、流程说明、概念拆解 | 视觉记忆点较弱 |
| 工程漫画型 | 踩坑复盘、研发协作、工具介绍 | 需要控制分寸,避免太散 |
| 品牌插画型 | 产品发布、团队内容、系列专栏 | 设计约束更重 |
这个 Skill 目前选择从多个 IP 路线切入,本质上也是为了保留这种弹性。
四、输出不只是图片
现在它的输出相对完整。
一篇文章可以生成 4 到 8 张插图规划。每张图会包含:
- 放置位置
- 画面主题
- 核心意思
- 角色动作
- 可见文字标签
- 最终 PNG 图片
这里面我比较看重“插图规划”这一步。
很多人会低估规划文本的价值,觉得最终图片才是产物。但在真实写作里,规划往往更重要。因为它能让作者判断:这张图到底有没有必要?它是不是在重复正文?它有没有把文章里最关键的点画出来?
一个比较理想的插图规划,应该类似这样:
插图位置:第二节,解释 Skill 工作流之前
画面主题:文章内容被拆解成多个视觉锚点
核心意思:配图不是直接生成图片,而是先理解文章结构
角色动作:小黑站在白板前,把文章拆成几个便签节点
可见文字:文章解析、视觉锚点、插图规划
这段规划本身就能暴露很多问题。
如果“核心意思”说不清楚,这张图大概率也画不清楚。如果“可见文字”过多,图片会变成 PPT 截图。如果“角色动作”只是站着、指着、看着,连续几张图就会很快审美疲劳。
生产环境里的麻烦往往出在这些小地方。图能生成,但不耐用;单张能看,但一组放在文章里不协调。Skill 要解决的正是这种重复出现的小问题。
五、安装和使用
安装方式很直接:
npx skills add yangchuansheng/visual-ip-illustrations --skill visual-ip-illustrations
在 Codex 里调用:
$visual-ip-illustrations
然后把文章内容和想使用的视觉 IP 交给它即可。
比如可以这样说:
请使用 Xiaohei 视觉 IP,为下面这篇文章生成 6 张插图。
要求:
1. 插图服务于文章理解,不要只做装饰图
2. 每张图给出放置位置、画面主题、核心意思、角色动作、可见文字
3. 最终生成 PNG 图片
文章内容:
[粘贴文章正文]
如果更偏技术文章,也可以加一些约束:
请优先选择流程、架构关系、状态变化作为插图锚点。
避免生成纯情绪类图片。
可见文字控制在 3 个短标签以内。
这类约束很有用。
AI 生成图片时,文字越多越容易翻车。尤其是中文标签,稳定性还要看具体模型能力。更稳妥的方式是让图片承担结构表达,文字只做短标签,不要把大段解释塞进画面里。
六、为什么做成开源 Skill
我把它开源出来,主要是想看看大家在真实写作场景里会怎么用。
GitHub 地址:
https://github.com/yangchuansheng/visual-ip-illustrations
如果你经常写技术文章、产品文章、方法论文章,可以试试看。也欢迎提 issue 或 PR。
从工程角度看,这个项目还只是一个起点。后面还有不少可以继续打磨的地方:
- 不同文章类型对应不同插图策略
- 技术文章里的架构图和角色插画如何组合
- 同一视觉 IP 在多篇文章中的一致性如何保持
- 图片 prompt 如何版本化
- 是否需要维护一份视觉规范文件
- 生成图片后如何做人工审核和局部重绘
这些问题听起来有点细,但内容生产一旦规模化,就会变成真实成本。
配图这件事,未来大概率会从“一次性生成”,慢慢走向“可复用视觉系统”。单张图生成只是入口,真正有价值的是背后的内容理解、风格约束、IP 复用和工作流沉淀。
这个 Codex Skill,就是朝这个方向做的一次尝试。[DONE]



























































