400-100-5265

预约演示

文章配图的 Skill 化

2026-06-18

最近我一直在打磨一个 Codex Skill,名字叫 visual-ip-illustrations。它解决的问题很小,也很具体:写文章时配图太麻烦。

这个麻烦不是“画不出来”。现在 AI 画图工具已经很多了,随手写一段 prompt,也能得到一张看起来不错的图。真正的问题在于,图片一旦要放进文章,就会遇到另一层约束:它要贴合上下文,要能解释文章里的一个判断、流程或状态变化,还要尽量保持风格一致。

很多时候,一张图单独看挺好,放进文章里就像临时凑上去的装饰。好看,但不工作。

一、配图不是生成图片

很多 AI 配图方案会把重点放在“生成质量”上。

比如画面是否精致,角色是否可爱,构图是否丰富,色彩是否统一。这些当然重要,但对文章配图来说,它们只解决了后半段问题。

前半段更关键:这篇文章到底哪里需要图?

技术文章、产品文章、方法论文章里的插图,通常承担几类任务:

插图类型 它解决的问题 常见位置
概念图 把抽象概念具象化 开篇、概念引入
流程图 解释步骤和链路 原理拆解、实现过程
对比图 表达取舍和差异 方案比较、观点论证
状态图 展示变化和演进 架构演进、问题复盘
情绪图 降低阅读压力 段落过渡、轻量总结

真正难的是第一步:从文章里识别出适合视觉化的“认知锚点”。

所谓认知锚点,可以理解为读者读到这里时,最需要一个画面来帮他停一下、看清楚的地方。它可能是一句话判断,也可能是一个复杂流程,还可能是一个技术权衡。

如果只是把标题丢给画图模型,模型大概率会生成一张主题海报。看起来没问题,但它并没有真正参与文章表达。

所以这个 Skill 的设计思路很简单:

先读文章,找到最适合视觉化的内容锚点,再把锚点转换成插图规划,最后生成图片。

这个顺序很重要。

很多团队做内容自动化时会急着“出图”,结果 prompt 写得越来越长,风格词越堆越多,但图片和文章之间的关系依然松散。问题并不在画图模型,而在前面的内容理解和图像规划没有做好。

二、Skill 承担的是编排层

这个项目是基于原版小黑 skill 做的二开。它不是单纯包装一个画图 prompt,而是把“文章配图”拆成了一个可重复执行的流程。

大致可以看成这样:

流程图 - 文章配图的 Skill 化

这里面 Codex Skill 扮演的角色,更像一个编排层。

它不只关心最终图片,而是关心:

  • 文章中哪些位置适合插图
  • 每张图要表达什么核心意思
  • 角色应该做什么动作
  • 画面里允许出现哪些可见文字
  • 多张图之间风格是否一致
  • 当前文章适合生成几张图

这也是我觉得 Skill 形态有意思的地方。

如果只是一次性 prompt,很多规则会散落在对话上下文里。今天能生成,明天换一篇文章就不稳定。Skill 的价值在于把这些经验固化下来,让它成为一个可复用的能力单元。

这有点像早期大家写脚本自动化。第一次是手工命令,第二次复制粘贴,第三次你就会忍不住把它封装成脚本。AI 工作流也是一样,重复出现的判断和动作,迟早会沉淀成某种 Skill、Agent 或工具链。

三、视觉 IP 是长期资产

目前这个 Skill 支持多个视觉 IP 路线:

  • Xiaohei
  • Littlebox
  • Tom
  • Ferris
  • Seal
  • OpenClaw
  • Go Gopher

这些 IP 没有严格使用标准。任意文章都可以使用任意形象,看个人偏好,也看文章气质。

但这里有一个值得展开的点:文章配图如果长期做下去,视觉 IP 本身会变成内容资产。

很多个人写作者、技术博客、产品团队,其实长期缺的不是某一张惊艳的封面图,而是一套稳定的视觉语言。读者反复看到同一个角色、同一种构图风格、同一类标签表达,会慢慢形成熟悉感。

这和产品设计里的 Design System 很像。

单个按钮好不好看是一回事,整套按钮、颜色、间距、组件状态能不能长期稳定复用,是另一回事。文章配图也类似。一次性生成图片解决的是当前文章能不能发,视觉 IP 解决的是长期内容有没有识别度。

当然,这里也有 trade-off。

视觉 IP 越稳定,品牌感越强,但表达自由度会下降。比如一个固定角色很适合解释流程、表达困惑、展示对比,但不一定适合所有严肃场景。如果文章主题偏安全事故、企业架构治理、重大技术风险,过于可爱的形象可能会削弱语气。

所以更合理的方式不是“一套 IP 打天下”,而是维护几条视觉路线:

视觉路线 适合内容 风险
可爱角色型 技术科普、方法论、轻量产品文 容易显得不够严肃
极简符号型 架构文章、流程说明、概念拆解 视觉记忆点较弱
工程漫画型 踩坑复盘、研发协作、工具介绍 需要控制分寸,避免太散
品牌插画型 产品发布、团队内容、系列专栏 设计约束更重

这个 Skill 目前选择从多个 IP 路线切入,本质上也是为了保留这种弹性。

四、输出不只是图片

现在它的输出相对完整。

一篇文章可以生成 4 到 8 张插图规划。每张图会包含:

  • 放置位置
  • 画面主题
  • 核心意思
  • 角色动作
  • 可见文字标签
  • 最终 PNG 图片

这里面我比较看重“插图规划”这一步。

很多人会低估规划文本的价值,觉得最终图片才是产物。但在真实写作里,规划往往更重要。因为它能让作者判断:这张图到底有没有必要?它是不是在重复正文?它有没有把文章里最关键的点画出来?

一个比较理想的插图规划,应该类似这样:

插图位置:第二节,解释 Skill 工作流之前
画面主题:文章内容被拆解成多个视觉锚点
核心意思:配图不是直接生成图片,而是先理解文章结构
角色动作:小黑站在白板前,把文章拆成几个便签节点
可见文字:文章解析、视觉锚点、插图规划

这段规划本身就能暴露很多问题。

如果“核心意思”说不清楚,这张图大概率也画不清楚。如果“可见文字”过多,图片会变成 PPT 截图。如果“角色动作”只是站着、指着、看着,连续几张图就会很快审美疲劳。

生产环境里的麻烦往往出在这些小地方。图能生成,但不耐用;单张能看,但一组放在文章里不协调。Skill 要解决的正是这种重复出现的小问题。

五、安装和使用

安装方式很直接:

npx skills add yangchuansheng/visual-ip-illustrations --skill visual-ip-illustrations

在 Codex 里调用:

$visual-ip-illustrations

然后把文章内容和想使用的视觉 IP 交给它即可。

比如可以这样说:

请使用 Xiaohei 视觉 IP,为下面这篇文章生成 6 张插图。
要求:
1. 插图服务于文章理解,不要只做装饰图
2. 每张图给出放置位置、画面主题、核心意思、角色动作、可见文字
3. 最终生成 PNG 图片

文章内容:
[粘贴文章正文]

如果更偏技术文章,也可以加一些约束:

请优先选择流程、架构关系、状态变化作为插图锚点。
避免生成纯情绪类图片。
可见文字控制在 3 个短标签以内。

这类约束很有用。

AI 生成图片时,文字越多越容易翻车。尤其是中文标签,稳定性还要看具体模型能力。更稳妥的方式是让图片承担结构表达,文字只做短标签,不要把大段解释塞进画面里。

六、为什么做成开源 Skill

我把它开源出来,主要是想看看大家在真实写作场景里会怎么用。

GitHub 地址:

https://github.com/yangchuansheng/visual-ip-illustrations

如果你经常写技术文章、产品文章、方法论文章,可以试试看。也欢迎提 issue 或 PR。

从工程角度看,这个项目还只是一个起点。后面还有不少可以继续打磨的地方:

  • 不同文章类型对应不同插图策略
  • 技术文章里的架构图和角色插画如何组合
  • 同一视觉 IP 在多篇文章中的一致性如何保持
  • 图片 prompt 如何版本化
  • 是否需要维护一份视觉规范文件
  • 生成图片后如何做人工审核和局部重绘

这些问题听起来有点细,但内容生产一旦规模化,就会变成真实成本。

配图这件事,未来大概率会从“一次性生成”,慢慢走向“可复用视觉系统”。单张图生成只是入口,真正有价值的是背后的内容理解、风格约束、IP 复用和工作流沉淀。

这个 Codex Skill,就是朝这个方向做的一次尝试。[DONE]

创作声明:本内容包含AI辅助创作,观点仅供参考。