文章配图的 Skill 化|红海eHR

最近我一直在打磨一个 Codex Skill，名字叫 visual-ip-illustrations。它解决的问题很小，也很具体：写文章时配图太麻烦。

这个麻烦不是“画不出来”。现在 AI 画图工具已经很多了，随手写一段 prompt，也能得到一张看起来不错的图。真正的问题在于，图片一旦要放进文章，就会遇到另一层约束：它要贴合上下文，要能解释文章里的一个判断、流程或状态变化，还要尽量保持风格一致。

很多时候，一张图单独看挺好，放进文章里就像临时凑上去的装饰。好看，但不工作。

一、配图不是生成图片

很多 AI 配图方案会把重点放在“生成质量”上。

比如画面是否精致，角色是否可爱，构图是否丰富，色彩是否统一。这些当然重要，但对文章配图来说，它们只解决了后半段问题。

前半段更关键：这篇文章到底哪里需要图？

技术文章、产品文章、方法论文章里的插图，通常承担几类任务：

插图类型	它解决的问题	常见位置
概念图	把抽象概念具象化	开篇、概念引入
流程图	解释步骤和链路	原理拆解、实现过程
对比图	表达取舍和差异	方案比较、观点论证
状态图	展示变化和演进	架构演进、问题复盘
情绪图	降低阅读压力	段落过渡、轻量总结

真正难的是第一步：从文章里识别出适合视觉化的“认知锚点”。

所谓认知锚点，可以理解为读者读到这里时，最需要一个画面来帮他停一下、看清楚的地方。它可能是一句话判断，也可能是一个复杂流程，还可能是一个技术权衡。

如果只是把标题丢给画图模型，模型大概率会生成一张主题海报。看起来没问题，但它并没有真正参与文章表达。

所以这个 Skill 的设计思路很简单：

先读文章，找到最适合视觉化的内容锚点，再把锚点转换成插图规划，最后生成图片。

这个顺序很重要。

很多团队做内容自动化时会急着“出图”，结果 prompt 写得越来越长，风格词越堆越多，但图片和文章之间的关系依然松散。问题并不在画图模型，而在前面的内容理解和图像规划没有做好。

二、Skill 承担的是编排层

这个项目是基于原版小黑 skill 做的二开。它不是单纯包装一个画图 prompt，而是把“文章配图”拆成了一个可重复执行的流程。

大致可以看成这样：

流程图 - 文章配图的 Skill 化

这里面 Codex Skill 扮演的角色，更像一个编排层。

它不只关心最终图片，而是关心：

文章中哪些位置适合插图
每张图要表达什么核心意思
角色应该做什么动作
画面里允许出现哪些可见文字
多张图之间风格是否一致
当前文章适合生成几张图

这也是我觉得 Skill 形态有意思的地方。

如果只是一次性 prompt，很多规则会散落在对话上下文里。今天能生成，明天换一篇文章就不稳定。Skill 的价值在于把这些经验固化下来，让它成为一个可复用的能力单元。

这有点像早期大家写脚本自动化。第一次是手工命令，第二次复制粘贴，第三次你就会忍不住把它封装成脚本。AI 工作流也是一样，重复出现的判断和动作，迟早会沉淀成某种 Skill、Agent 或工具链。

三、视觉 IP 是长期资产

目前这个 Skill 支持多个视觉 IP 路线：

Xiaohei
Littlebox
Tom
Ferris
Seal
OpenClaw
Go Gopher

这些 IP 没有严格使用标准。任意文章都可以使用任意形象，看个人偏好，也看文章气质。

但这里有一个值得展开的点：文章配图如果长期做下去，视觉 IP 本身会变成内容资产。

很多个人写作者、技术博客、产品团队，其实长期缺的不是某一张惊艳的封面图，而是一套稳定的视觉语言。读者反复看到同一个角色、同一种构图风格、同一类标签表达，会慢慢形成熟悉感。

这和产品设计里的 Design System 很像。

单个按钮好不好看是一回事，整套按钮、颜色、间距、组件状态能不能长期稳定复用，是另一回事。文章配图也类似。一次性生成图片解决的是当前文章能不能发，视觉 IP 解决的是长期内容有没有识别度。

当然，这里也有 trade-off。

视觉 IP 越稳定，品牌感越强，但表达自由度会下降。比如一个固定角色很适合解释流程、表达困惑、展示对比，但不一定适合所有严肃场景。如果文章主题偏安全事故、企业架构治理、重大技术风险，过于可爱的形象可能会削弱语气。

所以更合理的方式不是“一套 IP 打天下”，而是维护几条视觉路线：

视觉路线	适合内容	风险
可爱角色型	技术科普、方法论、轻量产品文	容易显得不够严肃
极简符号型	架构文章、流程说明、概念拆解	视觉记忆点较弱
工程漫画型	踩坑复盘、研发协作、工具介绍	需要控制分寸，避免太散
品牌插画型	产品发布、团队内容、系列专栏	设计约束更重

这个 Skill 目前选择从多个 IP 路线切入，本质上也是为了保留这种弹性。

四、输出不只是图片

现在它的输出相对完整。

一篇文章可以生成 4 到 8 张插图规划。每张图会包含：

放置位置
画面主题
核心意思
角色动作
可见文字标签
最终 PNG 图片

这里面我比较看重“插图规划”这一步。

很多人会低估规划文本的价值，觉得最终图片才是产物。但在真实写作里，规划往往更重要。因为它能让作者判断：这张图到底有没有必要？它是不是在重复正文？它有没有把文章里最关键的点画出来？

一个比较理想的插图规划，应该类似这样：

插图位置：第二节，解释 Skill 工作流之前
画面主题：文章内容被拆解成多个视觉锚点
核心意思：配图不是直接生成图片，而是先理解文章结构
角色动作：小黑站在白板前，把文章拆成几个便签节点
可见文字：文章解析、视觉锚点、插图规划

这段规划本身就能暴露很多问题。

如果“核心意思”说不清楚，这张图大概率也画不清楚。如果“可见文字”过多，图片会变成 PPT 截图。如果“角色动作”只是站着、指着、看着，连续几张图就会很快审美疲劳。

生产环境里的麻烦往往出在这些小地方。图能生成，但不耐用；单张能看，但一组放在文章里不协调。Skill 要解决的正是这种重复出现的小问题。

五、安装和使用

安装方式很直接：

npx skills add yangchuansheng/visual-ip-illustrations --skill visual-ip-illustrations

在 Codex 里调用：

$visual-ip-illustrations

然后把文章内容和想使用的视觉 IP 交给它即可。

比如可以这样说：

请使用 Xiaohei 视觉 IP，为下面这篇文章生成 6 张插图。
要求：
1. 插图服务于文章理解，不要只做装饰图
2. 每张图给出放置位置、画面主题、核心意思、角色动作、可见文字
3. 最终生成 PNG 图片

文章内容：
[粘贴文章正文]

如果更偏技术文章，也可以加一些约束：

请优先选择流程、架构关系、状态变化作为插图锚点。
避免生成纯情绪类图片。
可见文字控制在 3 个短标签以内。

这类约束很有用。

AI 生成图片时，文字越多越容易翻车。尤其是中文标签，稳定性还要看具体模型能力。更稳妥的方式是让图片承担结构表达，文字只做短标签，不要把大段解释塞进画面里。

六、为什么做成开源 Skill

我把它开源出来，主要是想看看大家在真实写作场景里会怎么用。

GitHub 地址：

https://github.com/yangchuansheng/visual-ip-illustrations

如果你经常写技术文章、产品文章、方法论文章，可以试试看。也欢迎提 issue 或 PR。

从工程角度看，这个项目还只是一个起点。后面还有不少可以继续打磨的地方：

不同文章类型对应不同插图策略
技术文章里的架构图和角色插画如何组合
同一视觉 IP 在多篇文章中的一致性如何保持
图片 prompt 如何版本化
是否需要维护一份视觉规范文件
生成图片后如何做人工审核和局部重绘

这些问题听起来有点细，但内容生产一旦规模化，就会变成真实成本。

配图这件事，未来大概率会从“一次性生成”，慢慢走向“可复用视觉系统”。单张图生成只是入口，真正有价值的是背后的内容理解、风格约束、IP 复用和工作流沉淀。

这个 Codex Skill，就是朝这个方向做的一次尝试。[DONE]



HR数字化产品

国央企单位
State owned enterprise units

银行金融

高新科技

消费品

服饰行业

餐饮行业

能源矿业

制造行业

生物医药

文章配图的 Skill 化

一、配图不是生成图片

二、Skill 承担的是编排层

三、视觉 IP 是长期资产

四、输出不只是图片

五、安装和使用

六、为什么做成开源 Skill

相关标签

热门文章

最新文章

文章配图的 Skill 化

一、配图不是生成图片

二、Skill 承担的是编排层

三、视觉 IP 是长期资产

四、输出不只是图片

五、安装和使用

六、为什么做成开源 Skill

相关标签

相关文章推荐

新锐HRSaaS厂商汇总，助力传统工厂数字化转型

工厂考勤难？盘点2026适配倒班制的HR管理系统厂商

告别手工台账！工厂数字化人事系统厂商全面盘点

集团制造异地管理难，一体化HCM系统厂商推荐榜单

车间排班效率低？适配制造场景的HR管理系统盘点

机械工厂人力管控，适配产线管理的EHR系统盘点

工厂人事审批繁琐，轻量化流程HR软件厂商汇总

私有化部署VS云SaaS，制造工厂EHR厂商分类推荐

热门文章

最新文章