用 Codex 搭一套行业认知底座|红海eHR

很多人第一次接触陌生行业，都会掉进一个很典型的坑：看了不少材料，知道几个名词，也收藏了几十个链接，最后脑子里还是一团散的。信息看起来很多，但没有结构，过几天基本又忘了。

这其实不是“看得不够多”的问题，往往是调研方式出了问题。传统行业研究更像手工抄资料：搜索、筛选、摘录、分类、比对，全靠人盯着网页一点点搬。慢是一方面，更麻烦的是，信息一旦没有落成结构，后面几乎没法复用。

Codex 真正有价值的地方，不只是“帮你快一点搜”，而是它能把分散的公开信息转成一套可计算、可检索、可持续更新的行业数据库。对技术人来说，这个思路其实不陌生：先建数据模型，再做采集、清洗、归档和查询。行业认知一旦数据库化，学习方式就从“看文章”变成了“查系统”。

一、传统调研为什么总是越看越乱

很多团队做陌生行业调研时，流程大概都差不多：

搜索行业报告
看几篇券商研报或咨询文章
找头部公司官网
抄一些市场规模、竞争格局、产业链信息
最后整理成一份 PPT 或文档

这个流程的问题，不在于它错，而在于它天然容易碎片化。

1. 信息来源太杂，格式又不统一

同一个行业的信息会散落在很多地方：

公司官网
招股书、年报
行业媒体
政策文件
第三方数据库
论坛、采访、会议纪要

这些内容的颗粒度完全不同。有的是事实数据，有的是市场观点，有的是营销话术。人靠肉眼去分辨，成本很高。

2. 读了很多，还是很难形成结构

很多人会记住几个零散结论，比如：

行业规模很大
头部集中度提升
上游受原材料影响
下游客户分散

这些话都没错，但它们太抽象。真正能帮助你快速进入行业的，通常是这些更具体的结构化信息：

产业链分几层，每层的关键角色是谁
行业收入是按什么维度切分的
企业核心指标看什么
上下游议价关系怎么形成
过去 3 年行业在发生什么变化

没有结构，结论就只是“知道了”，但没法继续推演。

3. 最浪费时间的，其实是重复整理

这类工作最耗人的环节，不是阅读本身，而是：

把网页内容摘录成笔记
把不同资料里的相同字段对齐
给企业、产品、政策做分类
判断哪些信息值得保留
后续再回头更新旧资料

如果你只是临时看一次，忍一忍也就过去了。但只要这个行业后面还会持续跟踪，手工整理很快就会失控。

Codex 在这里的作用，本质上是把“手工调研流水线”半自动化。它擅长做三件事：

从公开资料中抽取结构化字段
按统一 schema 归档信息
基于已有数据库持续补充和交叉验证

这就是它适合做行业数据库，而不只是做一个问答助手的原因。

二、1 小时的目标，不是成为专家

这里有个预期必须先摆正。

1 小时内，你不可能真正“懂透”一个陌生行业。真正在生产环境里，麻烦往往都藏在行业术语背后的默认规则、交易关系和灰度地带里，这些东西不是靠一轮 AI 总结就能吃透的。

但 1 小时足够做一件很有价值的事：搭起一套认知底座。

这套底座至少应该回答五个问题：

问题	你要拿到的结果
这个行业在卖什么	核心产品/服务分类
行业怎么运转	产业链、上下游、交易模式
谁是主要玩家	头部公司、细分赛道、角色分层
关键指标看什么	市场规模、利润率、客单价、渗透率、产能等
最近在变什么	政策、技术、供需关系、竞争格局变化

如果能在 1 小时内把这些信息沉淀成数据库，你已经比“看了一堆文章但脑子没图谱”的状态强很多了。

三、先建模型，再让 Codex 去找答案

很多人一上来就问 AI：“帮我分析一下光伏行业。” 这种问法通常只能得到一篇还算像样的综述，但很难形成可复用的调研资产。

更高效的做法，是先定义数据库结构，再让 Codex 按结构填充。

1. 行业数据库最小模型

对于大多数行业，先从这 6 张表开始就够用了：

industry_overview：行业总览
value_chain：产业链环节
companies：主要公司
products_services：产品与服务
metrics：关键指标
events_trends：政策、技术、供需变化

可以先用表格、Notion、Airtable，或者直接用 SQLite / PostgreSQL。如果只是快速启动，Notion 足够；如果后面要做检索、标签、引用追踪，SQLite 反而更稳。

下面给一个简化版 schema 示例。

-- 示意代码：行业数据库最小结构
CREATE TABLE industry_overview (
  id INTEGER PRIMARY KEY,
  industry_name TEXT,
  definition TEXT,
  business_model TEXT,
  market_scope TEXT,
  source_url TEXT,
  source_title TEXT,
  updated_at TEXT
);

CREATE TABLE value_chain (
  id INTEGER PRIMARY KEY,
  industry_name TEXT,
  segment_name TEXT,
  upstream_downstream TEXT,
  main_players TEXT,
  key_features TEXT,
  source_url TEXT,
  updated_at TEXT
);

CREATE TABLE companies (
  id INTEGER PRIMARY KEY,
  industry_name TEXT,
  company_name TEXT,
  segment TEXT,
  role_in_chain TEXT,
  core_products TEXT,
  revenue_model TEXT,
  notable_metrics TEXT,
  source_url TEXT,
  updated_at TEXT
);

CREATE TABLE metrics (
  id INTEGER PRIMARY KEY,
  industry_name TEXT,
  metric_name TEXT,
  metric_value TEXT,
  metric_period TEXT,
  metric_scope TEXT,
  source_url TEXT,
  updated_at TEXT
);

CREATE TABLE events_trends (
  id INTEGER PRIMARY KEY,
  industry_name TEXT,
  event_type TEXT,
  event_summary TEXT,
  impact_analysis TEXT,
  source_url TEXT,
  updated_at TEXT
);

这个设计不复杂，但它已经足够把行业认知从“文章”变成“数据对象”。

2. schema 比总结更重要

很多团队做到这里会卡住，因为他们习惯了“让 AI 生成一篇完整分析”，但忽略了更关键的东西：字段设计。

字段决定了你后面能不能：

横向比较不同公司
汇总同一赛道的共性
找到上下游关系
跟踪指标变化
做二次问答和自动更新

这和做业务系统很像。表设计烂了，后面全靠补丁；调研数据库也一样。

3. 字段不要一开始就贪多

一个常见误区，是想一次性设计得非常完整，连供应链风险、财务指标、政策影响、海外市场、技术路线全部塞进去。

这在工程上基本等于自找麻烦。

更务实的方式是分两层：

核心字段：行业结构、公司角色、产品、关键指标
扩展字段：专利、资本动作、区域分布、政策约束、替代技术

先把核心字段跑通，再逐步扩展。数据库最怕的不是字段少，而是字段很多但没人维护。

四、用 Codex 跑一轮行业建库流程

如果目标是 1 小时内建立第一版行业数据库，可以按下面这条流水线来做。

流程图 - 用 Codex 搭一套行业认知底座

1. 先收窄行业范围

不要一上来就做“大健康”“新能源”“企业服务”这种大词。范围太大，Codex 输出一定发散。

更好的粒度通常是：

工业机器人减速器
连锁咖啡供应链
跨境支付服务商
医疗影像 AI 辅助诊断
锂电池回收

调研范围越具体，结构化结果越稳。

2. 给 Codex 明确的信息源边界

AI 最怕“自由发挥”。行业调研尤其如此。

建议先指定可信来源类型：

上市公司年报、招股书
行业协会报告
政策与监管文件
头部企业官网
权威媒体采访
券商或研究机构公开报告

可以直接给 Codex 一个任务说明：

目标：建立“工业机器人减速器”行业数据库第一版。

要求：
1. 只优先使用公开且可追溯的信息源：上市公司年报、招股书、企业官网、政策文件、行业协会报告。
2. 对每条结论保留 source_url 和 source_title。
3. 按以下结构输出：
   - 行业定义
   - 产业链环节
   - 主要公司
   - 核心产品
   - 关键指标
   - 最近两年关键变化
4. 如果信息存在冲突，保留多个版本并标注来源，不强行合并。
5. 输出格式为 JSON，字段名与数据库 schema 对齐。

这里最关键的不是提示词写得多花，而是把任务约束写清楚：

来源要可追溯
输出要结构化
冲突信息不要瞎整合
字段要对齐数据库

3. 让 Codex 做抽取，不要让它代替判断

这一步是 trade-off 很明显的地方。

Codex 很适合：

提取公司名称、产品分类、市场描述
汇总同类资料中的共性字段
把散乱网页整理成统一结构

但它不适合直接替你下这些结论：

这个赛道未来一定爆发
某技术路线会胜出
某公司竞争力最强
行业拐点已经确定

这些判断需要更强的上下文、经验和交叉验证。所以更合理的分工是：

Codex 负责收集和结构化
人负责判断和删噪

这个边界很重要。很多人觉得 AI 调研不靠谱，往往不是工具不行，而是把“信息整理工具”当成了“行业顾问”。

4. 关键字段一定要人工过一遍

尤其是这几类字段，建议人工检查：

市场规模与增长率
行业集中度
公司收入和利润
政策发布时间与适用范围
技术路线对比结论

原因很简单：这些字段最容易出现来源口径不一致。

比如同样是“市场规模”，有的按全球算，有的按中国算；有的按出货量，有的按销售额；有的是预测值，有的是历史值。如果不校验，数据库看起来很整齐，实际却不能用。

这也是现实里的一个常见坑：结构化之后，错误会显得更像“真相”。

五、数据库一旦建起来，调研方式会完全变掉

行业数据库最有价值的地方，不是第一次建库，而是后续的持续使用。

1. 你会从“读文章”切到“提问题”

有了数据库之后，调研就不再只是翻资料，而是可以直接问更具体的问题：

这个行业的上游约束主要集中在哪些环节？
哪些公司同时覆盖多个产业链位置？
过去两年政策变化主要影响了哪些业务模式？
哪些企业的收入模式最接近平台型，而不是项目型？
哪些指标最适合作为行业景气度代理变量？

这时候 Codex 的价值会进一步放大。因为它不是从零开始回答，而是基于你已经整理过的数据库做检索、汇总和补全。

2. 你能持续更新，而不是每次推倒重来

传统调研最痛苦的一件事，是一个月后再看，资料又过期了，只能重新搜一遍。

如果数据是按结构存下来的，后续更新只需要盯几个增量源：

新财报
新政策
新融资或并购
龙头公司新产品
行业会议和协会数据更新

这就把一次性调研，变成了可维护系统。

说白了，行业认知一旦工程化，复利才会出现。

3. 数据库能沉淀团队共识

个人做调研，常见问题是：

每个人看了不同材料
术语理解不一致
结论来自不同口径
后来的人很难接上前面的人

数据库可以把团队认知沉淀成统一底座。尤其在做新业务评估、投资研究、销售策略设计、产品进入新行业时，这个价值非常明显。

它不像 PPT 那样看完就归档，而是能持续被引用、校验和扩展。

六、实际落地时，最容易踩的几个坑

1. 一上来就追求“全行业全覆盖”

这基本是最常见的失控点。

行业知识本身是无边界的。你一旦想把所有信息都纳进来，数据库会迅速变成垃圾场。更实用的做法，是围绕一个明确目标建库，比如：

为进入某行业做前置研究
为投资判断建立基础认知
为销售团队准备客户行业地图
为产品经理理解客户业务链路

目标清楚，字段和信息密度才会合理。

2. 不区分事实、观点和预测

数据库里建议至少标一层类型标签：

fact：事实
opinion：观点
forecast：预测

这个看起来是小事，实际很关键。

很多行业材料的问题不是错，而是把预测写得像事实，把观点写得像共识。后面如果不区分，分析就很容易跑偏。

3. 缺少来源追踪字段

如果数据库里没有这些字段，后面基本一定会痛苦：

source_url
source_title
source_type
published_at
extracted_at

行业研究和普通笔记不一样，它非常依赖“可回溯”。你今天相信一条结论，不只是因为它看起来合理，而是因为你知道它从哪来、什么时候写的、是不是一手来源。

4. 过度依赖 AI 自动总结

这个问题我见过不少次。前期效率非常高，几轮下来也确实产出很多内容，但最后大家发现：数据库很满，认知很空。

原因是自动总结会天然压缩细节，而行业判断恰恰很多时候靠细节差异。

比如：

直销和经销的收入质量差别
产能利用率和名义产能的区别
政策鼓励与实际落地之间的时间差
技术路线存在替代关系还是互补关系

这些东西，AI 可以提示你，但不能替你真正吃进去。

七、适合谁用，不适合谁用

这个方法很适合几类人：

角色	使用价值
产品经理	快速理解客户行业结构与业务链路
投研人员	建立赛道基础图谱和跟踪框架
销售/解决方案	理清客户上下游、关键指标和采购逻辑
创业者/业务负责人	判断新行业进入门槛与竞争格局
技术负责人	理解行业数据对象，为系统设计打底

但它也有边界。

如果你需要的是：

深入理解某行业的一线交易细节
获得非公开经营数据
判断真实客户关系和渠道水位
洞察灰色规则、地方政策执行差异

那数据库只能帮你搭框架，不能替代访谈、实地调研和长期观察。

这点得说清楚。工具能提升的是认知起步效率，不是凭空制造行业经验。

八、一个更务实的使用姿势

如果你今天就想试，不妨按这个节奏走一遍：

第 0-10 分钟：确定范围与字段

选一个足够具体的行业切口
定义 5-6 张核心表
明确你这次调研的目标

第 10-25 分钟：给 Codex 建抽取任务

指定可信来源
约束输出格式
要求保留引用与冲突信息

第 25-45 分钟：完成第一轮入库

导入行业总览
导入产业链环节
导入头部公司与产品
导入关键指标与近两年变化

第 45-60 分钟：做人工校验与二次提问

校验关键数字
删除明显营销口径
追问缺失项
输出一版行业地图和问题清单

最后你应该拿到的，不是一份好看的总结，而是三样更有用的东西：

一套可继续维护的行业数据库
一版初步行业地图
一组下一轮调研问题

这三样东西加起来，才是“快速了解陌生行业”真正有复用价值的结果。

很多人把 AI 调研理解成“让工具替我读资料”。这当然有帮助，但还不够。真正能拉开差距的，是把资料处理方式从文档思维切到数据库思维。

Codex 在这件事上的价值，不是神奇，也不是万能。它只是恰好很适合做那些人本来就应该工程化、但过去一直手工做的事：抽取、归档、对齐、更新、追问。

1 小时能不能真正懂一个行业？当然不能。但 1 小时搭起一套行业认知底座，完全可以。而且一旦底座搭对了，后面的理解速度会快很多，问题质量也会高很多。

这比多看十篇碎片化文章，靠谱得多。

用 Codex 搭一套行业认知底座