AI 开发实战:把非结构化文本稳定提取成 JSON AI 开发实战把非结构化文本稳定提取成 JSON一、为什么“抽字段”看起来简单做起来很不稳因为文本里的信息天然不规整说法不统一顺序不固定有些字段缺失有些值需要推断如果只是让 AI “提取一下”结果很容易一会儿能用一会儿崩。二、稳定抽取的关键不是模型而是约束最关键的几个点明确字段名明确字段类型明确缺失时怎么填明确禁止输出额外解释抽取后再做程序校验这其实更像“AI 规则”的组合而不是纯生成。三、一个稳定输出 JSON 的 Prompt请从以下文本中提取结构化信息并严格输出 JSON。 要求 1. 只输出 JSON不要解释 2. 缺失字段填 null 3. 日期统一成 YYYY-MM-DD 4. 金额统一为数字 字段定义 - customer_name: string - order_id: string - amount: number - due_date: string | null - issue_type: string | null 文本 {{text}}四、抽取后一定要做校验不要把 AI 的输出直接写库。至少要做JSON 解析校验必填字段校验类型校验枚举值校验日期格式校验只有把校验补上抽取链路才算工程化。五、总结AI 做信息抽取很好用但前提是把输出约束清楚并在后面加程序校验。真正稳定的方案从来不是“模型够强就行”而是“模型输出可控、结果可验证”。