Patent Data Model

构建AI驱动的专利分析系统:
多层数据对象模型

Introduction

传统将专利视作静态 PDF 的观念,已无法满足 AI 时代的深度检索、趋势分析与推理需求。必须把专利重构为可计算、可分析、可推理的智能数据对象,为后续的多层数据建模打下基础。

本文以多层数据对象模型为主线,从标识、时间、主体到关系、语义与 LLM 推理,帮助系统架构师、数据科学家与产品经理建立一套可落地的专利数据化思维框架。

方法论 AI 驱动

从“PDF 文档”到“智能数据对象”,我们不再只关心一篇专利“写了什么”,而是关心它在数据层面“是什么”以及“可以被怎样计算、分析和推理”。

1. 引言:范式革命

为专利释放真正价值,需要高度结构化与多层次的数据建模,才能支撑高级分析与自动推理。这意味着,我们需要从信息架构的角度重新设计“专利数据模型”。

1.1 目标与受众

面向系统架构师、数据科学家、产品经理,提供从非结构化文献到精细化数据对象的实施指南,帮助构建可扩展、可计算的专利知识底座。

1.2 方法与思路

通过对专利不同维度进行拆解与建模,将“文档”转换成由标识、时间、主体、分类、文本、附图及语义等多层对象组成的综合数据体系。

2. 第一层:你是谁?—— 标识层(Identification)

为全球海量专利赋予无歧义的标识,保证一致性与可追溯性,是所有分析的基石。

  • 为每一件专利建立唯一身份;
  • 保证跨库、跨国家的对齐;
  • 支撑后续全部技术与法律分析。
关键字段定义作用
申请号专利局受理时的编号公开前追踪通信与法律事件的唯一索引
公开号/授权号公开或授权阶段的编号对外数据交换与引用的标准标识
国家/地区代码CN, US, EP 等区分不同法域,支撑全球布局分析
专利族ID关联同族专利的ID聚合分析同一发明,避免重复统计
PCT号《专利合作条约》国际申请编号洞察技术全球化意图与市场范围

3. 第二层:你何时出现?—— 时间层(Temporal)

时间刻度直接影响法律有效性与市场价值,为演进分析与时机决策提供基准。

关键字段定义作用
申请日提交日期技术成熟度与新颖性判断基准
公开日首次公开日期触发情报监控与预警的起点
授权日授予日期权利行使周期起点,影响价值评估
最早优先权日最早提出的日期确立发明起源与演进起点
到期日保护期届满日期FTO与到期监控的核心锚点

4. 第三层:谁在做?—— 相关主体层(Entity)

实体标准化是竞争格局与人才分析的生命线。

关键字段定义作用
申请人/权利人拥有或申请专利的主体竞争对手分析核心;需别名合并与母子公司归一
发明人做出创造性贡献的人核心人才追踪与团队分析
国家或地区主体所属法域宏观创新力与政策分析基础
申请人类型企业/高校/科研/个人区分不同研发模式与转化路径

5. 第四层:你属于哪一类?—— 分类层(Classification)

分类号是跨语言、跨文本、跨国家的技术锚点,支撑检索、统计与对齐。

核心字段

IPC CPC 主/附加分类号 层级(部→类→小类→组) 版本号

分类层定义专利在全球统一技术坐标系中的位置,是专业检索、统计分析和技术对齐的关键入口。

6. 第五层:你在说什么?—— 全文文本层(Text)

需对标题、摘要、说明书、权利要求进行结构化拆件,不同部分承载不同技术与法律功能。

6.1 基础文本字段

关键字段定义作用
标题发明主题概括初步筛选与实体链接基础
摘要技术问题与用途简述语义检索与向量化核心语料
说明书技术细节、背景与实施方式深度技术理解与数据抽取权威来源
权利要求书界定保护范围的法律文本侵权、无效与价值评估的唯一法律依据

6.2 进阶拆解字段

关键字段定义作用
独立权利要求独立限定完整方案评估保护范围与规避难度的关键输入
从属权利要求对其他权利要求的限定构建技术演进树与细节深度理解
第1项权利要求最重要的独立权利要求高价值分析与摘要的聚焦对象
说明书背景技术现有技术描述理解技术问题与创造性的上下文
发明目的与技术效果要解决的问题与效果生成技术优势摘要与创新高度评估的输入

7. 第六层:你怎么画?—— 附图层(Drawing)

在装置和系统类专利中,附图的技术信息密度甚至可能高于文字。一个成熟的专利数据系统会为附图单独建模,以挖掘其深层价值。

  • 每一张图的编号(Fig.1, Fig.2…):附图的唯一标识。
  • 附图说明文字(Brief Description of Drawings):对每张图内容的官方简要说明。
  • 图中标号及其含义:例如标号 101 代表“处理器”,102 代表“存储器”。

更高阶的应用会对附图进行深度结构化,生成“模块列表、部件关系、结构复杂度指标”等工程化数据。这正是区分普通分析与“深度专利分析”的分水岭——标志着分析从简单计数,迈向对技术方案工程蓝图的理解。

关键字段定义作用
附图数量总数评估对结构/流程的依赖程度
附图编号如 Fig.1建立图与文本的精确链接
附图说明简要解释提供图像理解的文本线索
图中标号及含义部件数字及定义组件化解析与结构对比的基础
图与权利要求映射图示与特征对应连接法律语言与物理结构

高阶结构化

模块列表 部件关系 结构复杂度指标

解析部件连接与拓扑,生成可量化的结构复杂度,提升对保护范围与实现路径的理解。

8. 第七层:你还活着吗?—— 法律状态层(Legal Status)

法律状态直接决定商业壁垒与风险,是 FTO、估值与许可谈判的一票否决项。

关键字段定义作用
当前法律状态有效/失效/终止/审查中等商业分析与风险门控
年费状态维持费缴纳记录预测未来状态,预警放弃行为
授权/撤回/无效事件生命周期关键事件提供权利稳定性的历史证据
法律事件时间线按时间序列的事件支持FTO与历史风险判断

9. 第八层:你和谁有关?—— 关系层(Relationship)

将孤立专利连接为网络,支撑演进路径、影响力与布局策略分析。

8.1 优先权关系

字段:是否主张、优先权国家与日期

还原技术起源,构建演进时间线。

8.2 同族关系

字段:成员数量、覆盖国家、法律状态

反映全球布局与商业重视度。

8.3 引证关系

字段:前向/后向引证、NPL

评估技术影响力,描绘从基础到应用的路径。

10. 第九层:你怎么保护?—— 延伸结构层 (Extended Structure)

这一层直接解构专利的保护逻辑,将其视为一项工程设计。字段包括独立权利要求数量、从属权利要求数量、权利要求依存关系,以及对权利要求的核心技术特征组合的拆解。

它直接决定了一件专利的保护范围、技术深度和被规避的难度,是评估专利“硬度”的关键。

关键字段定义作用
独立权利要求数量独立项总数衡量保护广度,多维防御布局
从属权利要求数量从属项总数体现技术深度与备选方案
权利要求依存关系树状引用结构生成权利要求树,计算深度复杂度
技术特征拆解结果特征列表侵权筛查与重叠度分析的基础
核心技术特征组合最少必要特征集判断规避难度,支撑估值与SEP分析

11. 第十层:AI如何看你?—— AI与语义层(AI & Semantic)

在 AI 时代,专利必须变得“可计算”。通过引入文本向量、主题或技术路线标签、专利聚类结果等字段,机器可以像计算数字一样计算专利文本。

这一层让检索从“关键词匹配”升级为“语义理解”,为精准相似度搜索和大规模技术聚类分析提供基础。

关键字段定义作用
文本向量BERT等模型的高维向量语义相似度、向量检索与推荐核心
主题/技术路线标签聚类或分类生成的标签宏观呈现领域结构,辅助趋势预测
专利聚类结果无监督聚类归属发现热点、空白区与跨界融合机会

12. 第十一层:LLM能理解你吗?—— LLM推理层(LLM Inference)

这是最前沿的一层,大型语言模型(LLM)开始像专家一样“阅读”和“提炼”专利。

这一层产生的字段包括核心发明点、技术问题、技术方案以及推理依据(reason 字段)等推理结果,而非原始事实字段,它们为更高维度的技术洞察提供了可能。

关键字段定义作用
发明点列表区别于现有技术的创新点高信噪比摘要,降低认知负荷
核心发明点最关键的单一创新点估值、分类与高质量摘要的核心依据
技术问题待解决的痛点/缺陷理解动机与应用场景,匹配需求
技术方案核心解决思路抽象实现原理,便于跨领域类比
技术效果采用方案后的有益效果量化价值主张,提取KPI
推理依据对应原文段落保证可追溯与可信度

13. 多层数据对象的整合视图

专利的本质是动态、多层次的数据对象;PDF 只是表层,结构化字段才是价值所在。

  1. 标识 → 时间 → 相关人 → 全文 → 附图
  2. 法律状态 → 关系 → 延伸结构 → AI语义 → LLM推理
Patent Data Object Model Matrix • AI-Driven Architecture

本文尝试回答的,其实不是“专利里写了什么”,而是一个更底层的问题——一件专利在数据层面究竟是什么。

当我们把专利从一篇 PDF 文档,拆解为标识、时间、主体、分类、文本、附图、法律状态、关系、结构、语义与推理这 十一层数据结构 时,专利的本质也随之发生了转变:它不再只是供人阅读的技术说明,而是一个可以被定位、被计算、被关联、被推理的技术数据对象。

这种转变带来的直接结果是:

  • 检索 不再依赖零散关键词,而是建立在分类体系与结构化字段之上
  • 分析 不再停留在个案理解,而可以上升到技术路线与产业格局
  • 判断 不再凭经验直觉,而能够结合法律状态、权利结构与关系网络
  • AI 不再“猜测专利含义”,而是基于语义向量与推理结果进行系统性理解

从这个角度看,真正拉开差距的,并不是是否读完了说明书全文,而是——是否具备把专利拆解为数据、再把数据重组为认知的能力。

对于从事专利检索、技术情报、知识产权管理,或正在构建 AI+专利系统的人来说,这十一层结构提供的不是一套固定答案,而是一种长期可复用的分析框架。

当你开始以数据结构而非文档形式看待专利时,你已经不再只是“在查专利”,而是在使用专利、理解技术、判断未来。