如何构建健康知识图谱?
可将医学知识图谱构建技术归纳为五部分,即医疗知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库。
1)医学知识表示。知识表示是为描述世界所做的一组约定,是知识符号化、 形式化、模式化的过程,主要研究计算机存储知识的方法, 其表示方式影响系统的知识获取、存储及运用的效率。在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准)。疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。这些都是知识图谱的构成。
2)医学知识融合。在医疗领域,Dieng-Kuntz 等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次。Baorto 等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到 MED( Medical Entities Dictionary),同时建立审计流程以保证引入数据的一致性。
3)医学知识推理。医学知识图谱必须处理大量重复矛盾的信息,这就增加了构建医学推理模型的复杂性。 传统的知识推理方法有基于描述逻辑(Description Logic, DL)推理,基于规则推理(Rule-based Reasoning,CBR)与基于案例推理(Case-based Reasoning,CBR)等等。Bousquet C 等人使用基于 DAML+OIL 描述逻辑执行术语推理来改进药 物警戒系统中信号检测;Chen R 等人采用 RBR 方法开发出糖尿病诊断系统以提供用药建议;CARE-PARNER 系统则是基于CBR给出诊断结果与治疗方案等等。
4)质量评估。医学领域,本体评估方法因应用场景而异:Clarke 等人使用基于任务评估方法来分析基因本体的从 2004 至 2012 年的性能;Bright 等使用本体设计原则和领域专家审查意见 作为指标来评估本体在抗生素决策支持系统中的效果;Gordon 等通过将电子病历,诊断案例和临床实践等来构造“黄金标准”来评估,改进传染疾病本体 BCIDO等。为方便用户进行本体评估和加快本体评估自动化进程,本体评估工具封装了评估方法。不同的工具从不同的视角对本体的不同指标进行评估。针对评估的侧重点,选择合适的工具才能对本体作出 符合应用要求的评估。 比较常用的本体评估工具有:ODEval,OOPS,OntoManager,Core等。除了医学本体,医学知识图谱还涵盖其他复杂多样的信息,因此,质量评估还包括对数据质量, 专家信息,知识库等方面进行评估。