知识图谱构建技术的关键点是:
1)知识提取
知识抽取主要是面向开放的链接数据,通常典型的输入是自然语言文本或者多媒体内容文档(图像或者视频)等。然后通过自动化或者半自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
实体抽取:基于百科或垂直站点提取、基于规则与词典的实体提取方法、基于统计机器学习的实体抽取方法、面向开放域的实体抽取方法。
2)语义类抽取:并列相似度计算、上下位关系提取、语义类生成。
3)属性和属性值抽取
属性提取的任务是为每个本体语义类构造属性列表(如城市的属性包括面积、人口、所在国家、地理位置等),而属性值提取则为一个语义类的实体附加属性值。
4)关系抽取
关系抽取的目标是解决实体语义链接的问题。关系的基本信息包括参数类型、满足此关系的元组模式等。