你好,游客 登录
背景:
阅读新闻

译文|从知识抽取到RDF知识图谱可视化

[日期:2018-05-09] 来源:网络  作者: [字体: ]

介绍

在过去十年,涌现出了很多致力于文本处理自动化的知识抽取系统。这些抽取系统的重要性自不必说,单从网络、社交媒体、博客和期刊上的相关文章数量就可见一斑。为了尽可能多的抽取相关信息,深入研究语义网络和相关的技术非常有必要。这些技术可以大致分为词汇和语义相关(包括RDF(Resource Description Framework)、OWL(Ontology Web Language)、SKOS(Simple Knowledge Organization System))、查询语言相关(SPARQL)、推理相关以及知识链接相关LOD(Linked Open Data)。通过这些技术,我们可以对已经抽取出来的知识进行知识表示、知识访问和知识推理。为了获取这些数据,我们首先基于NLP技术来打造知识抽取系统,然后再基于知识抽取系统,进一步构建知识库。

在本文中,我们展示了这套系统的RDF知识图谱可视化组件。利用这个组件,在给定本体概念或某个实体的情况下,我们可以轻易的构建出子图。实际上我们所抽取到的知识图谱的大小是跟文本的长度呈现正相关关系,因此,知识图谱最终会变得非常大而且非常稠密,对可视化和实际使用形成一定障碍。为了解决这个问题,我们提出了一套方法来可视化所抽取到的知识。

文章的以下部分按照如下方式组织:(1)介绍我们所使用的知识抽取系统,以及该系统所使用的处理方法;(2)呈现可视化图谱的方法。

知识抽取系统

互联网上包含了数量庞大、而且来源各异的文本。然而,这些文本并不能直接被我们的程序使用。GEOLSemantics所开发的知识抽取和表示框架,通过语义处理相关的NLP技术来抽取RDF知识图谱,在该部分的余下内容中,我们将重点介绍该系统的主要处理任务。

深度形态句法分析

深度形态句法分析包含以下几个步骤:

—分词:通过正则表达式的办法将文本切分为字符,从而可以识别出字母、数字和日期等;

—形态处理:对每一个经形态变换过后的词,识别出词干,并赋予一个相应的语法类别;

—命名实体识别:命名实体包括:人名、组织机构名、地名,对这些命名实体的识别有两种办法:(1)词库查询法,该方法需要依赖于公开的LOD(Linked Open Data),包括DBpedia和Geonames;(2)规则法,该方法依赖于特定的谓词表达,比如President、Mister、City、Airport等。

—语义分析:该方法可以表示出一段文本的语义结构,指明了文本中的语法组织结构,如名词-动词-形容词等。实际上还会有其他的一些处理方法,如被动语态变为主动语态、指代消解、否定语义检测、动词时态等,动词时态处理会给出动作的时态信息。

知识抽取

知识抽取需要识别实体和实体之间的关系,这可以通过基于本体的方法来实现。具体来说,我们首先需要定义所需要各种的概念,然后通过这些概念来标记原始文本中的语义项。所需要的步骤可以按以下方式来进行:

—潜在概念选择:该过程包括锚点触发器(Spotting Trigger),触发器是由一个或多个词来触发(包括名词、动词等),这些触发词可以代表特定的语义单元,从而可以用于指导实体抽取。举例来说:对于触发动词“去”就标志着其后可能是地名。每一个触发词都对应着本体的相应类别和一系列的规则。

  • 规则选择:每一个触发词都对应了一系列的规则。被语义分析所识别的各种关系,都会有一个匹配的方法被启动用以进行相关规则的选择;

  • 三元组构建:通过选择的规则,构建三元组,并转化为RDF形式。

集成与融合

在这一步骤中,我们的目标是使得所抽取的知识具有前后一致特性。所采用的步骤如下:(1)共指消歧:将某一个实体的所有实例进行归并,具体描述请参考文献2;(2)相对日期消歧:把所有的相对日期转变为绝对日期,如“今天”、“上周”等;(3)通过上下文环境中,把可推理的隐含信息如日期、地点等进行补全,来完善知识抽取;(4)标签构建:通过形态句法分析所指明的字符位置,获取原始文本中的标签。这样有助于识别每一个实体。

可视化功能

本体描述

在基于RDF三元组的知识表示和本体描述的基础上,文本中的相关信息可以以知识图谱的方式进行表示。当前,我们的本体以OWL的方式来表示,其中包含了数以百计的类和属性。我们还在持续不断的丰富该本体库来支持更多的使用场景和应用领域。主要的类别如下:

  • 命名实体:包括人名、组织机构名、地名、度量单位、日期;

  • 事实性知识:包括专业性经验、研究、家庭关系、个人关系、事件关系、组织关系等;

  • 事件:包括会议、运动、暴力行为、定罪、任命、逮捕等。

对象的属性描述了实体之间的关系,比如个人或组织机构的地址、事件发生的日期或者时间。最后,数据类型属性是文本型,描述了命名实体包括名字、类型和值。

值得注意的是本体的设计非常重要。事实上所有的类和属性都必须以不同的语言进行标签化,从这个角度来说,我们的本体包含阿拉伯语、法语、英语和中文。同样的道理,所有的属性也必须关联到它们各自的领域和范围。

图谱的特征

如果要构建知识图谱,需要满足两个条件,其一是抽取的知识与本体具有一致性;其二是三元组之间要彼此相互关联。在我们的图谱表示中,我们使用图标和标签作为图谱的结点,而不是使用URI。这样方便用户快速的找到所需要的信息,比查阅那种说明性的URI要高效的多。图谱中的边也是通过本体库中所指定的标签来标记。

多语言方面:在本体库中用多种语言定义标签,方便用户用多种语言来可视化图谱,如图1所示。图1描述了从例1中所抽取的知识。通过选择中文,用户可以看到以中文标注的来源于英文文本中抽取到的知识图谱。我们注意到文本实体也是可以翻译为所选择的语言的,不过这里为了表达清晰,我们保持文本实体与原始文本相同。

Example 1. In September 2012, the US consulate in Benghazi was attacked by armed men.

分面搜索:正如我们前文所说,图形化的完整知识图谱非常稠密,而且难以理解。在这里我们提出采用局部子图的方式,可以方便读者直接看到相关的信息,而不至于迷失在完整图谱的信息海洋中。子图的选择有以下两种方式:

  • 概念选择:在可视文本中,我们通过对RDF解析来获取所有的类的实例。因此,我们选择知识图谱中所包含的所有的RDF类型(rdf:type),如例1中的人名、地名、组织机构名、暴力行为和日期。

  • 实例选择:从原始文本中抽取的所有实例都会呈现给用户,为了方便用户更好的选择实例,我们在图谱中直接把实例当做图谱中的结点,而不是用传统的URL。在例1中,所涉及到的实例有:Benghazi、attack、man、September 2012、US consulate。

后续用户还可以选择图的展示深度。这里的深度是指图的层级数,标明了子图可以扩展的最大层次。为了避免聚合效应,我们只显示对象属性所标示的关系。数据类型属性可以通过把鼠标悬浮在相应的结点时显示出来,如图2所示。对于抽取出来的三元组,我们也提供了一个表视图,其中第一列为subject(对应为三元组SPO中的S),第二列为Predicate(对应为三元组SPO的P),第三列为Object(对应为SPO的O)。

实现

我们系统的可视化模块是一个java开发的web接口。整个图谱是通过GraphViz来构建,其中结点代表类的实例、边代表实例之间的关系。GraphViz(细节可以参考文献3)又是通过DOT语言(具体的细节可以参考文献4)作为切入点来构建整个图。图形化的渲染又可以通过不同的方式来实现,包括PNG、PDF、SVG等。文本标签附带有一些实用的特征,包括字体、颜色、大小、超链接、定制化形状。此外,图的布局可以是层次化结构,射线型结构或者圆形结构。当鼠标悬浮在某些位置的时候,我们通过高亮显示触发词的方式,使用javascript脚本来将图谱链接到原始文本中。最后,为了获取类、属性、层次结构和标注信息,我们使用Jena API(详细请参考文献1)来解析本体库。

结论与展望

在本篇论文中,我们展示了一个可视化RDF知识图谱的系统。通过该系统,我们可以方便的选择子图进行可视化。这个特性在由长文本构建的知识图谱可视化中非常有用。我们在文中解释了本体库在知识图谱可视化过程中的应用,本体的使用使得我们的图谱更加清晰,而且还可以通过多语言标注的本体实现文本的多语言翻译。展望未来,我们希望能够像Yago和DBpedia那样,进行更多的RDF抽取,以便于用户通过选择结点的方式,与图谱进行更多的互动。

参考文献

1. Jeremy J Carroll, Ian Dickinson, Chris Dollin, Dave Reynolds, Andy Seaborne, and Kevin Wilkinson. Jena: implementing the semantic web recommendations. In Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters, pages 74{83. ACM, 2004.

2. Mark Dredze, Paul McNamee, Delip Rao, Adam Gerber, and Tim Finin. Entity disambiguation for knowledge base population. In Proceedings of the 23rd Inter-national Conference on Computational Linguistics, pages 277{285. Association for Computational Linguistics, 2010.

3. John Ellson, Emden R Gansner, Eleftherios Koutsofios, Stephen C North, and Gordon Woodhull. Graphviz and dynagraphstatic and dynamic graph drawing tools. In Graph drawing software, pages 127{148. Springer, 2004.

4. Eleftherios Koutsofios, Stephen North, et al. Drawing graphs with dot. Technical report, Technical Report 910904-59113-08TM, AT&T Bell Laboratories, Murray Hill, NJ, 1991.

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款