“科学知识图谱”与“Google知识图谱”的区别

2018年5月31日　　来源：情报杂志　作者：　提供人：dddaoz......

2 两类知识图谱的区别

2.1 相关理论渊源以科学主体和学科知识为研究对象的“科学知识图谱”，用图形方式直观呈现科学主体(或学科知识)网络结构、知识单元互动和知识群体演化等隐含的复杂关系，其产生有深刻的理论渊源。相关支撑理论有揭示网络结构和演化关系的“社会网络分析”理论，强调知识创新的“知识单元离散和重组”理论，尤其是科学史和科学哲学领域中，库恩提出的“科学发展模式”理论[14,16]。库恩认为，科学发展进程实质是通过新旧“范式”交替更迭的模式，不断推动科学创新和科学革命。“科学知识图谱”是“跟踪科技前沿、选择科研方向、开展知识管理并辅助科技决策”的重要方法和工具[15]，以助益科技活动、强化知识管理等方式有力地促进了旧范式突破和新范式诞生，从而积极推动科学发展的进程。

作为大数据时代产物的“Google知识图谱”，紧密依存大数据理论，以及关注数据规范性和关联性的本体和语义网理论。由于信息技术飞速发展引起了数据生成，传播与存储方式的巨大变革，为更全面、精准和高效获取知识以及发现创新知识，“Google知识图谱”以本体建模为手段，通过领域概念术语的规范化，推动知识全面共享，借助于语义网络分析理论挖掘并发现新知识，应用语义网知识库关联方法实现海量知识的分布式存储。

2.2 知识管理视角已有的相关研究文献对知识管理的过程划分并不完全一致，但一般包括知识获取(采集)、知识组织、知识存储(检索)、知识共享和知识创新等阶段[17-19]。两类知识图谱的共性在于二者都是服务于知识管理过程，区别在于二者分别参与不同的过程，完成不同的功能，如图1所示，“科学知识图谱”本质是知识管理的方法，一般与知识获取、知识组织、知识共享和知识创新密切相关，“Google知识图谱”本质是知识库，参与了知识获取、知识组织、知识存储和知识创新过程。

图1 基于知识管理的两类知识图谱比较

2.2.1 知识获取以知识收集和整理为主要功能的知识获取是知识管理的首要环节。“科学知识图谱”一般利用已构建的专业数据库，这些数据大多来自于科学引文索引(SCI)、社会科学引文索引(SSCI)、艺术与人文引文索引(A&HCI)、中文社会科学引文索引(CSSCI)等数据库或其收录的核心期刊文献，如美国医学文献数据库(pubmed)、中国知网数据库(cnki)等，数据类型有期刊论文、会议论文、专利、基金、出版物等，这些专业的数据资源具有客观、准确的特点；另外，也将社会媒体数据、网站日志、人物履历数据等不属于文献的数据作为其知识获取的来源。

“Google知识图谱”是从包含各种结构化的数据库(如各类专业数据库)和非结构化的来自于互联网、物联网、云计算平台的海量数据(如图片、视频、日志等)获取知识。应用信息领域的专业工具，如Flume(flume.apache.org)，Kafka(kafka.apache.org)等，将结构化和非结构化数据导入和整合，并通过抽取、转换和装载工具(Extraction,Transformation,Loading,ETL)形成结构化的知识。

2.2.2 知识组织知识组织是指对获取的知识进行表示、分类、编码使其有序化，以利于知识应用和管理，应用信息技术对知识建模是知识组织的核心环节[19]。“科学知识图谱”一般使用社会网络建模方法：基于各类专业数据库中的知识，依据相关需求，如科学家合作研究、引文分析、生物模块预测等，将知识抽象成节点，而节点之间的关系抽象成边，从而构建成网络模型，各类模型因节点关系的不同而具有不同的网络结构。如科学家合作网络可以将科学家作为抽象节点，以是否共同发表论文确定节点间是否存在边连接，构建社会网络分析模型。相关的建模工具有Ucinet(www.analytictech.com/ucinet/)，Pajek(vlado.fmf.uni-lj.si/pub/networks/pajek/)等。

在知识组织过程中，“Google知识图谱”一般首先分析实体(即现实世界的各种概念)的元数据(即实体属性，用于表述实体的特征)，依据元数据构建本体模型，再依据实体之间语义关联构建语义网。按照语义网的构建规则，每个实体有唯一标识符(identifier)，实体之间存在关联，也称作关系(relation)。“Google知识图谱”一般以图(graph)模型来描述语义关系：其中的节点表示实体，而节点之间的边用来刻画属性或关系。实体、属性和属性值以W3C提出的资源描述框架RDF[20]或属性图(property graph[21])为构建规则，构成语义三元组，是语义网基本单位。在大数据背景下，大量的语义三元组的相互链接即构成大规模的语义网络知识库，其中本体建模工具有Protégé(protege.stanford.edu)，WebOnto(kmi.open.ac.uk/technologies/name/webonto)；语义网建模工具有D2R(d2rq.org/d2rserver)，LMF(code.google.com/p/lmf/)等。

2.2.3 知识存储知识存储是将知识存储到各种载体，如书籍、期刊或数据库中。“科学知识图谱”本质是知识管理的分析方法，一般较少涉及知识存储过程。

“Google知识图谱”本质是以语义三元组为基础的结构化的海量知识库。依据知识应用目的可以分为通用知识图谱和行业知识图谱，如表1所示。通用知识图谱一般指常识性知识，如维基百科(Wikipedia)、百度知心等百科类知识库，其中“Google知识图谱”已经包含超过5亿个实体，35亿个属性和相互关系；行业知识图谱则是指具有行业领域知识特征的结构化知识库，如Geonames知识库是存储基因组本体的知识库，Linked Movie Database是存储影视本体的知识库，阿里巴巴知识库则是存储商品本体的知识库等。

2.2.4 知识共享和知识创新知识共享和创新阶段主要涉及个体或组织(或群体)的知识学习以及知识传播，关注创新型知识的产生环境、机制和方法。“科学知识图谱”侧重于知识共享，兼具知识创新功能，而“Google知识图谱”则只偏重于知识创新。基于社会网络分析方法，“科学知识图谱”依据社会网络模型和聚类分析工具，能准确构建成员关系密切的社区及发现社区关键人物，在此基础上构建知识共享的网络路径，如通过社区中的关键人物共享和传播知识；基于cytoSpace(www.cytoscape.org/)和visAnt(visant.bu.edu/)等网络可视化平台，“科学知识图谱”能应用聚类等算法从纷繁复杂的知识网络中发现创新型知识，借助可视化工具清晰展示知识结构和脉络，绘制知识地图，以导航方式显示知识之间的重要动态联系，方便用户把握知识来源、知识流动和知识汇聚过程的来龙去脉。

“Google知识图谱”的长处是应用机器学习算法发现创新型知识。通过关联规则、图聚类等算法，分析所构建的语义网知识库，形成创新型知识，在此基础上基于实体检索方法提供智能检索和个性化推荐功能，为用户提供高质量的知识服务。

2.3 适用研究领域除了本文重点讨论的图书情报领域之外，“科学知识图谱”的应用主要还集中在科学学、管理学和教育学等诸多领域。用于展示各领域的学科结构，可视化学科研究内容，揭示学科间的关系，以及识别和分析学科发展新趋势和预测学科前沿等。尤其对于科学学领域，在梳理科学发展历史，描述以科学家(团体)为代表的科学主体之间的科研合作情况，以及科技政策辅助分析和决策咨询等方面发挥日益重要的作用[22-23]。

“Google知识图谱”的应用重点集中在信息科学领域，依照万维网联盟W3C制定的领域本体规范，主要由大型互联网企业构建实施，以推进知识创新和提供高水平知识服务为目标，目前涉及的行业和部门有证券、医疗、商业、娱乐、图书馆和情报行业等。

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。