Trust and Privacy in Knowledge Graphs | Companion Proceedings of The 2019 World Wide Web Conference
1引言
“知识图谱”(KG)一词是由谷歌在2012年提出的,尽管至今还没有一个精确的定义。然而,在此之前,基于图形的数据库是可用的(例如,Wordnet [ 23]、DBPedia [ 19]、Yago [ 34]、CYC [ 20]、NELL [ 7]和其他一些(例如ConceptNet [ 32])继续定期创建。
虽然图模型或一些变体已经在几个KG中使用,但已经观察到仅使用节点作为信息的“颗粒”太低,无法表达复杂类型的信息,例如事件或时变数据。例如,维基数据[ 38]是围绕由语句集合[ 12]描述的条目组织的。具有更复杂的“颗粒”的另一个原因是记录起源(Meta)数据,这是某些领域(如生命科学)数据的基本部分[ 17]。
幼儿园的建造方式(人口)也不同。一些是精心策划的(例如,CYC),其他依赖于众包信息(例如维基数据);大多数从结构化,半结构化或文本信息中提取信息,这些信息来自网络。
来源的多样性和各种提取方法自然引起了数据质量问题,并使幼儿园的数据用户面临是否信任从幼儿园获得的信息的问题。对于某些类型的信息,例如在线评论和社交媒体,这种信任可以对商业成功产生直接影响(例如[ 2])。这强调了这样一个事实,即数据最终表达了某个代理人的信念、观点或观点。
从更广泛的角度来看,信息(和知识)已经成为第三次工业革命(也称为数字时代)的主要资源-数字技术使生成,处理和共享信息的新方式成为可能[ 26] [ 9],并且随着我们进入第四次工业革命(4 IR)[ 28],信息(和知识)变得更加重要。4 IR的特点是技术融合,这模糊了物理,数字和生物领域之间的界限。
系统和应用程序越来越多地在信息流直接影响数十亿人日常生活的环境中运行,其中出现了使用此类信息的两个基本特征-透明度和隐私。
透明度可以被视为一种质量,使社区的参与者能够了解在其运作中使用的特定进程和代理人。它通常被认为是在这个社区内实现制衡的一种手段,最终为参与者之间的信任提供基础。考虑到社区是整个社会,这些制衡反映在其政治制度中,以防止任何有关各方滥用。
为提高政治制度透明度而建立的机制之一是颁布立法,确保其成员有权在各种情况下获得信息,从政府编制的信息和数据到与消费者有关的货物和产品信息,以及个人自由创造、出版和获得信息的权利。
另一方面,信息的自由流动可能与另一项基本人权--隐私权--发生冲突。隐私有许多定义[ 24],但本质上它们都是指个人控制他人如何使用有关他/她的信息的权利。
为了处理大量往往相互冲突的跨领域问题,互联网应用程序和系统必须纳入适当的机制,以确保遵守道德和法律的原则。
为了有效,我们声称知识图谱的使用必须支持这些问题-信任,隐私和透明度。在本文中,我们提出了一个框架,使这种支持。
2背景概念
在详细介绍我们的框架之前,我们简要介绍我们对每个基本问题的定义。我们在其他出版物中详细介绍了其中的每一项,并在每个小节中引用。
2.1信任
自90年代初互联网普及以来,信任问题一直在互联网中流行(参见[ 14]的调查),重点关注互联网架构的较低层,强调身份验证。最近,随着Web和社交网络的出现,网络领域和整个社会已经受到互联网中的新闻网站和社交网络中流动的信息(和错误信息)的严重影响。有许多研究在几个学科中进行,试图描述和理解信息在网络领域的传播,以及它如何影响社会(见[ 21]的概述)。
语义Web的最初愿景包括一个“信任”层,尽管它的重点更多地是通过数据的静态信任度量进行身份验证和验证。在表示信任方面有很多努力,包括计算模型-一般调查可以在[ 25]中找到; [ 3]提出了一个很好的语义网早期调查;[ 30]调查了社交网络中的信任。在关联数据世界中,很明显&#x