作者|Walker信息技術(shù)的發(fā)展不斷推動(dòng)著互聯(lián)網(wǎng)技術(shù)的變革,Web技術(shù)作為互聯(lián)網(wǎng)時(shí)的標(biāo)志性技術(shù),正處于這場技術(shù)變的核心。從網(wǎng)頁的鏈接到數(shù)據(jù)的鏈接,Web技術(shù)正在逐步朝向Web之父Berners-Lee設(shè)想中的語義網(wǎng)絡(luò)演變。語義網(wǎng)絡(luò)是一張數(shù)據(jù)

作者 | Walker
信息技術(shù)的發(fā)展不斷推動(dòng)著互聯(lián)網(wǎng)技術(shù)的變革,Web技術(shù)作為互聯(lián)網(wǎng)時(shí)的標(biāo)志性技術(shù),正處于這場技術(shù)變的核心。從網(wǎng)頁的鏈接到數(shù)據(jù)的鏈接,Web技術(shù)正在逐步朝向Web之父Berners-Lee設(shè)想中的語義網(wǎng)絡(luò)演變。語義網(wǎng)絡(luò)是一張數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò),語義網(wǎng)絡(luò)技術(shù)向用戶提供的是一個(gè)查詢環(huán)境,其核心要義是以圖形的方式向用戶返回經(jīng)過加工和推理的知識(shí)。而知識(shí)圖譜技術(shù)則是實(shí)現(xiàn)智能化語義檢索的基礎(chǔ)和橋梁。
一、知識(shí)圖譜的定義、結(jié)構(gòu)與知識(shí)庫
知識(shí)圖譜的概念是由谷歌公司在2012年5月17日提出的, 谷歌公司將以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎,知識(shí)圖譜技術(shù)創(chuàng)造出一種全新的信息檢索模式,為解決信息檢索問題提供了新的思路。本質(zhì)上,知識(shí)圖譜是一種揭示實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事物及其相互關(guān)系進(jìn)行形式化地描述。現(xiàn)在的知識(shí)圖譜已被用來泛指各種大規(guī)模的知 識(shí)庫。
知識(shí)圖譜通常使用三元組的形式來表示,即 G=(E,R,S),其中E={e1,e2,e3,...,en}是知識(shí)庫中的實(shí)體集合,共包含|E|種不同的實(shí)體;R = {r1,r2 ,... ,rn}是知識(shí)庫中的關(guān)系集合,共包含|R|種不同關(guān)系; S?E×R×E代表知識(shí)庫中的三元組集合。三元組的基本形式主要包括實(shí)體1、關(guān)系、實(shí)體2和概念、屬性、屬性值等,實(shí)體是知識(shí)圖譜中的最基本元素,不同的實(shí)體間存在不同的關(guān)系。概念主要指集合、類別、對(duì)象類型、事物的種類,例如人物、地理等; 屬性主要指對(duì)象可能具有的屬性、特征、特性、特點(diǎn)以及參數(shù),例如國籍、生日等;屬性值主要指對(duì)象指定屬性的值,例如中國、1988-09-08等。每個(gè)實(shí)體(概念的外延)可用一個(gè)全局唯一確定的ID來標(biāo)識(shí),每個(gè)屬性-屬性值對(duì)可用來刻畫實(shí)體的內(nèi)在特性,而關(guān)系可用來連接兩個(gè)實(shí)體,刻畫它們之間的關(guān)聯(lián)。
知識(shí)圖譜的架構(gòu)主要包括自身的邏輯結(jié)構(gòu)以及體系架構(gòu),目前,大多數(shù)知識(shí)圖譜都采
用自底向上的方式進(jìn)行構(gòu)建,其中最典型就是Google的Knowledge Vaule,知識(shí)圖譜體系架構(gòu)如下圖所示:
隨著語義Web資源數(shù)量激增、大量的RDF數(shù)據(jù) 被發(fā)布和共享、LOD等項(xiàng)目的全 展開,學(xué)術(shù)界與工業(yè)界的研究人員花費(fèi)了大量的精力構(gòu)建各種結(jié)構(gòu)化的知識(shí)庫。這些知識(shí)庫大致可以分為兩類:開放鏈接知識(shí)庫和行業(yè)知識(shí)庫。開放鏈接知識(shí)庫的典型代表有:Freebase、Wikidata、DBpedia、YAGO;垂直行業(yè)知識(shí)庫的典型代表有:IMDB(電影數(shù)據(jù))、MusicBrainz(音樂數(shù)據(jù))、MusicBrainz(語義知識(shí)網(wǎng)絡(luò))。
二、 知識(shí)圖譜的構(gòu)建
知識(shí)圖譜的構(gòu)建包括三個(gè)步驟:(1)信息抽?。簭母鞣N類型的數(shù)據(jù)源中提取出實(shí)體(概念)、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá);(2)知識(shí)融合:在獲 得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等;(3)知識(shí)加工:對(duì)于經(jīng)過融合的新知識(shí),需要經(jīng)過質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫中, 以確保知識(shí)庫的質(zhì)量。新增數(shù)據(jù)之后,可以進(jìn)行知識(shí)推理、拓展現(xiàn)有知識(shí)、得到新知識(shí)。
(1)信息抽取
信息抽取又名知識(shí)抽取,是知識(shí)圖譜構(gòu)建的第一步,是一種自動(dòng)化地從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù),具體分為:實(shí)體抽取、關(guān)系抽取和屬性抽取。
實(shí)體抽取,也稱為命名實(shí)體識(shí)別,是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別 出命名實(shí)體.實(shí)體抽取的質(zhì)量(準(zhǔn)確率和召回率)對(duì)后續(xù)的知識(shí)獲取效率和質(zhì)量影響極大,因此是信息抽取中最為基礎(chǔ)和關(guān)鍵的部分。實(shí)體抽取的方法大致可以分為三種:基于規(guī)則與詞典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法以及面向開放域的抽取方法。
關(guān)系抽取的目標(biāo)是解決實(shí)體間語義鏈接的問題,早期的關(guān)系抽取主要是通過人工構(gòu)造語義規(guī)則以及模板的方法識(shí)別實(shí)體關(guān)系。隨后,實(shí)體間的關(guān)系模型逐漸替代了人工預(yù)定義的語法與規(guī)則。關(guān)系抽取技術(shù)的目的,是解決如何從文本語料中抽取實(shí)體間的關(guān)系。關(guān)系抽取大致可以分為基于開放式實(shí)體關(guān)系抽取和基于聯(lián)合推理的實(shí)體關(guān)系抽取兩類。
屬性抽取的目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息。例如針對(duì)某個(gè)公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國籍、教育背景等信息。屬性抽取技術(shù)能夠從多種數(shù)據(jù)來源中匯集這些信息,實(shí)現(xiàn)對(duì)實(shí)體屬性的完整勾畫。由于可以將實(shí)體的屬性視為實(shí)體與屬性值之間 的一種名詞性關(guān)系,因此也可以將屬性抽取問題視為關(guān)系抽取問題。
(2)知識(shí)融合
通過信息抽取,實(shí)現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體、關(guān)系以及實(shí)體屬性信息的目標(biāo)。然而,這些結(jié)果中可能包含大量的冗余和錯(cuò)誤信息,數(shù)據(jù)之間的關(guān)系也是扁平化的,缺乏層次性和邏輯性,因此有必要對(duì)其進(jìn)行清理和整合。知識(shí)融合包括兩部分內(nèi)容:實(shí)體鏈接和知識(shí)合并。通過知識(shí)融合,可以消除概念的歧義,剔除冗余和錯(cuò)誤概念,從而確保知識(shí)的質(zhì)量。
實(shí)體鏈接是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作,實(shí)體鏈接的一般流程是:1.從文本中通過實(shí)體抽取得到實(shí)體指稱項(xiàng);2.進(jìn)行實(shí)體消歧和共指消解,判斷知識(shí)庫中的同名實(shí)體與之是否代表不同的含義以及知識(shí)庫中是否存在其他命名實(shí)體與之表示相同的含義;3.在確認(rèn)知識(shí)庫中對(duì)應(yīng)的正確實(shí)體對(duì)象之后,將該實(shí)體指稱項(xiàng)鏈接到知識(shí)庫中對(duì)應(yīng)實(shí)體。
在構(gòu)建知識(shí)圖譜時(shí),可以從第三方知識(shí)庫產(chǎn)品或已有結(jié)構(gòu)化數(shù)據(jù)獲取知識(shí)輸入。例如,關(guān)聯(lián)開放數(shù)據(jù)項(xiàng)目會(huì)定期發(fā)布其經(jīng)過積累和整理的語義知識(shí)數(shù)據(jù),其中既包括前文介紹過的通用知識(shí)庫 DBpedia和 YAGO,也包括面向特定領(lǐng)域的知識(shí)庫產(chǎn)品。知識(shí)合并又可分為合并外部知識(shí)庫、合并關(guān)系數(shù)據(jù)庫兩個(gè)層面。
(3)知識(shí)加工
通過信息抽取,可以從原始語料中提取出實(shí)體、關(guān)系與屬性等知識(shí)要素。再經(jīng)過知識(shí)融合,可以消除實(shí)體指稱項(xiàng)與實(shí)體對(duì)象之間的歧義,得到一系列基本的事實(shí)表達(dá)。然而,事實(shí)本身并不等于知識(shí),要想最終獲得結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識(shí)體系,還需要經(jīng)歷知 識(shí)加工的過程。知識(shí)加工主要包括三方面內(nèi)容:本體構(gòu)建、知識(shí)推理和質(zhì)量評(píng)估。
本體是同一領(lǐng)域內(nèi)不同主體之間進(jìn)行交流、連通的語義基礎(chǔ),其主要呈現(xiàn)樹狀結(jié)構(gòu),相鄰的層次節(jié)點(diǎn)或概念之間具有嚴(yán)格的“IsA”關(guān)系,有利于進(jìn)行約束、推理等,卻不利于表達(dá)概念的多樣性。本體可通過人工編輯的方式手動(dòng)構(gòu)建,也可通 過數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建,然后再經(jīng)質(zhì)量評(píng)估方法與人工審核相結(jié)合的方式加以修正與確認(rèn)。
知識(shí)推理是指從知識(shí)庫中已有的實(shí)體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過計(jì)算機(jī)推理,建立實(shí)體間的新關(guān)聯(lián),從而拓展和豐富知識(shí)網(wǎng)絡(luò)。知識(shí)推理是知識(shí)圖譜構(gòu)建的重要手段和關(guān)鍵環(huán)節(jié),通過知識(shí)推理,能夠從現(xiàn)有知識(shí)中發(fā)現(xiàn)新的知識(shí)。例如已知(乾隆,父親,雍正)和 (雍正,父親,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孫子,乾隆)。知識(shí)推理的對(duì)象并不局限于實(shí)體間的關(guān)系,也可以是實(shí)體的屬性值、本體的概念層次關(guān)系等。例如已知某實(shí)體的生日屬性,可以通過推理得到該實(shí)體的年齡屬性。根據(jù)本體庫中的概念繼承關(guān)系,也可以進(jìn)行概念推理,例如已知(老虎,科, 貓科)和(貓科,目,食肉目),可以推出(老虎,目,食 肉目)。
質(zhì)量評(píng)估也是知識(shí)庫構(gòu)技術(shù)的重要組成部分受現(xiàn)有技術(shù)水平的限制,采用開放域信息抽取 技術(shù)得到的知識(shí)元素有可能存在錯(cuò)誤(如實(shí)體識(shí)別 錯(cuò)誤、關(guān)系抽取錯(cuò)誤等),經(jīng)過知識(shí)推理得到的知識(shí)的質(zhì)量同樣也是沒有保障的,因此在將其加入知識(shí)庫之前,需要有一個(gè)質(zhì)量評(píng)估的過程;隨著開放關(guān)聯(lián)數(shù)據(jù)項(xiàng)目的推進(jìn),各子項(xiàng)目所產(chǎn)生的知識(shí)庫產(chǎn)品間的質(zhì)量差異也在增大,數(shù)據(jù)間的沖突日益增多,如何對(duì)其質(zhì)量進(jìn)行評(píng)估,對(duì)于全局知識(shí)圖譜的構(gòu)建起著重要的作用。引入質(zhì)量評(píng)估的意義在于:可以對(duì)知識(shí)的可信度進(jìn)行量化,通過舍棄置信度較低的知識(shí),可以保障知識(shí)庫的質(zhì)量。
三、 知識(shí)圖譜的應(yīng)用
知識(shí)圖譜為互聯(lián)網(wǎng)上海量、異構(gòu)、動(dòng)態(tài)的大數(shù)據(jù)表達(dá)、組織、管理以及利用提供了一種更為有效的方式,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維。目前,知識(shí)圖譜已在智能搜索、深度問答、社交網(wǎng)絡(luò)以及一些垂直行業(yè)中有所應(yīng)用,成為支撐這些應(yīng)用發(fā)展的動(dòng)力源泉。
基于知識(shí)圖譜的智能搜索是一種基于長尾的搜索,搜索引擎以知識(shí)卡片的形式將搜索結(jié)果展現(xiàn)出來。用戶的查詢請求將經(jīng)過查詢式語義理解與知識(shí)檢索兩個(gè)方面。具體應(yīng)用國外的搜索引擎以谷歌的Google Search、微軟的Bing Search]最為典型;而國內(nèi)國內(nèi)的主流搜索引擎公司,如百度、搜狗等在近兩年來相繼將知識(shí)圖譜的相關(guān)研究從概念轉(zhuǎn)向產(chǎn)品應(yīng)用。
問答系統(tǒng)是信息檢索系統(tǒng)的一種高級(jí)形式,能夠以準(zhǔn)確簡潔的自然語言為用戶提供問題的解答。之所以說問答是一種高級(jí)形式的檢索,是因?yàn)樵趩柎鹣到y(tǒng)中同樣有查詢式理解與知識(shí)檢索這兩個(gè)重要的過程,并且與智能搜索中相應(yīng)過程中的相關(guān)細(xì)節(jié)是完全一致的。目前很多問答平臺(tái)引入了知識(shí)圖譜,國內(nèi)百度公司研發(fā)的小度機(jī)器人,天津聚問網(wǎng)絡(luò)技術(shù)服務(wù)中心 開發(fā)的大型在線問答系統(tǒng)OASK,專門為門戶、 企業(yè)、媒體、教育等各類網(wǎng)站提供良好的交互式問答解決方案。
社交網(wǎng)站 Facebook于2013 年推出了Graph Search產(chǎn)品,其核心技術(shù)就是通過知識(shí)圖譜將人、地點(diǎn)、事情等聯(lián)系在一起,并以直觀的方式支持精確的自然語言查詢,例如輸入查詢式:“我朋友喜歡的餐廳”“住在紐約并且喜歡籃球和中國電影的朋友”等,知識(shí)圖譜會(huì)幫助用戶在龐大的社交網(wǎng)絡(luò)中 找到與自己最具相關(guān)性的人、照片、地點(diǎn)和興趣等。Graph Search提供的上述服務(wù)貼近個(gè)人的生活,滿足了用戶發(fā)現(xiàn)知識(shí)以及尋找最具相關(guān)性的人的需求。
垂直行業(yè)的應(yīng)用以金融、醫(yī)療、電商領(lǐng)域?yàn)榇恚茉斐隽私鹑诜雌墼p、智能營銷、商品推薦的應(yīng)用場景。
結(jié)束語:
在未來的幾年時(shí)間內(nèi),知識(shí)圖譜毫無疑問將是人工智能的前沿研究問題。知識(shí)圖譜的重要性不僅在于它是一個(gè)全局知識(shí)庫,更是支撐智能搜索和深度問答等智能應(yīng)用的基礎(chǔ),而且在于它是一把鑰匙,能夠打開人類的知識(shí)寶庫,為許多相關(guān)學(xué)科領(lǐng)域開啟新的發(fā)展機(jī)會(huì)。從這個(gè)意義上來看,知識(shí)圖譜不僅是一項(xiàng)技術(shù),更是一項(xiàng)戰(zhàn)略資產(chǎn)。
【參考文獻(xiàn)】:
【1】劉嶠, 李楊, 段宏,等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3):582-600.
【2】徐增林, 盛泳潘, 賀麗榮,等. 知識(shí)圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2016, 45(4):589-606.
對(duì)深度學(xué)習(xí)感興趣,熱愛Tensorflow的小伙伴,歡迎關(guān)注我們的網(wǎng)站http://www.panchuang.net 我們的公眾號(hào):磐創(chuàng)AI。