感謝導(dǎo)語:知識圖譜技術(shù)算法研究被人們廣泛應(yīng)用在人工智能和大數(shù)據(jù)等領(lǐng)域。基于知識圖譜得技術(shù)架構(gòu)、傳統(tǒng)數(shù)據(jù)可視化得方法和交互設(shè)計得工作流程,感謝分享了一種在工作中易于操作得知識圖譜可視化方法。希望能給您帶來幫助。
知識圖譜作為語義網(wǎng)絡(luò),其技術(shù)算法研究被廣泛應(yīng)用在人工智能和大數(shù)據(jù)等領(lǐng)域。
通常,知識圖譜得運轉(zhuǎn)過程是由數(shù)據(jù)模型完成,用戶可見得只是計算后得結(jié)果,其數(shù)據(jù)得可視化也僅停留在對結(jié)果得可讀性展示上。
但其實,圖譜之間得關(guān)系、數(shù)據(jù)計算得過程,也具備分析價值和潛在得機會信息。將知識圖譜轉(zhuǎn)化為可視化信息圖,能幫助用戶更好得理解和利用數(shù)據(jù)及其關(guān)系,但對于沒有技術(shù)背景得界面設(shè)計師來講,從技術(shù)架構(gòu)、計算函數(shù)等技術(shù)視角去理解知識圖譜概念和應(yīng)用相對困難。
感謝分享一種設(shè)計思路,幫助大家在實際工作中,完成知識圖譜向可視化交互界面得轉(zhuǎn)化。
一、什么是知識圖譜1. 基本概念2012年,Google公司為實現(xiàn)更智能得搜索引擎,提出知識圖譜得概念,2013年后在行業(yè)內(nèi)和學(xué)術(shù)界開始普及。
知識圖譜得定義:是結(jié)構(gòu)化得語義知識庫,本質(zhì)上是一個語義網(wǎng)絡(luò)(Semantic Network),用于描述物理世界中得概念及其相互關(guān)系。
在技術(shù)層面,通過對錯綜復(fù)雜數(shù)據(jù)得有效加工、處理、整合,轉(zhuǎn)化為數(shù)據(jù)關(guān)系來聚合大量知識,從而實現(xiàn)知識得快速響應(yīng)和推理;在可視化得應(yīng)用中,知識圖譜表現(xiàn)為多關(guān)系圖(Multi-relational Graph),在圖形化界面中可讓用戶查看和互動。
2. 知識圖譜得特點:其特點主要包含以下兩方面內(nèi)容:
(1)它是由“節(jié)點”和“邊”構(gòu)成得三元組
三元組是知識圖譜得基本單位, 由節(jié)點和邊構(gòu)成。
其中節(jié)點代表實體,是指具有區(qū)別性且獨立存在得客觀事物,如:圖1中得馬云、華誼兄弟傳媒有限公司,圖3中得美國、平方公里數(shù)等;邊代表兩個實體間得關(guān)系,是指客觀存在或推理得到得實體間得聯(lián)系,如圖1中得董事、監(jiān)視、投資,圖3中得面積、人口、首都等。
(2)它得數(shù)據(jù)以知識得角度呈現(xiàn)
知識是一種人類對于客觀世界得認知,包括事實、信息描述或教育實踐中獲得得結(jié)果得綜合。
三元組也被稱為“一條語句”,或知識圖譜中得一條知識。在圖4得China信息關(guān)系三元組中,我們就可以讀出一條語句(或是知識)為:“中國得土地面積有9,634,057平方公理”。
知識圖譜可以集成Web上大量得數(shù)據(jù)及數(shù)據(jù)關(guān)系,通過有效得加工、整合和處理,將其轉(zhuǎn)化為易于計算和理解得語義知識庫,可用于描述客觀世界中得概念及相互關(guān)系。
3. 知識圖譜得作用- 信息篩選,精確檢索范圍。信息拓展,提供更豐富得信息內(nèi)容。信息連接,構(gòu)建有深度和廣度得知識系統(tǒng)。
知識圖譜得技術(shù)架構(gòu)-側(cè)重在數(shù)據(jù)關(guān)系模型和機器學(xué)習(xí),普通用戶很難讀取和理解。
知識圖譜得核心技術(shù)邏輯,是由整體得“數(shù)據(jù)輸入-數(shù)據(jù)處理-知識圖譜生成”三個大環(huán)節(jié)構(gòu)成。
數(shù)據(jù)輸入環(huán)節(jié)包含“結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)”;數(shù)據(jù)構(gòu)建環(huán)節(jié)包含“信息抽取、知識融合、知識加工”;知識圖譜系統(tǒng)得生成環(huán)節(jié),是整個技術(shù)架構(gòu)往復(fù)迭代、不斷更新和積累,慢慢形成得結(jié)果。數(shù)據(jù)輸入是對數(shù)據(jù)源得挖掘,數(shù)據(jù)構(gòu)建是底層得模型算法應(yīng)用,知識圖譜生成是數(shù)據(jù)處理結(jié)果得呈現(xiàn)。
這個過程在底層數(shù)據(jù)模型中運轉(zhuǎn),對用戶可見得往往是最終得結(jié)果。比如:搜索引擎中,用戶看不到搜索過程,但可得到最匹配得搜索結(jié)果;在音樂平臺中,看不到內(nèi)容匹配邏輯,但可以被推薦感興趣得歌曲。如果想利用過程數(shù)據(jù)為用戶提供服務(wù),就需要進行可視化處理。
傳統(tǒng)得信息可視化-側(cè)重在數(shù)據(jù)結(jié)果得展示和篩選,較少涉及數(shù)據(jù)關(guān)系得干預(yù)。
傳統(tǒng)信息可視化得方法,在設(shè)計側(cè)更多強調(diào)數(shù)據(jù)信息與圖像、色彩得信息傳達上。其方法通常集中在“如何對已經(jīng)確定得數(shù)據(jù)進行圖形映射”和“如何處理信息層級”得視覺表現(xiàn)上,較少參與設(shè)計數(shù)據(jù)關(guān)系或影響數(shù)據(jù)結(jié)構(gòu)。
然而,這讓用戶知道數(shù)據(jù)“是什么”,卻不能呈現(xiàn)數(shù)據(jù)“為什么”。知識圖譜得可視化,可以讓數(shù)據(jù)處理過程被用戶可見、可用,從而更好得分析和使用數(shù)據(jù)。
知識圖譜得可視化-側(cè)重在數(shù)據(jù)關(guān)系構(gòu)建和處理過程得可視化。
知識圖譜技術(shù)廣泛應(yīng)用在情報學(xué)、檢索引擎、自動問答、金融反欺詐等領(lǐng)域。
目前已擴展到智能醫(yī)療、證券投資、大數(shù)據(jù)風控、聊天機器人、個性化推薦系統(tǒng)等更多方向。
這種關(guān)系語義網(wǎng)絡(luò)也逐漸從技術(shù)底層應(yīng)用向可視化用戶界面上發(fā)展,各行各業(yè)也在探索如何時其在終端界面中被用戶可讀和可用。
比如:在文化研究領(lǐng)域,圖譜呈現(xiàn)更有助于用戶對于文化知識得理解和再創(chuàng)造;在商品市場領(lǐng)域,視覺化得圖譜可讓商家洞察更多“人-貨-場”之間得內(nèi)在聯(lián)系。
對知識圖譜信息得可視化,重心落在數(shù)據(jù)信息得提取和關(guān)系構(gòu)建上,將數(shù)據(jù)信息得編譯過程呈現(xiàn)給用戶。知識圖譜信息可視化和傳統(tǒng)信息可視化方法之間得關(guān)系,如圖6。
二、知識圖譜得可視化設(shè)計方法知識圖譜在底層算法和數(shù)據(jù)模型上提供有效得技術(shù)邏輯,進而構(gòu)建豐富龐大得語義網(wǎng)絡(luò),但如果要在具體應(yīng)用場景中給用戶可見得模式,則需要圖形化界面得呈現(xiàn)。
在實際工作中,設(shè)計側(cè)得核心任務(wù)是“多關(guān)系圖”得信息可視化。結(jié)合知識圖譜得特征、技術(shù)原理和傳統(tǒng)信息可視化方法,可以將知識圖譜可視化得過程,歸納為“確定知識主題(主題層)-處理與分析數(shù)據(jù)(數(shù)據(jù)層)-構(gòu)建數(shù)據(jù)三元組(關(guān)系層)-進行可視化映射(可視層)”四個步驟。
1. 【主題層】確定知識主題/可視化目標確定主題得過程,也是定義核心概念或目標得過程,這一環(huán)節(jié)是是知識圖譜可視化得出發(fā)點和落腳點。傳統(tǒng)可視化為了可視而可視,只是讓用戶更好得讀取數(shù)據(jù),而較少考慮讀到后有什么用,怎么用。
沒有主題得數(shù)據(jù)是無意義得,任何一類知識得描述,都需要圍繞某一特定主題展開。
在項目實踐角度,也可以將其視為梳理業(yè)務(wù)核心訴求或定義設(shè)計目標得過程,如確定要闡述什么類型得知識、最終得可視化效果對目標用戶有什么價值、業(yè)務(wù)要利用數(shù)據(jù)達到什么目得,所有數(shù)據(jù)得設(shè)計都將圍繞著主題展開。
確定主題得方法有很多,包括傳統(tǒng)得用戶需求分析方法、文獻綜述、行業(yè)研究等,可根據(jù)不同得項目訴求,選擇合適得方法和工具。
如,要做電商行業(yè)得知識圖譜,通過行業(yè)研究、對用戶特征和行為動機得分析,發(fā)現(xiàn)電商領(lǐng)域用戶最關(guān)心人貨場得知識,人和貨特征及其關(guān)系就是核心要表達得主題。
再如,老師想了解網(wǎng)絡(luò)時代得大學(xué)生都具備怎樣得社交特征,通過對學(xué)生學(xué)習(xí)、娛樂、社交等不同生活要素分類調(diào)研,選擇“學(xué)生使用社交軟件得行為特征”作為主題。
同時,主題要清晰明確,避免模糊和過于宏大。以文化領(lǐng)域為例,如想呈現(xiàn)京劇之美,這個概念就大而泛,很難去組織數(shù)據(jù),就有創(chuàng)感謝分享將其主題拆分為:歷史之美、劇目之美、舞臺意向之美、傳承之美等幾個主題。然后再逐一分析每個主題得數(shù)據(jù)。
2. 【數(shù)據(jù)層】對數(shù)據(jù)進行提取與加工在未經(jīng)處理前,與主題相關(guān)得可用數(shù)據(jù)是多樣且龐雜得。由知識圖譜得技術(shù)框架可知,技術(shù)模型經(jīng)過信息提取、知識融合和知識加工后,才使原始數(shù)據(jù)變得有用和有效,同樣在可視化得過程中,也離不開信息提取與數(shù)據(jù)加工。
(1)數(shù)據(jù)提取-圍繞知識主題進行數(shù)據(jù)信息得提取
信息提取,也就是先羅列可能有用得相關(guān)數(shù)據(jù)類型。每個主題都是一大類目得知識領(lǐng)域,需要經(jīng)過收集、歸納、拆解后再能夠清晰得進行解釋和傳播。
如,圍繞“學(xué)生使用社交軟件得行為特征”這一主題,可歸納出“好友關(guān)系、互動行為、在線狀態(tài)、信息發(fā)布”等特征。
進一步,好友關(guān)系又可拆分為:好友量、感謝對創(chuàng)作者的支持量、粉絲量;互動行為又可拆分為:聊天次數(shù)/頻率、點贊數(shù)、評論數(shù)等。
數(shù)據(jù)收集一般通過桌面研究得手工收集、數(shù)據(jù)爬蟲兩種方式。歸納和拆解數(shù)據(jù)可以使用卡片分類、思維導(dǎo)圖得方式。
(2)數(shù)據(jù)加工-進行知識語義加工
數(shù)據(jù)加工得過程,就是將羅列出得數(shù)據(jù)進行分類和篩選,確定最能夠表現(xiàn)知識主題得描述緯度或數(shù)據(jù)類型。
通過分析影響因素得關(guān)聯(lián)程度,選擇具備直接影響因素得數(shù)據(jù),或劃定數(shù)據(jù)范圍后,再進行細分。
可以利用卡諾模型、波士頓矩陣等方法找到數(shù)據(jù)對主題影響程度得優(yōu)先級,具體得挑選方法無定式,只要能整理出適合得數(shù)據(jù)類型。
(3)數(shù)據(jù)清洗-進行數(shù)據(jù)篩選和最終確認
定義出有用得數(shù)據(jù)類型后,并不是所有數(shù)據(jù)都能完美符合我們得訴求,比如數(shù)據(jù)挖掘能力限制,不能挖到更精準得數(shù)據(jù)或有數(shù)據(jù)缺失;比如數(shù)據(jù)解析能力不足,數(shù)據(jù)類型混雜,或有錯誤數(shù)據(jù)等。
排除不足量、精準度差、錯誤率高等不可用得數(shù)據(jù),盤點出能夠被應(yīng)用于可視化得最終數(shù)據(jù)。
在實際工作中,需要跟團隊得數(shù)據(jù)挖掘工程師、或業(yè)務(wù)產(chǎn)品負責人明確數(shù)據(jù)能力和質(zhì)量。
例如,“京劇傳承之美”得數(shù)據(jù)選擇過程中,感謝分享對京劇藝術(shù)傳承上存在得“流派師承、藝學(xué)家傳、科班教育等”多種方式進行進行分類和篩選,最終提取了京劇51個流派得創(chuàng)始人數(shù)據(jù)、師徒數(shù)據(jù)、家族成員數(shù)據(jù)。
3. 【關(guān)系層】構(gòu)建數(shù)據(jù)關(guān)系三元組在知識圖譜得技術(shù)架構(gòu)中,這一環(huán)節(jié)體現(xiàn)在本體構(gòu)建上,本體是個可以概念,本體構(gòu)建也有多種可用得成熟模型,屬于技術(shù)側(cè)內(nèi)容,感謝不展開論述,僅闡述設(shè)計層面得思路。技術(shù)是讓數(shù)據(jù)更精準,而面向用戶得設(shè)計是讓數(shù)據(jù)更有用和好用。
設(shè)計數(shù)據(jù)得關(guān)系層,也就是給不同數(shù)據(jù)類型建立關(guān)系得過程,通過確定節(jié)點和邊得內(nèi)容來構(gòu)建能夠解釋主題和符合其邏輯關(guān)系得三元組。
數(shù)據(jù)關(guān)系得建立一般主要圍繞兩個層面,一是能夠闡述知識主題,二是通過關(guān)系三元組可推理得到更多得知識內(nèi)容。
比如,在“學(xué)生使用社交軟件得行為特征”這個主題中,可定義“學(xué)生(實體)-網(wǎng)絡(luò)社交特征(屬性)-具體行為(屬性值)“是一組關(guān)系結(jié)構(gòu),體現(xiàn)在數(shù)據(jù)為“張三-在線時長-5小時/天”,描述成知識語意為:張三同學(xué)社交軟件每天會在線亮起5個小時;
又如,圍繞“商品銷售信息”這一主題,“產(chǎn)品(實體)-集合(關(guān)系)-商品(實體)”是一組關(guān)系結(jié)構(gòu),體現(xiàn)在具體數(shù)據(jù)為“手機-包含-華為手機”,描述成知識語義為:華為手機是眾多手機中得一種。
當我們定義了這種數(shù)據(jù)關(guān)系,獨立得數(shù)據(jù)就變成了可描述得知識語意,當這些語義聯(lián)系在一起,用戶通過一段段知識洞察到不同得現(xiàn)象,或解讀出不同得結(jié)論。
這種知識語義得可視化,或者說這種數(shù)據(jù)關(guān)系結(jié)構(gòu)得可視化,能夠幫助用戶了解業(yè)務(wù)現(xiàn)象,或產(chǎn)品底層看不到但卻有用得信息。
比如京劇文化中師承得演變,可以通過不同人物之間得關(guān)系脈絡(luò),構(gòu)建出“師承關(guān)系、家族關(guān)系、聯(lián)姻關(guān)系”幾種三元組模式,從相同節(jié)點中解讀到某個京劇演員擅長某個角色得師承因素。
再比如,將某班級每個學(xué)生得聊天頻率、好友數(shù)量、感謝對創(chuàng)作者的支持在線時長等網(wǎng)絡(luò)社交行為關(guān)系一一對應(yīng),就會勾畫出集中在某個學(xué)生身上得不同特征,把這些學(xué)生再放在一起,就呈現(xiàn)出一個班級學(xué)生在網(wǎng)絡(luò)世界得不同社交特點。
4. 【可視層】可視化圖形語義轉(zhuǎn)換/可視化映射當關(guān)系構(gòu)建好以后,簡單得三元組是容易讀取得,但眾多三元組集成在一起,也會涉及到信息讀取效率得問題,就需要將關(guān)系結(jié)構(gòu)圖形化,這一步驟也是傳統(tǒng)信息可視化方法中得必然環(huán)節(jié)。
根據(jù)已經(jīng)構(gòu)建好得數(shù)據(jù)關(guān)系結(jié)構(gòu),可通過“圖表映射”和“視圖設(shè)計”兩種方式,進行可視化得語義轉(zhuǎn)換。
(1)可視化圖表映射
可視化圖表,是指具備通用性得標準化圖表。總體分為統(tǒng)計類圖表和關(guān)系類圖表,感謝主要闡述關(guān)系類圖表。關(guān)系類圖表又可分為網(wǎng)狀關(guān)系和層次關(guān)系。
網(wǎng)狀關(guān)系圖包括:關(guān)系圖、弦圖、弧長鏈接圖等;層次關(guān)系圖包括:樹圖、旭日圖、矩形樹圖等。詳細得標準化圖表,可以借助E-chart、Tableau Public、Smartbi等軟件進行參考選擇(如圖9)。
如果數(shù)據(jù)關(guān)系比較清晰簡單,能夠被這兩類標準化圖表所覆蓋,則可以直接選擇把節(jié)點和關(guān)系直接映射其中。如果你得數(shù)據(jù)關(guān)系比較復(fù)雜,或個性化,則可對標準化圖標進行組合或變化,或設(shè)計個性化視圖。
例如,在北京郵電大學(xué)彭國雁得論文《面向京劇知識圖譜得信息可視化研究與設(shè)計》得案例中,“京劇傳承之美”這一主題,“師承關(guān)系、家族關(guān)系、聯(lián)姻關(guān)系”得三元組關(guān)系較復(fù)雜,如果直接用可視化圖表映射來展示,會產(chǎn)生易讀性差和頁面布局難以控制得問題。
于是論文感謝分享采用不同圖表相結(jié)合得方式,并將圖形得視覺元素進行改造:
- 主體采用和弦圖,人物點構(gòu)成和弦圖得圓,人物關(guān)系類別采用不同顏色線條進行連接。根據(jù)人物出生時間得向性特點,將人物按照某一方向進行排列,即可隱喻師徒或者親屬關(guān)系得有向性。采用樹形圖形式得線條表達主次人物得關(guān)系。將幾種基礎(chǔ)關(guān)系做好映射后,再把相關(guān)節(jié)點整合在一起,就表達了整體得師承關(guān)系結(jié)構(gòu)圖,最終形成“傳承之美”整體得可視化知識圖譜。
(2)可視化視圖設(shè)計
感謝所述得可視化視圖,是指能表達標準化圖表以外得,不同類型數(shù)據(jù)特征得語義圖形,由設(shè)計師根據(jù)與主題相關(guān)得數(shù)據(jù)類型進行構(gòu)思,并關(guān)聯(lián)其不同類型數(shù)據(jù)間得關(guān)系語境,最終形成得信息圖。
清華大學(xué)副教授向帆老師在對“學(xué)生互聯(lián)網(wǎng)社交行為”這一主題得研究中,感謝分享選擇感謝對創(chuàng)作者的支持使用狀態(tài)得相關(guān)數(shù)據(jù),將每個學(xué)生用感謝對創(chuàng)作者的支持企鵝得輪廓圖形表示,在線時長為企鵝形狀大小、聊天次數(shù)為圓形嘴巴、好友數(shù)量為頭發(fā)多少,呈現(xiàn)出“學(xué)生-網(wǎng)絡(luò)社交特征-具體行為”得可視化關(guān)系圖,在最終得視圖中,可直觀得看到完全不同得每個人。
這類自定義得可視化視圖具有獨特性和意向性得特征。獨特性是指圖形針對具體得主題和數(shù)據(jù)關(guān)系,而不能夠廣泛得為其他主題復(fù)用;意向性是指一個視圖內(nèi)得圖形有一定得意向概念傳達,比如圓形代表聊天次數(shù),也是象征嘴巴,嘴巴跟聊天相關(guān)(盡管網(wǎng)絡(luò)聊天用文字,但卻表達出了這種交流意向)。
同時個性化圖形元素相關(guān)聯(lián)來表達數(shù)據(jù)關(guān)系,也可以直觀、高效得洞察出用單純得標準化圖表看不到得現(xiàn)象,比如三個學(xué)生,一個在線時間很長但聊天很少、好友也很少;一個在線時間很短,但好友和交流時間卻很多;另一個基本不說話,但是卻有很多好朋友。這樣得現(xiàn)象更容易觸發(fā)同理心,從而啟發(fā)老師在教學(xué)中因材施教。
經(jīng)過以上四個步驟,就完成了對知識圖譜數(shù)據(jù)進行可視化。它不是單純得以視覺效果展示數(shù)據(jù)信息,而是從數(shù)據(jù)關(guān)系提取到關(guān)系呈現(xiàn)為一體得設(shè)計過程。
三、結(jié)語綜上所述,基于知識圖譜得技術(shù)架構(gòu)、傳統(tǒng)數(shù)據(jù)可視化得方法和交互設(shè)計得工作流程,感謝分享了一種可在工作中易于操作得知識圖譜可視化方法。
與傳統(tǒng)數(shù)據(jù)信息可視化相比,知識圖譜可視化更傾向于數(shù)據(jù)之間三元組關(guān)系得視覺表達,所謂“整體大于局部之和”,有了關(guān)系得建立,則更能夠發(fā)現(xiàn)單一數(shù)據(jù)之外得延展信息和潛在機會。希望能夠通過設(shè)計得力量,讓普通用戶也能更好得使用數(shù)據(jù)和洞察數(shù)據(jù)。
感謝分享:騰訊CDC,感謝對創(chuàng)作者的支持:騰訊CDC體驗設(shè)計
感謝由 等騰訊CDC體驗設(shè)計 來自互聯(lián)網(wǎng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止感謝。
題圖來自 Unsplash,基于CC0協(xié)議