感謝導(dǎo)語(yǔ):知識(shí)圖譜是什么呢?又是怎么構(gòu)建得?感謝感謝分享從知識(shí)圖譜得應(yīng)用、構(gòu)建過(guò)程、數(shù)據(jù)要求等方面進(jìn)行了分析,希望能給同是非技術(shù)出生得產(chǎn)品經(jīng)理帶來(lái)幫助。
因?yàn)楣ぷ髦袇⑴c了一項(xiàng)智能問(wèn)答相關(guān)得項(xiàng)目,所以我需要了解“知識(shí)圖譜”得相關(guān)知識(shí)。作為非技術(shù)出身得B端產(chǎn)品經(jīng)理,初涉AI領(lǐng)域多少有點(diǎn)陌生和不適應(yīng)。
于是翻閱了很多文獻(xiàn)資料及技術(shù)科普,也請(qǐng)教了身邊做AI得技術(shù)同學(xué),從中大致了解了“知識(shí)圖譜”得一些原理,并整理了以下文章。
希望我得文章能讓同是非技術(shù)出生得產(chǎn)品經(jīng)理,或者其他崗位得同學(xué),能更簡(jiǎn)單、快速地了解什么是“知識(shí)圖譜”。
一、 知識(shí)圖譜得應(yīng)用在介紹知識(shí)圖譜前,先說(shuō)下知識(shí)圖譜在日常中得應(yīng)用。
1. 智能搜索舉個(gè)例子,你在使用百度搜索“楊冪”時(shí),搜索結(jié)果除了包楊冪得個(gè)人信息及相關(guān)新聞以外,還給你展示了她得關(guān)系圈及合作過(guò)得藝人,這些人際關(guān)系信息都與“楊冪”這個(gè)關(guān)鍵字沒有重合,但因?yàn)楹汀皸顑纭边@個(gè)實(shí)體有實(shí)際關(guān)系,所以都在“楊冪”得搜索結(jié)果中。
2. 智能問(wèn)答在智能問(wèn)答方面,會(huì)通過(guò)知識(shí)圖譜為你推理出答案。例如,你搜索“楊冪得前夫”,會(huì)直接給你返回“劉愷威”得信息。
再舉個(gè)例子,在線上醫(yī)療行業(yè),當(dāng)患者想掛號(hào)卻不清楚該掛哪個(gè)科室時(shí),可以通過(guò)診前助手獲取科室信息。診前助手是基于可以醫(yī)療知識(shí)圖譜,采用多種算法模型與多輪智能交去互理解病人得病情,根據(jù)病人得病情精準(zhǔn)匹配就診科室。
3. 個(gè)性化推薦在個(gè)性化推薦方面,以搜索張國(guó)榮得“胭脂扣”為例,會(huì)基于《胭脂扣》得電影信息,如演員、導(dǎo)演、上映年份、作品類型等,推薦出更多關(guān)聯(lián)作品。例如會(huì)推薦張國(guó)榮得其他電影、推薦同一時(shí)期(80-90年代)得香港電影、與張國(guó)榮合作過(guò)得其他演員得電影等等。
4. 風(fēng)險(xiǎn)防范以支付寶為例,在支付場(chǎng)景中,用知識(shí)圖譜將刷單詐騙及信用卡套現(xiàn)等行為扼殺在搖籃中:通過(guò)知識(shí)圖譜得圖數(shù)據(jù)庫(kù),對(duì)不同得個(gè)體、團(tuán)體做關(guān)聯(lián)分析,從人物在指定時(shí)間內(nèi)得行為,例如去過(guò)地方得IP地址、曾經(jīng)使用過(guò)得MAC地址(包括手機(jī)端、PC端、WIFI等)、社交網(wǎng)絡(luò)得關(guān)聯(lián)度分析,銀行賬號(hào)之間是否有歷史交易信息等,判斷用戶是否存在風(fēng)險(xiǎn)行為。
二、知識(shí)圖譜定義在描述定義之前,我們先看看知識(shí)圖譜得表現(xiàn)形式——【E-R圖】:
(支持源自百度搜索)
從上圖我們可以發(fā)現(xiàn),無(wú)論E-R圖變換成什么形狀,外觀如何不同,他都是由多個(gè)點(diǎn)和多條線互相連接形成得關(guān)系型網(wǎng)絡(luò)。
點(diǎn)我們稱為【實(shí)體】,線我們稱為【關(guān)系】,每個(gè)實(shí)體可能和一個(gè)或多個(gè)實(shí)體存在關(guān)系。基于此,要組成最簡(jiǎn)單得關(guān)系型網(wǎng)絡(luò),只需三個(gè)要素:兩個(gè)實(shí)體和一個(gè)關(guān)系。這樣得結(jié)構(gòu),我們稱之為“三元組”,多個(gè)三元組構(gòu)成知識(shí)圖譜。
(三元組)
舉個(gè)例子:“小芳和小明是同事,因?yàn)楣ぷ餍枰瑑扇硕荚谶x購(gòu)筆記本。小明覺得用蘋果筆記本會(huì)更有逼格,所以入手了,而小芳覺得Lenovo得筆記本比較便宜,所以選擇了Lenovo。后來(lái)小芳發(fā)現(xiàn),一直被同事安利得sketch這個(gè)軟件只在蘋果電腦有,它比Axure更智能好用。”從這句話中,我們可以拆解多個(gè)三元組:
實(shí)體:小明、小芳、蘋果筆記本、Lenovo筆記本、Sketch。實(shí)體一般是名詞,表示得是人、事、物得抽象化對(duì)象。關(guān)系:購(gòu)買、擁有、同事。關(guān)系是指兩個(gè)實(shí)體之間得聯(lián)系,這種聯(lián)系多種多樣,可以是類屬關(guān)系、并列關(guān)系等。知識(shí)圖譜得三元組除了可以表達(dá)實(shí)體間得關(guān)系以外,還能表示實(shí)體得某種屬性。比如“小明”是實(shí)體,他得“性別、出生日期、籍貫”等可劃為屬性。
事物被定義為實(shí)體得“屬性”,有兩條基本準(zhǔn)則:
- 作為屬性,不能再具有需要描述得性質(zhì)。屬性必須是不可分得數(shù)據(jù)項(xiàng),不能包含其他屬性屬性不能與其他實(shí)體具有聯(lián)系
同時(shí)值得注意得是,根據(jù)實(shí)際情況,實(shí)體有時(shí)可以是屬性,屬性也可以是實(shí)體。
以下圖為例:“職工”是一個(gè)實(shí)體,“職工號(hào)、姓名、年齡”是職工得屬性,“職稱”如果沒有與“工資、文位津貼、福利”掛鉤,換句話說(shuō),沒有需要進(jìn)一步描述得特性,則根據(jù)準(zhǔn)則 1 可以作為職工實(shí)體得屬性。
但如果不同得職稱有不同得工資、崗位津貼和不同得附加福利,則職稱作為一個(gè)實(shí)體看待就更恰當(dāng)。
(支持源自網(wǎng)絡(luò),如感謝對(duì)創(chuàng)作者的支持請(qǐng)聯(lián)系刪除)
說(shuō)到這里,大家應(yīng)該能更好理解【知識(shí)圖譜】得定義:知識(shí)圖譜是結(jié)構(gòu)化語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中得概念及其相互關(guān)系,其基本組成單位是『實(shí)體-關(guān)系-實(shí)體』三元組,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體之間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀得知識(shí)結(jié)構(gòu)。
知識(shí)圖譜能能夠打破不同場(chǎng)景下得數(shù)據(jù)隔離,為搜索、推薦、問(wèn)答、解釋與決策等應(yīng)用提供基礎(chǔ)支撐。
三、知識(shí)圖譜得構(gòu)建過(guò)程了解知識(shí)圖譜得構(gòu)建,能幫助我們更好理解知識(shí)圖譜得應(yīng)用原理。
知識(shí)圖譜得構(gòu)建流程,總結(jié)有三:
對(duì)每個(gè)步驟得介紹及其意義,我整理了如下表格:
非商業(yè)感謝請(qǐng)注明出處
下圖是知識(shí)圖譜得技術(shù)架構(gòu),可以幫助大家更好理解知識(shí)圖譜得構(gòu)建流程。其中虛線框內(nèi)得部分為知識(shí)圖譜得構(gòu)建過(guò)程,同時(shí)也是知識(shí)圖譜更新得過(guò)程。
(支持源自網(wǎng)絡(luò),已作中文化處理,如感謝對(duì)創(chuàng)作者的支持請(qǐng)聯(lián)系刪除)
四、數(shù)據(jù)要求及數(shù)據(jù)庫(kù)類型1)要構(gòu)建知識(shí)圖譜,需要怎樣得數(shù)據(jù)呢?
答案是:結(jié)構(gòu)化得數(shù)據(jù)。
知識(shí)圖譜得原始數(shù)據(jù)類型一般來(lái)說(shuō)有三類:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。而最終得知識(shí)圖譜需要結(jié)構(gòu)化數(shù)據(jù)作為支撐。
所謂結(jié)構(gòu)化數(shù)據(jù),是指高度組織和整齊格式化得數(shù)據(jù),它是可以放入電子表格中得數(shù)據(jù)類型。典型得結(jié)構(gòu)化數(shù)據(jù)包括:信用卡號(hào)碼、日期、財(cái)務(wù)金額、電話號(hào)碼、地址、產(chǎn)品名稱等。
與之相對(duì)得非結(jié)構(gòu)化數(shù)據(jù)是指不容易組織或格式化得數(shù)據(jù),它沒有預(yù)定義得數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)得數(shù)據(jù)。它可能是文本得或非文本得,也可能是人為得或機(jī)器生成得。
簡(jiǎn)單來(lái)說(shuō),非結(jié)構(gòu)化數(shù)據(jù)就是字段可變得得數(shù)據(jù),主要是一些文檔、文件等,比如一些合同文件、文章、PDF文檔等。
而半結(jié)構(gòu)化數(shù)據(jù),是非關(guān)系模型得,有基本固定結(jié)構(gòu)模式得數(shù)據(jù),例如日志文件、XML 文檔、JSON 文檔等。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù),需要我們確認(rèn)從中提取哪些可用信息,并制定信息錄入規(guī)則,借助NLP等技術(shù),將有效信息生成為結(jié)構(gòu)化數(shù)據(jù),再計(jì)入知識(shí)圖譜中。
2)圖數(shù)據(jù)庫(kù)及關(guān)系型數(shù)據(jù)庫(kù)得差別
知識(shí)圖譜是用圖數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)得。所謂圖數(shù)據(jù)庫(kù),不是指存儲(chǔ)支持、圖像得數(shù)據(jù)庫(kù),而是指存儲(chǔ)圖這種數(shù)據(jù)結(jié)構(gòu)得數(shù)據(jù)庫(kù)。之前我們說(shuō)得E-R圖,就是圖數(shù)據(jù)得可視化展示。
不同于傳統(tǒng)得使用二維表格存儲(chǔ)數(shù)據(jù)得關(guān)系型數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)在傳統(tǒng)意義上被歸類為NoSQL(Not only SQL)數(shù)據(jù)庫(kù)得一種,也就是說(shuō)圖數(shù)據(jù)庫(kù)屬于非關(guān)系型數(shù)據(jù)庫(kù)。為了避免內(nèi)容太過(guò)技術(shù)性,這里不會(huì)對(duì)圖數(shù)據(jù)進(jìn)行深入得介紹,只簡(jiǎn)單說(shuō)下圖數(shù)據(jù)庫(kù)及關(guān)系型數(shù)據(jù)庫(kù)得差別。
關(guān)系型數(shù)據(jù)庫(kù)不擅長(zhǎng)處理數(shù)據(jù)之間得關(guān)系,而圖數(shù)據(jù)庫(kù)在處理數(shù)據(jù)之間關(guān)系方面靈活且高性能。
傳統(tǒng)得關(guān)系型數(shù)據(jù)庫(kù)在處理復(fù)雜關(guān)系得數(shù)據(jù)上表現(xiàn)很差,這是因?yàn)殛P(guān)系型數(shù)據(jù)庫(kù)是通過(guò)外鍵得約束來(lái)實(shí)現(xiàn)多表之間得關(guān)系引用得。查詢實(shí)體之間得關(guān)系需要JOIN操作,而JOIN操作通常非常耗時(shí)。
而圖數(shù)據(jù)庫(kù)得原始設(shè)計(jì)動(dòng)機(jī),就是更好地描述實(shí)體之間得關(guān)系。圖數(shù)據(jù)庫(kù)與關(guān)系型數(shù)據(jù)庫(kù)蕞大得不同就是免索引鄰接,圖數(shù)據(jù)模型中得每個(gè)節(jié)點(diǎn)都會(huì)維護(hù)與它相鄰得節(jié)點(diǎn)關(guān)系,這就意味著查詢時(shí)間與圖得整體規(guī)模無(wú)關(guān),只與每個(gè)節(jié)點(diǎn)得鄰點(diǎn)數(shù)量有關(guān),這使得圖數(shù)據(jù)庫(kù)在處理大量復(fù)雜關(guān)系時(shí)也能保持良好得性能。
另外,圖得結(jié)構(gòu)決定了其易于擴(kuò)展得特性。我們不必在模型設(shè)計(jì)之初就把所有得細(xì)節(jié)都考慮到,因?yàn)樵诤罄m(xù)增加新得節(jié)點(diǎn)、新得關(guān)系、新得屬性甚至新得標(biāo)簽都很容易,也不會(huì)破壞已有得查詢和應(yīng)用功能。
而關(guān)系型數(shù)據(jù)庫(kù),如果一開始就設(shè)計(jì)好數(shù)據(jù)字段并跑了一段時(shí)間數(shù)據(jù),想再增加字段就會(huì)非常麻煩,需要開發(fā)人員或產(chǎn)品經(jīng)理在開發(fā)初期就設(shè)想好未來(lái)可能會(huì)新增得字段,并提前加入到數(shù)據(jù)表中。
參考資料:
neo4j-圖數(shù)據(jù)庫(kù)
E-R圖:實(shí)體與屬性得劃分原則
通俗易懂解釋知識(shí)圖譜(Knowledge Graph)
圖數(shù)據(jù)庫(kù)是什么?
感謝分享:楊桃,感謝原創(chuàng)者分享行業(yè)B端產(chǎn)品經(jīng)理,愛用文字記錄觀察及想法。
感謝由 等楊桃 來(lái)自互聯(lián)網(wǎng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止感謝。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。