徐美蘭:深度運用驅(qū)動的醫(yī)學(xué)常識圖譜建立
導(dǎo)讀:數(shù)研院近年來在知識圖譜建設(shè)方面取得了豐碩的成果。今天分享我們在地圖建設(shè)過程中的經(jīng)驗和體會,歡迎大家討論交流。這次分享的題目是:深度應(yīng)用驅(qū)動的醫(yī)學(xué)知識圖譜構(gòu)建。主要內(nèi)容包括四個方面:國內(nèi)外醫(yī)學(xué)知識地圖發(fā)展、醫(yī)學(xué)知識地圖領(lǐng)域特點及應(yīng)用需求;數(shù)字研究院醫(yī)學(xué)知識圖譜構(gòu)建:模型建立,七巧板本體術(shù)語集構(gòu)建,以及“慧智”圖譜構(gòu)建,醫(yī)學(xué)知識圖譜應(yīng)用案例。
01
國內(nèi)外醫(yī)學(xué)知識地圖的發(fā)展
1.知識地圖概念
知識圖譜的廣義概念:作為一個技術(shù)體系,是指大數(shù)據(jù)知識工程的一系列代表性技術(shù)。
狹義的知識地圖概念:知識地圖作為一種知識表示形式,是一個大規(guī)模的語義網(wǎng)絡(luò),包含實體、概念以及它們之間的各種語義關(guān)系。下圖中的二甲雙胍知識圖譜片段。
2.國外醫(yī)學(xué)知識圖譜
UMLS:美國國家醫(yī)學(xué)圖書館(National 醫(yī)學(xué) Library)自1986年以來研發(fā)的集成醫(yī)學(xué)語言系統(tǒng),包括超級詞匯、語義網(wǎng)絡(luò)、專業(yè)詞典和詞匯處理工具。其規(guī)模:語義網(wǎng)絡(luò)包含133種語義類型和54種語義關(guān)系。超級詞庫包含超過300萬個概念,超過1300萬個概念名稱。
SNOMED CT:2002年1月,SnO med首次發(fā)布。由SNOMED RT和CTV3兩個醫(yī)學(xué)術(shù)語合并而成。SNOMED CT國際版每年1月和7月更新一次。SNOMED CT的核心結(jié)構(gòu)是概念、描述(術(shù)語)和關(guān)系。其規(guī)模:目前包含19個語義類型,50多個語義關(guān)系,35萬個概念,120萬個描述(術(shù)語),110萬個關(guān)系。
3.國內(nèi)醫(yī)學(xué)知識圖譜
CUMLS:中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所基于UMLS開發(fā)的中文集成醫(yī)學(xué)語言系統(tǒng),包括醫(yī)學(xué)詞匯、語義網(wǎng)、構(gòu)建工具和平臺。其規(guī)模:共收錄3萬多個0 醫(yī)學(xué)關(guān)鍵詞,3萬個導(dǎo)入詞,10萬個0 醫(yī)學(xué)術(shù)語,30萬個0 醫(yī)學(xué)詞匯材料。
醫(yī)學(xué)知識服務(wù)體系:由中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所建設(shè),通過對資源的深度挖掘和關(guān)聯(lián)分析,構(gòu)建了知識圖譜、知識情境分析等特色知識服務(wù)和應(yīng)用。其規(guī)模:已發(fā)布疾病與藥物知識圖譜,其中疾病涵蓋心腦血管疾病、呼吸系統(tǒng)疾病、免疫系統(tǒng)疾病、消化系統(tǒng)疾病、腫瘤等。
中醫(yī)知識圖譜:中國中醫(yī)科學(xué)院中醫(yī)信息研究所基于中醫(yī)語言系統(tǒng)(TCMLS)構(gòu)建了中醫(yī)知識圖譜。其類型包括:基于中醫(yī)語言體系的知識圖譜、中醫(yī)美容知識圖譜、中醫(yī)養(yǎng)生知識圖譜、中國臨床知識圖譜。
OpenKG:由中國中文信息學(xué)會發(fā)起的中文領(lǐng)域開放式知識圖譜社區(qū)項目。其主要工作內(nèi)容包括:OpenKG.CN(開放地圖資源庫)、cnSchema(中文開放地圖模式)、Openbae(開放知識地圖眾包平臺)。
02
醫(yī)學(xué)知識地圖的領(lǐng)域特征和應(yīng)用需求
1.醫(yī)學(xué)知識的特性
醫(yī)學(xué)術(shù)語多樣性:不同的知識源使用不同的術(shù)語來表達(dá)同一個概念。比如糖尿病也可以叫糖尿病、糖尿病、DM等。
精度高:醫(yī)學(xué)知識專業(yè)化程度高,醫(yī)學(xué)應(yīng)用場景容錯率低,所以醫(yī)學(xué)知識圖譜要求精度高。
復(fù)雜度高:醫(yī)學(xué)是一門總結(jié)經(jīng)驗的學(xué)問。醫(yī)學(xué)概念的內(nèi)涵往往是豐富的,有些醫(yī)學(xué)知識是復(fù)雜的,很難用簡單的三元組來表達(dá)。
2.醫(yī)學(xué)知識圖譜應(yīng)用場景
醫(yī)學(xué)知識地圖不同的應(yīng)用場景有不同的需求,需要最大化的滿足來提高地圖的適用性。如下所示:
3.定制解決方案
為了滿足行業(yè)深度應(yīng)用的需求,在醫(yī)學(xué)知識圖譜的構(gòu)建中要引入更多的定制化解決方案,如下圖:
03
數(shù)學(xué)研究所醫(yī)學(xué)知識圖譜的構(gòu)建
1.模型機構(gòu)
醫(yī)學(xué)領(lǐng)域的知識圖譜專業(yè)性很強,所以業(yè)界通常采用自頂向下的方式,先構(gòu)建圖式,再提取知識。
研究院的醫(yī)學(xué)知識圖譜模式主要參考了Schema.org、UMLS語義網(wǎng)、cnSchema等。相關(guān)數(shù)據(jù)涵蓋四個主要領(lǐng)域:疾病、藥物、外科手術(shù)和檢查。當(dāng)然,在知識圖譜構(gòu)建過程中,我們會根據(jù)提取和應(yīng)用的實際情況,不斷完善和優(yōu)化圖式。數(shù)研院醫(yī)學(xué)知識圖譜于2019年8月首次發(fā)布了該圖式。目前包含72種語義類型,493種語義關(guān)系。Schema的查詢和下載地址為:http://schema.omaha.org.cn/class/Thing#.
用Schema指導(dǎo)構(gòu)建Tangram 醫(yī)學(xué)本體術(shù)語集和匯智醫(yī)學(xué)知識圖譜,完善醫(yī)學(xué)知識表達(dá)體系。我們之所以在一個模型的指導(dǎo)下建立兩個知識庫,是為了解決不同的問題。Tangram用本體解決邏輯定義(即內(nèi)涵定義)和層次關(guān)系相關(guān)的關(guān)系?!皡R智”用語義網(wǎng)解決可能和經(jīng)驗關(guān)系,沒有層級關(guān)系。詳情請見下圖:
2.七巧板本體術(shù)語集的構(gòu)建。
從整體上構(gòu)建本體術(shù)語集有六個步驟,分別是:
步驟1:確定領(lǐng)域類別。目前正在嘗試構(gòu)建醫(yī)學(xué)知識圖譜,滿足臨床診療需求。主要內(nèi)容:疾病,癥狀和體征,外科手術(shù),檢查,藥物,人體形態(tài)和結(jié)構(gòu),基因,醫(yī)療設(shè)備。
第二步:選擇合適的知識來源。充分包括權(quán)威的知識來源,如當(dāng)前的行業(yè)標(biāo)準(zhǔn)、教科書、指南等。,同時補充臨床病歷、互聯(lián)網(wǎng)診療中的術(shù)語等。
第三步:整理出重要的術(shù)語。整理領(lǐng)域內(nèi)的重要術(shù)語,領(lǐng)域?qū)<覍φZ義實體進(jìn)行規(guī)范化,完成概念化。相關(guān)流程如下:
第四步:建立關(guān)系。Tangram 醫(yī)學(xué)本體術(shù)語集的核心構(gòu)建包括概念、術(shù)語、關(guān)系和映射。如下圖所示:
充分保留知識源中已有的層次關(guān)系,通過機器推理和人工添加進(jìn)行優(yōu)化。挖掘知識源中的屬性關(guān)系,通過機器推薦和人工添加進(jìn)行補充。制定明確的映射規(guī)則,通過機器推薦和專家評審建立映射。
第五步:存儲和瀏覽。關(guān)系數(shù)據(jù)庫分為概念表、術(shù)語表、關(guān)系表、映射表進(jìn)行存儲,保留歷史痕跡。術(shù)語瀏覽器可以實現(xiàn)術(shù)語集構(gòu)建的快速搜索,并可以按需實現(xiàn)子集定制。參見如下關(guān)系操作:
步驟6:平臺和工具支持。自主開發(fā)的知識庫維護(hù)平臺(CoWork),內(nèi)嵌術(shù)語集開發(fā)規(guī)則,支持多人協(xié)作。七巧板在CO中的功能如下: