知識圖譜是一種大規(guī)模語義網絡,已經成為大數據時代知識工程的代表性進展。知識圖譜技術是實現機器認知智能和推動各行業(yè)智能化發(fā)展的關鍵基礎技術。知識圖譜也成為大規(guī)模知識工程的代表性實踐,其學科日益完善。本書是一本系統(tǒng)介紹知識圖譜概念、技術與實踐的書籍。全書共五篇,由16章構成,力求涵蓋知識圖譜相關的基本概念與關鍵技術!盎A篇”介紹知識圖譜的基本概念、內涵與外延、歷史沿革、應用價值,以及相關的基礎知識!皹嫿ㄆ敝攸c介紹大規(guī)模高質量知識圖譜的自動化構建技術,涵蓋詞匯挖掘、實體識別、關系抽取及概念圖譜構建、百科圖譜構建、眾包構建與質量控制等專題!肮芾砥毕到y(tǒng)地闡述了知識圖譜建模與存儲、查詢與檢索,以及圖數據管理系統(tǒng)!皯闷睂τ诨谥R圖譜的關鍵應用技術展開介紹,包括搜索與推薦、自然語言問答,以及基于知識圖譜的自然語言理解。“實踐篇”介紹知識圖譜實踐中的基本原則和有用實踐,初步討論了知識圖譜實踐中的開放性問題。
主要作者 肖仰華 博士,復旦大學教授、博士生導師、復旦大學知識工場實驗室創(chuàng)始人。曾擔任多家企業(yè)高級技術顧問與首席科學家。曾獲得十多個國家、省/市、企業(yè)級的研究獎項,曾承擔三十多項國家、省/市、企業(yè)級研發(fā)項目。在國際頂級學術會議與期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、ACL、TKDE等)發(fā)表論文百余篇,授權近20項知識圖譜專利。擔任多個國際期刊編委,百余次為國際/國內學術機構/會議提供學術服務工作。領導構建了知識工場平臺,發(fā)布了一系列知識圖譜包括CN-DBpedia、CN-Probase等。
第1篇 基礎篇
第1章 知識圖譜概述 2
1.1 知識圖譜的基本概念 2
1.1.1 知識圖譜的狹義概念 3
1.1.2 知識圖譜的廣義概念 8
1.2 知識圖譜的歷史沿革 10
1.2.1 知識圖譜溯源 10
1.2.2 大數據知識工程 13
1.3 知識圖譜的研究意義 16
1.3.1 知識圖譜是認知智能的基石 16
1.3.2 知識引導成為解決問題的重要方式之一 19
1.4 知識圖譜的應用價值 20
1.4.1 數據分析 20
1.4.2 智慧搜索 21
1.4.3 智能推薦 22
1.4.4 自然人機交互 23
1.4.5 決策支持 23
1.5 知識圖譜的分類 24
1.5.1 知識圖譜中的知識分類 25
1.5.2 知識圖譜的領域特性 26
1.5.3 典型知識圖譜 30
本章小結 38
思考題 39
參考文獻 40
第2章 基礎知識 43
2.1 概述 43
2.2 知識表示 45
2.2.1 基本概念 45
2.2.2 知識圖譜的圖表示 47
2.2.3 知識圖譜的數值表示 49
2.2.4 其他相關知識表示 54
2.3 機器學習 64
2.3.1 機器學習的基本概念 65
2.3.2 深度學習概述 67
2.3.3 卷積神經網絡 70
2.3.4 循環(huán)神經網絡 71
2.3.5 注意力機制 72
2.4 自然語言處理 73
2.4.1 基本概念 74
2.4.2 文本的向量化表示 76
本章小結 78
思考題 79
參考文獻 80
第2篇 構建篇
第3章 詞匯挖掘與實體識別 84
3.1 概述 84
3.2 領域短語挖掘 86
3.2.1 問題描述 87
3.2.2 領域短語挖掘方法 88
3.2.3 統(tǒng)計指標特征 91
3.3 同義詞挖掘 95
3.3.1 概述 95
3.3.2 典型方法 96
3.4 縮略詞抽取 101
3.4.1 縮略詞的概念與形式 101
3.4.2 縮略詞的檢測與抽取 103
3.4.3 縮略詞的預測 105
3.5 實體識別 109
3.5.1 概述 109
3.5.2 傳統(tǒng)的NER方法 110
3.5.3 基于深度學習的NER方法 114
3.5.4 近期的一些方法 120
本章小結 121
思考題 122
參考文獻 122
第4章 關系抽取 127
4.1 概述 127
4.1.1 關系抽取的問題和方法分類 128
4.1.2 關系抽取常用數據集 130
4.1.3 關系抽取評估方法 131
4.2 基于模式的抽取 133
4.2.1 基于字符模式的抽取 134
4.2.2 基于語法模式的抽取 135
4.2.3 基于語義模式的抽取 135
4.2.4 自動化模式獲。鹤耘e法 136
4.2.5 基于模式抽取的質量評估 138
4.3 基于學習的抽取 139
4.3.1 基于監(jiān)督學習的關系抽取 140
4.3.2 基于遠程監(jiān)督學習的關系抽取 142
4.3.3 基于深度學習的關系抽取 144
4.4 開放關系抽取 150
4.4.1 TextRunner 151
4.4.2 ReVerb 152
4.4.3 Ollie 154
本章小結 154
思考題 156
參考文獻 157
第5章 概念圖譜構建 160
5.1 概述 160
5.1.1 常見的概念圖譜 163
5.1.2 概念圖譜的應用 166
5.2 isA關系抽取 168
5.2.1 基于在線百科的方法 169
5.2.2 基于模式的方法 170
5.2.3 中文概念圖譜的構建 172
5.3 isA關系補全 175
5.3.1 isA關系缺失的成因 176
5.3.2 基于isA關系傳遞性的概念圖譜補全 177
5.3.3 基于協(xié)同過濾思想的概念圖譜補全 179
5.4 isA關系糾錯 181
5.4.1 錯誤的成因 182
5.4.2 基于支持度的糾錯 183
5.4.3 基于圖模型的糾錯 184
本章小結 185
思考題 186
參考文獻 187
第6章 百科圖譜構建 189
6.1 概述 189
6.1.1 什么是百科圖譜 189
6.1.2 百科圖譜的意義 190
6.1.3 百科圖譜的分類 191
6.2 基于單源的百科圖譜構建 192
6.2.1 數據獲取 193
6.2.2 屬性抽取 195
6.2.3 關系構建 200
6.2.4 概念層級體系構建 201
6.2.5 實體分類 201
6.3 基于多源的百科圖譜融合 207
6.3.1 基于多個知識圖譜的融合方法 207
6.3.2 基于多源異構數據的融合方法 215
本章小結 216
思考題 217
參考文獻 217
第7章 知識圖譜的眾包構建 221
7.1 概述 221
7.2 知識型眾包的基本概念 223
7.3 知識型眾包研究的問題 226
7.3.1 What(對什么任務進行眾包) 226
7.3.2 Whom(將任務交予誰完成) 229
7.3.3 How(如何完成眾包) 230
7.4 基于眾包的知識圖譜構建與精化 235
7.4.1 本體構建階段的人工介入 235
7.4.2 知識圖譜構建階段的人工介入 237
7.4.3 知識圖譜精化階段的人工介入 242
本章小結 244
思考題 245
參考文獻
第8章 知識圖譜的質量控制 250
8.1 概述 251
8.1.1 知識圖譜質量評估的維度 251
8.1.2 知識圖譜質量評估的方法 253
8.1.3 知識圖譜質量控制全周期概覽 254
8.2 缺失知識的發(fā)現與補全 260
8.2.1 類型補全 260
8.2.2 關系補全 263
8.2.3 屬性值補全 268
8.3 錯誤知識的發(fā)現與糾正 270
8.3.1 錯誤實體類型檢測 271
8.3.2 錯誤實體關系檢測 271
8.3.3 錯誤屬性值檢測 273
8.4 過期知識的更新 274
8.4.1 基于更新頻率預測的更新機制 275
8.4.2 基于時間標簽的更新機制 276
8.4.3 基于熱點事件發(fā)現的更新機制 277
本章小結 278
思考題 279
參考文獻 280
第3篇 管理篇
第9章 知識圖譜的建模與存儲 286
9.1 概述 286
9.2 知識圖譜的數據模型 287
9.2.1 知識圖譜的三元組模型 287
9.2.2 知識圖譜的圖模型 291
9.3 知識圖譜的物理存儲 296
9.3.1 知識圖譜數據的基本操作 296
9.3.2 知識圖譜的關系表存儲 297
9.3.3 知識圖譜的圖存儲 302
9.3.4 分布式計算環(huán)境下的知識圖譜數據存儲 305
本章小結 309
思考題 310
參考文獻 310
第10章 知識圖譜的查詢與檢索 314
10.1 概述 314
10.2 查詢語言:SPARQL 315
10.2.1 簡單查詢 315
10.2.2 SPARQL查詢機制及知識圖譜上的推理 321
10.3 子圖查詢 324
10.3.1 子圖查詢基本知識 324
10.3.2 近似子圖查詢 326
10.3.3 Top-k查詢 331
10.3.4 索引結構 334
10.4 其他查詢 335
10.4.1 路徑查詢 335
10.4.2 關鍵詞查詢 337
10.4.3 社團搜索 339
本章小結 342
思考題 343
參考文獻 343
第11章 圖數據管理系統(tǒng) 347
11.1 概述 347
11.2 知識圖譜與圖數據管理系統(tǒng) 348
11.2.1 大圖管理的挑戰(zhàn) 350
11.2.2 圖數據管理系統(tǒng)的重要性 352
11.2.3 圖數據管理系統(tǒng)管理知識圖譜的挑戰(zhàn) 354
11.3 圖數據管理系統(tǒng)的基本架構和設計原則 357
11.4 典型的圖數據管理系統(tǒng) 360
11.4.1 通用圖數據管理系統(tǒng) 361
11.4.2 知識圖譜專用圖數據管理系統(tǒng) 364
11.4.3 圖數據管理系統(tǒng)使用實例 366
本章小結 370
思考題 371
參考文獻 371
第4篇 應用篇
第12章 基于知識圖譜的語言認知 374
12.1 概述 375
12.1.1 語言理解的挑戰(zhàn) 375
12.1.2 語言理解需要知識圖譜 376
12.1.3 語言理解的任務 377
12.2 實體理解 378
12.2.1 基本模型 379
12.2.2 局部實體鏈接分數 380
12.2.3 全局實體鏈接分數 381
12.2.4 模型計算 382
12.2.5 短文本實體鏈接 388
12.2.6 跨語言實體鏈接 389
12.3 概念理解 391
12.3.1 單實例概念理解 391
12.3.2 多實例概念理解 393
12.3.3 短語概念理解 395
12.3.4 關系對概念理解 397
12.3.5 概念理解應用舉例 398
12.4 屬性理解 399
本章小結 401
思考題 402
參考文獻 402
第13章 基于知識圖譜的搜索與推薦 405
13.1 概述 405
13.2 基于知識圖譜的搜索 408
13.2.1 搜索概述 408
13.2.2 搜索意圖理解 411
13.2.3 目標查找 413
13.2.4 結果呈現 413
13.2.5 實體探索 414
13.3 基于知識圖譜的推薦 419
13.3.1 推薦的基本問題與挑戰(zhàn) 419
13.3.2 基于知識圖譜的物品畫像 422
13.3.3 基于知識圖譜的用戶畫像 427
13.3.4 基于知識圖譜的跨領域推薦 429
13.3.5 基于知識圖譜的可解釋推薦 432
本章小結 433
思考題 435
參考文獻 435
第14章 基于知識圖譜的問答 438
14.1 概述 438
14.1.1 問答系統(tǒng) 438
14.1.2 KBQA 441
14.2 基于模板的KBQA 449
14.2.1 基于模板的意圖識別 449
14.2.2 基于模板的屬性關聯(lián) 451
14.3 基于圖模型的KBQA 453
14.3.1 監(jiān)督學習方法 453
14.3.2 無監(jiān)督方法 455
14.4 基于深度學習的KBQA 457
14.4.1 表示學習 458
14.4.2 分類模型 459
14.4.3 生成模型 461
本章小結 462
思考題 463
參考文獻 464
第5篇 實踐篇
第15章 知識圖譜實踐 468
15.1 概述 468
15.1.1 知識圖譜應用的推動力 469
15.1.2 知識圖譜應用與產業(yè)現狀 471
15.1.3 知識圖譜實踐的系統(tǒng)工程觀念 472
15.1.4 知識圖譜助力行業(yè)智能化的演進路徑 474
15.2 知識圖譜系統(tǒng) 476
15.2.1 知識圖譜系統(tǒng)的外部環(huán)境 476
15.2.2 知識圖譜系統(tǒng)的關鍵要素 477
15.2.3 知識圖譜系統(tǒng)的典型架構 479
15.3 知識圖譜工程 485
15.3.1 基本原則 486
15.3.2 過程模型 489
15.3.3 可行性分析 491
15.3.4 實踐建議 495
本章小結 499
思考題 499
參考文獻 500
第16章 開放性問題 501
16.1 知識表示 501
16.1.1 與其他知識表示相聯(lián)合的語義增強 501
16.1.2 過程語義增強 502
16.1.3 時空語義增強 503
16.1.4 跨模態(tài)語義增強 504
16.2 知識獲取 504
16.2.1 低成本知識獲取 505
16.2.2 復雜知識的獲取 506
16.2.3 知識獲取中的人機協(xié)作與評測 508
16.3 知識應用 509
16.3.1 知識圖譜上的推理 509
16.3.2 符號知識增強機器學習 510
16.3.3 基于知識圖譜的可解釋人工智能 511
16.3.4 知識圖譜的個性化問題 511
本章小結 512
思考題 513
參考文獻 513