全書共分10 章,全面介紹知識增強(qiáng)大模型涉及的各類技術(shù),涵蓋大模型、向量數(shù)據(jù)庫、圖數(shù)據(jù)庫、知識圖譜、檢索增強(qiáng)生成、GraphRAG 等內(nèi)容,并輔以豐富的實(shí)例、精心繪制的插圖和深入淺出的技術(shù)解析,幫助讀者快速掌握知識增強(qiáng)大模型的理論,引導(dǎo)讀者逐步構(gòu)建知識增強(qiáng)大模型應(yīng)用。本書既可以作為人工智能相關(guān)的技術(shù)從業(yè)者、企業(yè)或機(jī)構(gòu)管理者的工具書,指導(dǎo)實(shí)際工作;也適合作為人工智能、計(jì)算機(jī)等相關(guān)專業(yè)高年級本科生或研究生學(xué)習(xí)知識增強(qiáng)大模型應(yīng)用開發(fā)的入門圖書和進(jìn)階指南。
王文廣,高級工程師,浙江大學(xué)碩士,浦東新區(qū)“明珠計(jì)劃”菁英人才,省部級科技進(jìn)步獎獲得者,人工智能標(biāo)準(zhǔn)編制專家,浦東新區(qū)首席技師,騰訊云最具價(jià)值專家(TVP),中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟突出貢獻(xiàn)個(gè)人,曾出版《知識圖譜:認(rèn)知智能理論與實(shí)戰(zhàn)》一書,致力于推進(jìn)通用人工智能技術(shù)的研究和應(yīng)用,F(xiàn)為上海市人工智能標(biāo)準(zhǔn)化技術(shù)委員會委員、上海市科學(xué)技術(shù)委員會評審專家、中國計(jì)算機(jī)學(xué)會(CCF)高級會員、中國中文信息學(xué)會(CIPS)語言與知識計(jì)算專委會委員、中國人工智能學(xué)會(CAAI)深度學(xué)習(xí)專委會委員、上海市人工智能技術(shù)協(xié)會專委會委員,曾參與編制十余項(xiàng)(篇)人工智能領(lǐng)域的標(biāo)準(zhǔn),發(fā)表數(shù)十項(xiàng)人工智能領(lǐng)域的國家發(fā)明專利和學(xué)術(shù)論文,并參與編寫多本人工智能方面的圖書。
第1章 緒論:迎接大模型紀(jì)元 0
1.1 大模型崛起 2
1.2 大模型的固有特性 4
1.2.1 幻覺 5
1.2.2 知識陳舊 6
1.3 知識增強(qiáng)大模型 6
1.4 迎接大模型紀(jì)元 8
第2章 大語言模型 10
2.1 大模型概述 12
2.2 語言模型簡史 14
2.3 大模型為何如此強(qiáng)大 20
2.3.1 語言模型與無監(jiān)督學(xué)習(xí) 21
2.3.2 人類反饋強(qiáng)化學(xué)習(xí) 22
2.3.3 情境學(xué)習(xí)與思維鏈 24
2.4 如何使用大模型 29
2.4.1 翻譯 30
2.4.2 文本摘要 31
2.4.3 求解數(shù)學(xué)問題 31
2.4.4 語言學(xué)習(xí)和考試 32
2.4.5 高效撰寫文章 34
2.4.6 自動化編程和輔助編程 35
2.4.7 數(shù)據(jù)分析 38
2.5 垂直大模型 40
2.5.1 什么是垂直大模型 41
2.5.2 垂直大模型的特點(diǎn) 41
2.6 思考題 42
2.7 本章小結(jié) 43
第3章 向量數(shù)據(jù)庫 44
3.1 向量表示與嵌入 46
3.1.1 語言的向量表示 47
3.1.2 圖像的向量表示 48
3.1.3 知識圖譜的向量表示 49
3.2 向量相似度 49
3.2.1 L2距離 50
3.2.2 余弦相似度 51
3.2.3 內(nèi)積相似度 52
3.2.4 L1距離 53
3.3 向量索引與檢索方法 54
3.3.1 最近鄰檢索和近似最近鄰檢索 55
3.3.2 局部敏感哈希算法 56
3.3.3 基于圖結(jié)構(gòu)的HNSW算法 58
3.3.4 向量量化與乘積量化 63
3.4 Milvus向量數(shù)據(jù)庫 65
3.4.1 Milvus架構(gòu) 66
3.4.2 向量索引方法 68
3.4.3 向量檢索方法 70
3.4.4 數(shù)據(jù)一致性 70
3.4.5 用戶認(rèn)證與權(quán)限控制 72
3.5 Milvus向量數(shù)據(jù)庫實(shí)戰(zhàn)指南 73
3.5.1 安裝、配置和運(yùn)行Milvus 73
3.5.2 連接服務(wù)器和創(chuàng)建數(shù)據(jù)庫 75
3.5.3 數(shù)據(jù)準(zhǔn)備 76
3.5.4 創(chuàng)建集合 77
3.5.5 創(chuàng)建索引 80
3.5.6 插入數(shù)據(jù) 81
3.5.7 載入數(shù)據(jù) 82
3.5.8 標(biāo)量查詢 83
3.5.9 單向量檢索 84
3.5.10 混合檢索 87
3.6 其他主流的向量數(shù)據(jù)庫系統(tǒng)與工具 91
3.6.1 原生向量數(shù)據(jù)庫 91
3.6.2 數(shù)據(jù)庫的向量處理擴(kuò)展 92
3.6.3 向量索引和檢索庫 93
3.7 思考題 94
3.8 本章小結(jié) 94
第4章 檢索增強(qiáng)生成 96
4.1 檢索增強(qiáng)生成概述 98
4.2 為什么需要RAG 99
4.2.1 RAG、SFT與LoRA 99
4.2.2 長上下文與RAG 102
4.2.3 鋰電池供應(yīng)鏈管理案例 103
4.2.4 RAG的特點(diǎn) 105
4.3 通用的RAG流程 106
4.3.1 創(chuàng)建知識庫 107
4.3.2 知識檢索 107
4.3.3 大模型生成答案 108
4.3.4 質(zhì)量評估與迭代優(yōu)化 109
4.4 使用Dify構(gòu)建RAG系統(tǒng) 110
4.4.1 Dify概述 110
4.4.2 安裝Dify 111
4.4.3 初始化Dify 115
4.4.4 創(chuàng)建知識庫 116
4.4.5 簡單的RAG應(yīng)用 119
4.4.6 RAG效果優(yōu)化 121
4.4.7 引入Elasticsearch 123
4.4.8 構(gòu)建RAG系統(tǒng) 129
4.5 RAG系統(tǒng)的最佳實(shí)踐 135
4.5.1 文本分塊 135
4.5.2 分層檢索 136
4.5.3 查詢改寫 137
4.5.4 檢索路由 138
4.6 其他主流的RAG系統(tǒng)框架 138
4.6.1 LobeChat 138
4.6.2 Quivr 139
4.6.3 LlamaIndex 139
4.6.4 Open WebUI 139
4.7 思考題 140
4.8 本章小結(jié) 140
第5章 知識圖譜技術(shù)體系 142
5.1 什么是知識圖譜 144
5.1.1 知識圖譜的相關(guān)概念及其定義 144
5.1.2 知識圖譜實(shí)例 146
5.1.3 大腦的聯(lián)想機(jī)制與知識圖譜的關(guān)系建模 147
5.2 DIKW模型與知識圖譜 149
5.2.1 DIKW模型 149
5.2.2 從DIKW模型到知識圖譜 150
5.2.3 知識圖譜的內(nèi)涵與外延 151
5.2.4 知識的源流與知識圖譜 152
5.3 知識圖譜的技術(shù)體系 153
5.3.1 知識圖譜模式設(shè)計(jì)與管理 153
5.3.2 知識圖譜構(gòu)建技術(shù) 154
5.3.3 知識圖譜存儲技術(shù) 156
5.3.4 知識圖譜應(yīng)用技術(shù) 156
5.3.5 用戶接口與界面 158
5.4 知識圖譜模式設(shè)計(jì)的基本原則 159
5.4.1 賦予一類事物合適的名字 159
5.4.2 建立事物間清晰的聯(lián)系 160
5.4.3 明確且正式的語義表達(dá) 161
5.5 知識圖譜模式設(shè)計(jì)的六韜法 162
5.6 大模型結(jié)合六韜法設(shè)計(jì)知識圖譜模式 165
5.6.1 場景:對齊參與各方的認(rèn)知 166
5.6.2 復(fù)用:站在巨人的肩膀上 168
5.6.3 事物:定義實(shí)體類型及屬性 169
5.6.4 聯(lián)系:場景需求之下的普遍聯(lián)系 173
5.6.5 約束:多層次的約束規(guī)范 176
5.6.6 評價(jià):迭代優(yōu)化的起點(diǎn) 182
5.7 知識圖譜模式設(shè)計(jì)的最佳實(shí)踐 182
5.7.1 熟知知識圖譜及其具體應(yīng)用領(lǐng)域 183
5.7.2 明確邊界,切記貪多嚼不爛 183
5.7.3 高內(nèi)聚、低耦合 184
5.7.4 充分利用可視化工具 185
5.8 思考題 186
5.9 本章小結(jié) 187
第6章 構(gòu)建知識圖譜 188
6.1 知識圖譜構(gòu)建技術(shù)概述 190
6.1.1 映射式構(gòu)建技術(shù) 190
6.1.2 抽取式構(gòu)建技術(shù) 192
6.2 抽取實(shí)體和實(shí)體屬性 193
6.2.1 實(shí)體、實(shí)體屬性及其抽取 193
6.2.2 用大模型抽取實(shí)體和實(shí)體屬性 196
6.3 抽取關(guān)系和關(guān)系屬性 205
6.3.1 實(shí)體間的關(guān)系和關(guān)系抽取 205
6.3.2 用大模型抽取關(guān)系和關(guān)系屬性 210
6.4 抽取事件 214
6.4.1 事件、事件要素和事件抽取 214
6.4.2 用大模型抽取事件 217
6.5 多語言和跨語言 222
6.6 知識抽取的評價(jià)指標(biāo) 223
6.7 思考題 226
6.8 本章小結(jié) 227
第7章 圖數(shù)據(jù)庫與圖計(jì)算 228
7.1 圖數(shù)據(jù)庫概述 230
7.1.1 頂點(diǎn)、邊、屬性與標(biāo)簽 230
7.1.2 圖數(shù)據(jù)庫的存儲與查詢 231
7.1.3 主流的圖數(shù)據(jù)庫 231
7.2 JanusGraph分布式圖數(shù)據(jù)庫 232
7.2.1 JanusGraph系統(tǒng)架構(gòu) 233
7.2.2 CAP理論與JanusGraph 234
7.2.3 與搜索引擎的集成 235
7.2.4 事務(wù)和故障修復(fù) 235
7.2.5 屬性圖模式的定義 236
7.2.6 圖查詢語言Gremlin 237
7.3 JanusGraph實(shí)戰(zhàn)指南 238
7.3.1 安裝、運(yùn)行和配置JanusGraph 238
7.3.2 在JanusGraph中定義屬性圖模式 243
7.3.3 為圖創(chuàng)建索引 247
7.3.4 索引的狀態(tài)及動作 251
7.3.5 查看屬性圖模式 252
7.3.6 為圖插入頂點(diǎn)、邊和屬性 254
7.3.7 查詢的起始與終末 258
7.3.8 提取圖中元素的信息 259
7.3.9 過濾查詢條件 260
7.3.10 圖的游走 262
7.3.11 分組與聚合 263
7.3.12 分支與循環(huán) 265
7.3.13 match、map、filter和sideEffect 266
7.3.14 性能優(yōu)化工具的使用 267
7.4 JanusGraph的可視化 269
7.4.1 JanusGraph-Visualizer 269
7.4.2 其他可視化工具 270
7.5 遍歷與最短路徑算法 271
7.5.1 廣度優(yōu)先搜索 271
7.5.2 深度優(yōu)先搜索 272
7.5.3 路徑和最短路徑 274
7.6 中心性 276
7.6.1 中心性的概念及應(yīng)用 276
7.6.2 度中心性 277
7.6.3 親密中心性 279
7.6.4 中介中心性 280
7.6.5 特征向量中心性 282
7.6.6 PageRank 283
7.7 社區(qū)檢測 285
7.7.1 社區(qū)檢測概述 285
7.7.2 社區(qū)檢測算法一覽 286
7.7.3 Leiden算法實(shí)戰(zhàn) 289
7.7.4 社區(qū)檢測算法的應(yīng)用場景 292
7.8 思考題 294
7.9 本章小結(jié) 294
第8章 圖;パa(bǔ)應(yīng)用范式 296
8.1 圖;パa(bǔ)概述 298
8.2 圖模互補(bǔ)中的知識圖譜 299
8.2.1 知識的確定性和一致性 299
8.2.2 知識來源可追溯 299
8.2.3 知識的實(shí)時(shí)與及時(shí)更新 300
8.2.4 可解釋與可追溯的演繹推理 301
8.2.5 糾錯(cuò)機(jī)制與知識的持續(xù)維護(hù) 301
8.2.6 基于圖機(jī)器學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)的概率推理 301
8.2.7 知識圖譜的全局視野 302
8.3 圖;パa(bǔ)中的大模型 302
8.3.1 從任務(wù)描述到任務(wù)需求的理解 302
8.3.2 利用知識圖譜檢索、整合和推理結(jié)果 303
8.3.3 高質(zhì)量的自然語言生成 303
8.3.4 結(jié)合多源知識生成創(chuàng)新性內(nèi)容 305
8.3.5 概率推理能力與通用性 306
8.3.6 知識抽取 306
8.3.7 知識補(bǔ)全 306
8.3.8 跨語言知識對齊 307
8.4 圖;パa(bǔ)應(yīng)用范式的特點(diǎn) 307
8.5 大模型對知識圖譜的增強(qiáng) 308
8.5.1 增強(qiáng)知識圖譜的構(gòu)建 308
8.5.2 增強(qiáng)知識圖譜的補(bǔ)全 310
8.5.3 增強(qiáng)對知識的描述 310
8.5.4 增強(qiáng)知識圖譜的推理 312
8.5.5 增強(qiáng)知識圖譜的查詢 312
8.6 知識圖譜對大模型的增強(qiáng) 313
8.6.1 減少大模型的幻覺 313
8.6.2 內(nèi)嵌知識圖譜的大模型 314
8.6.3 提升大模型的推理能力 315
8.6.4 知識圖譜增強(qiáng)生成 316
8.6.5 提升大模型生成內(nèi)容的可解釋性 316
8.6.6 應(yīng)用案例 318
8.7 基于圖模互補(bǔ)應(yīng)用范式的智能系統(tǒng)的典型流程 318
8.8 思考題 320
8.9 本章小結(jié) 321
第9章 知識圖譜增強(qiáng)生成與GraphRAG 322
9.1 知識圖譜增強(qiáng)生成的原理 324
9.1.1 深度推理和實(shí)時(shí)推理 324
9.1.2 全局視野與深度洞察 325
9.1.3 知識整合 326
9.2 知識圖譜增強(qiáng)生成的通用框架 327
9.3 為知識圖譜創(chuàng)建索引 327
9.3.1 圖索引 328
9.3.2 文本索引 328
9.3.3 向量索引 329
9.3.4 混合索引 329
9.4 從知識圖譜中檢索知識 329
9.4.1 檢索方法 330
9.4.2 檢索過程 331
9.4.3 知識粒度 334
9.5 知識表示形式 335
9.5.1 鄰接表和邊表 335
9.5.2 自然語言文本 336
9.5.3 編程語言 336
9.5.4 語法樹 341
9.5.5 頂點(diǎn)序列 341
9.6 GraphRAG概述 341
9.7 GraphRAG實(shí)戰(zhàn) 344
9.7.1 安裝GraphRAG和數(shù)據(jù)資源準(zhǔn)備 344
9.7.2 轉(zhuǎn)換為實(shí)體的關(guān)系屬性的DataFrame 346
9.7.3 計(jì)算實(shí)體、關(guān)系的排序值 347
9.7.4 為實(shí)體生成描述文本及向量化 347
9.7.5 為關(guān)系生成描述文本及向量化 348
9.7.6 社區(qū)分類和社區(qū)描述文本 349
9.7.7 調(diào)用API生成GraphRAG可用數(shù)據(jù) 354
9.7.8 大模型的初始化 355
9.7.9 局部搜索與全局搜索 355
9.8 思考題 358
9.9 本章小結(jié) 358
第10章 知識增強(qiáng)大模型應(yīng)用 360
10.1 應(yīng)用框架 362
10.2 知識來源 363
10.2.1 非結(jié)構(gòu)化知識 363
10.2.2 結(jié)構(gòu)化數(shù)據(jù)庫 364
10.2.3 知識圖譜 365
10.3 知識運(yùn)營 366
10.3.1 知識的質(zhì)量 366
10.3.2 數(shù)據(jù)管理流程 367
10.3.3 法律合規(guī)、隱私與知識產(chǎn)權(quán) 368
10.3.4 可觀測性工具 368
10.4 應(yīng)用指南 369
10.4.1 應(yīng)用價(jià)值 370
10.4.2 面向進(jìn)取者:全面推進(jìn)的策略 371
10.4.3 面向保守者:試點(diǎn)驅(qū)動的策略 372
10.4.4 選型的“四三二一”原則 373
10.4.5 最佳實(shí)踐要點(diǎn) 374
10.5 行業(yè)應(yīng)用案例 375
10.5.1 文檔助手 375
10.5.2 教育領(lǐng)域應(yīng)用場景 377
10.5.3 智慧金融應(yīng)用場景 378
10.5.4 智慧醫(yī)療應(yīng)用場景 381
10.5.5 智能制造應(yīng)用場景 383
10.6 思考題 386
10.7 本章小結(jié) 386
附錄A 388
附錄B 389
參考文獻(xiàn) 390