統(tǒng)計(jì)語言建模與中文文本自動校對技術(shù)
定 價(jià):45 元
當(dāng)前圖書已被 2 所學(xué)校薦購過!
查看明細(xì)
- 作者:張仰森著
- 出版時(shí)間:2017/4/1
- ISBN:9787030518552
- 出 版 社:科學(xué)出版社
- 中圖法分類:H087
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:128開
本書是作者多年來在自然語言處理領(lǐng)域開展對統(tǒng)計(jì)語言建模以及中文文本校對技術(shù)研究的總結(jié)。
主要內(nèi)容包括統(tǒng)計(jì)語言建模和中文文本自動校對技術(shù)兩部分內(nèi)容,共12章。前面部分介紹統(tǒng)計(jì)語言模型構(gòu)建的基本原理與方法,并對模型訓(xùn)練及評價(jià)方法進(jìn)行研究,提出統(tǒng)計(jì)語言模型建模時(shí)訓(xùn)練語料規(guī)模的定量化度量方法。后面部分概述中文文本中常見的各種錯(cuò)誤,并針對這些錯(cuò)誤類型提出字詞級、句法級和語義級錯(cuò)誤的自動偵測方法與模型,開創(chuàng)了漢語文本語義錯(cuò)誤自動偵測的新思路,提出了中文文本錯(cuò)誤的糾錯(cuò)建議生成與排序模型。*后基于所提出的模型與算法開發(fā)了一個(gè)"正文通"中文文本校對系統(tǒng)。
本書可作為在自然語言處理領(lǐng)域開展中文文本自動校對技術(shù)與方法研究的相關(guān)人員的參考用書。
更多科學(xué)出版社服務(wù),請掃碼獲取。
導(dǎo)語_點(diǎn)評_推薦詞
序言
目錄
第一章 緒論 1
1.1 撰寫本書的背景和意義 1
1.2 本書的主要內(nèi)容與組織結(jié)構(gòu) 3
1.3 本書重點(diǎn)關(guān)注的問題 4
第二章 統(tǒng)計(jì)語言模型 7
2.1 語言模型概述 7
2.2 現(xiàn)有主要統(tǒng)計(jì)語言模型 7
2.2.1 上下文無關(guān)模型 7
2.2.2 n-gram 模型 8
2.2.3 隱Markov 模型 11
2.2.4 決策樹模型 18
2.2.5 Cache-based 模型 18
2.3 統(tǒng)計(jì)語言模型的建模技術(shù) 19
2.3.1 基于最大似然法的語言建模 19
2.3.2 基于組合思想的語言建模 21
2.3.3 基于信息論最大熵方法的語言建模 23
2.4 統(tǒng)計(jì)語言建模的相關(guān)問題 24
2.4.1 語言模型的架構(gòu) 24
2.4.2 語言模型參數(shù)的確定 24
2.4.3 數(shù)據(jù)稀疏問題與模型平滑 25
2.4.4 語言模型的評價(jià) 26
2.5 本章小結(jié) 26
第三章 漢語統(tǒng)計(jì)語言模型的構(gòu)建 27
3.1 漢語統(tǒng)計(jì)語言模型構(gòu)建概述 27
3.2 漢語文本分詞及其相關(guān)問題 27
3.2.1 機(jī)讀詞典的建立 27
3.2.2 漢語文本分詞算法 28
3.2.3 分詞中的中國人名識別 31
3.2.4 實(shí)驗(yàn)結(jié)果與分析 37
3.3 漢語建模原理與文本統(tǒng)計(jì)系統(tǒng)的建立 39
3.3.1 漢語n-gram 模型的構(gòu)建原理 39
3.3.2 文本統(tǒng)計(jì)系統(tǒng)的組成及實(shí)現(xiàn) 39
3.3.3 字詞統(tǒng)計(jì)算法與程序 40
3.4 幾種漢語語言模型與實(shí)驗(yàn)結(jié)果 41
3.5 本章小結(jié) 42
第四章 漢語統(tǒng)計(jì)語言模型的訓(xùn)練與評價(jià) 43
4.1 語言模型訓(xùn)練樣本的選取 43
4.2 漢語語言模型訓(xùn)練樣本的規(guī)模 43
4.2.1 語言模型階數(shù)與訓(xùn)練樣本規(guī)模 43
4.2.2 漢語語言模型的訓(xùn)練語料規(guī)模 45
4.2.3 樣本規(guī)模與詞的使用頻率和統(tǒng)計(jì)相對誤差關(guān)系 48
4.3 統(tǒng)計(jì)語言模型的評價(jià) 50
4.3.1 基于信息熵的復(fù)雜度度量 50
4.3.2 基于困惑度的復(fù)雜度度量 54
4.4 漢語信息熵的估算方法 55
4.4.1 語言信息熵的估算 55
4.4.2 對幾種漢語語言模型的比較與評價(jià) 55
4.5 本章小結(jié) 56
第五章 文本校對技術(shù)的現(xiàn)狀分析 57
5.1 英文文本自動校對技術(shù) 57
5.1.1 英文文本中的錯(cuò)誤種類 57
5.1.2 單詞錯(cuò)誤的發(fā)現(xiàn)與校對技術(shù) 57
5.1.3 上下文相關(guān)的錯(cuò)誤校對技術(shù) 59
5.2 中文文本自動校對技術(shù) 61
5.2.1 中文與英文的差別 61
5.2.2 中文自動查錯(cuò)的研究現(xiàn)狀 61
5.2.3 中文自動糾錯(cuò)的研究現(xiàn)狀 64
5.3 中文文本中常見錯(cuò)誤的類型與分析 64
5.3.1 中文文本中的常見錯(cuò)誤類型 64
5.3.2 中文文本中常見錯(cuò)誤統(tǒng)計(jì)分析 66
5.3.3 中文文本自動校對的難點(diǎn)分析 67
5.4 本章小結(jié) 68
第六章 中文文本字詞錯(cuò)誤自動偵測的模型與算法 69
6.1 中文文本字詞級錯(cuò)誤的表現(xiàn)形式 69
6.2 基于n-gram 模型的中文文本查錯(cuò)方法 70
6.2.1 n-gram 模型與接續(xù)關(guān)系 70
6.2.2 基于接續(xù)關(guān)系的查錯(cuò)思想 71
6.2.3 字字接續(xù)判斷模型 71
6.2.4 詞接續(xù)判斷模型 73
6.2.5 接續(xù)關(guān)系知識獲取與知識庫構(gòu)建 74
6.3 基于字詞二元接續(xù)關(guān)系的自動查錯(cuò)算法 75
6.3.1 基于字詞二元接續(xù)的自動查錯(cuò)算法 75
6.3.2 實(shí)驗(yàn)結(jié)果及查錯(cuò)實(shí)例 76
6.4 規(guī)則與統(tǒng)計(jì)相結(jié)合的文本自動查錯(cuò)模型 79
6.4.1 中文文本中的“非多字詞錯(cuò)誤”與“真多字詞錯(cuò)誤” 79
6.4.2 規(guī)則與統(tǒng)計(jì)相結(jié)合的中文文本自動查錯(cuò)模型 80
6.5 散串集中策略 84
6.5.1 雙向拼音知識庫的構(gòu)建 84
6.5.2 散串集中策略 84
6.5.3 錯(cuò)誤信息存儲方法 85
6.5.4 散串集中算法 86
6.5.5 實(shí)驗(yàn)結(jié)果與分析 86
6.6 一種英文單詞拼寫自動偵錯(cuò)與糾錯(cuò)的方法—骨架鍵法 88
6.6.1 英文拼寫自動偵錯(cuò)和糾錯(cuò)的一般方法 88
6.6.2 骨架鍵法在英文偵錯(cuò)與糾錯(cuò)中的可行性分析 88
6.6.3 骨架鍵法的算法描述和算法分析 89
6.6.4 實(shí)驗(yàn)結(jié)果評價(jià) 90
6.7 本章小結(jié) 90
第七章 中文文本中語法錯(cuò)誤的自動偵測模型與算法 92
7.1 中文文本語法級錯(cuò)誤概述 92
7.2 關(guān)聯(lián)詞知識庫構(gòu)建及查錯(cuò)算法 93
7.2.1 關(guān)聯(lián)詞搭配錯(cuò)誤推理規(guī)則知識庫的構(gòu)建 93
7.2.2 關(guān)聯(lián)詞搭配查錯(cuò)算法 94
7.3 量名搭配知識庫的構(gòu)建及查錯(cuò)算法設(shè)計(jì) 95
7.3.1 基于《語法詞典》的量名搭配 95
7.3.2 基于語料庫的量名搭配 96
7.3.3 量名搭配類庫的構(gòu)建 97
7.3.4 量名搭配查錯(cuò)算法 98
7.4 標(biāo)點(diǎn)符號錯(cuò)誤的自動偵測 99
7.4.1 標(biāo)點(diǎn)符號搭配錯(cuò)誤的研究 99
7.4.2 標(biāo)點(diǎn)符號錯(cuò)誤搭配規(guī)則及算法設(shè)計(jì) 100
vi 統(tǒng)計(jì)語言建模與中文文本自動校對技術(shù)
7.5 基于規(guī)則的語法錯(cuò)誤推理規(guī)則的構(gòu)建 101
7.5.1 語法錯(cuò)誤推理正規(guī)則庫構(gòu)建 101
7.5.2 語法錯(cuò)誤推理負(fù)規(guī)則庫制定 104
7.5.3 基于語法錯(cuò)誤推理規(guī)則的語法級錯(cuò)誤查錯(cuò)算法 105
7.6 本章小結(jié) 106
第八章 中文文本中語義錯(cuò)誤自動偵測的模型與算法 107
8.1 語義學(xué)相關(guān)理論 107
8.1.1 現(xiàn)代語義學(xué)流派及其主要理論 107
8.1.2 語義知識的表示方法 111
8.1.3 語義知識資源 113
8.2 基于語義搭配知識庫的語義偵測算法 117
8.2.1 語義搭配知識庫體系結(jié)構(gòu)的設(shè)計(jì) 117
8.2.2 詞語搭配自動抽取算法的設(shè)計(jì)與實(shí)現(xiàn) 119
8.2.3 語義搭配知識庫構(gòu)建算法的設(shè)計(jì)及實(shí)現(xiàn) 124
8.2.4 基于語義搭配知識庫的語義偵測算法的設(shè)計(jì)及實(shí)現(xiàn) 127
8.3 基于語義依存搭配知識庫的語義查錯(cuò)方法 128
8.3.1 依存樹庫的構(gòu)建及搭配關(guān)系的提取 128
8.3.2 基于語義依存搭配知識庫的語義級查錯(cuò)方法 132
8.4 本章小結(jié) 134
第九章 面向?qū)I(yè)領(lǐng)域的中文文本錯(cuò)誤的自動偵測方法 135
9.1 面向特定領(lǐng)域的專業(yè)詞匯抽取方法概述 135
9.1.1 國外研究現(xiàn)狀分析 135
9.1.2 國內(nèi)研究現(xiàn)狀分析 136
9.2 專業(yè)領(lǐng)域詞匯及搭配關(guān)系的相關(guān)概念和理論知識 138
9.2.1 專業(yè)詞匯的定義 139
9.2.2 專業(yè)詞匯的分類 139
9.2.3 專業(yè)詞匯的特性 140
9.2.4 專業(yè)詞語搭配關(guān)系的定義 141
9.2.5 通用的統(tǒng)計(jì)方法 141
9.3 基于統(tǒng)計(jì)與規(guī)則相結(jié)合的專業(yè)詞匯抽取算法 145
9.3.1 專業(yè)詞匯抽取算法的流程 145
9.3.2 基于左右信息熵?cái)U(kuò)展的候選專業(yè)詞匯抽取 148
9.3.3 基于成詞度的專業(yè)詞匯篩選 151
9.3.4 基于TF-IDF 領(lǐng)域度的專業(yè)詞匯篩選 154
9.3.5 基于通用詞庫的篩選 156
9.4 基于特定領(lǐng)域的詞語搭配挖掘算法 156
9.4.1 基于統(tǒng)計(jì)的常用詞語搭配關(guān)系挖掘 157
9.4.2 基于依存句法分析和《同義詞詞林》的動賓搭配關(guān)系挖掘 161
9.4.3 基于依存分析結(jié)果的動賓搭配關(guān)系挖掘 169
9.5 專業(yè)詞匯與搭配關(guān)系分析挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) 174
9.5.1 系統(tǒng)的框架設(shè)計(jì) 174
9.5.2 系統(tǒng)的主要用途和技術(shù)特點(diǎn) 175
9.5.3 系統(tǒng)各功能模塊簡介 175
9.5.4 實(shí)驗(yàn)結(jié)果與分析 181
9.6 專業(yè)詞匯與搭配關(guān)系在中文文本自動校對中的應(yīng)用 187
9.6.1 專業(yè)詞匯在中文文本自動校對中的應(yīng)用 187
9.6.2 詞語搭配關(guān)系在中文文本自動校對中的應(yīng)用 189
9.7 本章小結(jié) 192
第十章 面向政治新聞?lì)I(lǐng)域的中文文本校對方法 194
10.1 面向政治新聞?lì)I(lǐng)域的中文文本校對方法概述 194
10.2 新聞?lì)I(lǐng)域文本政治性錯(cuò)誤類型 194
10.3 面向政治新聞校對的相關(guān)知識庫構(gòu)建 195
10.3.1 涉及主權(quán)、領(lǐng)土完整及港澳臺問題的“引號詞”QTLIB 庫的構(gòu)建 196
10.3.2 領(lǐng)導(dǎo)人順序和姓名-職務(wù)知識庫的構(gòu)建 197
10.4 面向政治新聞?lì)I(lǐng)域的差錯(cuò)偵測算法與實(shí)現(xiàn) 198
10.4.1 政治性差錯(cuò)偵測規(guī)則庫構(gòu)建 198
10.4.2 面向政治新聞?lì)I(lǐng)域的文本分詞優(yōu)化 199
10.4.3 政治性差錯(cuò)偵測模型 200
10.4.4 面向政治領(lǐng)域的文本校對方法的具體實(shí)現(xiàn) 201
10.5 實(shí)驗(yàn)結(jié)果分析 202
10.5.1 測試集的構(gòu)建 202
10.5.2 結(jié)果分析 203
第十一章 中文文本錯(cuò)誤糾錯(cuò)建議的自動生成及其排序方法 204
11.1 中文文本字詞級錯(cuò)誤糾錯(cuò)建議自動生成及其排序的模型與算法 204
11.1.1 中文文本字詞級錯(cuò)誤糾錯(cuò)建議自動生成及其排序概述 204
11.1.2 自動糾錯(cuò)的語言模型 204
11.1.3 糾錯(cuò)知識庫的構(gòu)造 205
11.1.4 糾錯(cuò)建議的生成算法 213
11.1.5 語境關(guān)聯(lián)度模型 215
11.1.6 基于語境關(guān)聯(lián)度模型的糾錯(cuò)建議排序 218
11.1.7 實(shí)驗(yàn)結(jié)果與實(shí)例 219
11.2 基于最大熵方法的語言建模與糾錯(cuò)排歧 221
11.2.1 問題的引入 221
11.2.2 最大熵原理 222
11.2.3 基于最大熵原理的自然語言建模 223
11.2.4 基于頻次與平均互信息相結(jié)合的特征選擇 228
11.2.5 基于最大熵方法的糾錯(cuò)排歧 231
11.3 本章小結(jié) 235
第十二章 面向中文文本的自動校對實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) 236
12.1 系統(tǒng)目標(biāo) 236
12.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 236
12.3 系統(tǒng)的實(shí)現(xiàn) 238
12.3.1 開發(fā)環(huán)境 238
12.3.2 知識獲取模塊的實(shí)現(xiàn) 239
12.3.3 分詞模塊的實(shí)現(xiàn) 239
12.3.4 查錯(cuò)模塊的實(shí)現(xiàn) 240
12.3.5 糾錯(cuò)模塊的實(shí)現(xiàn) 241
12.4 系統(tǒng)評測 243
12.4.1 評測目的和評測性能指標(biāo) 243
12.4.2 標(biāo)準(zhǔn)評測庫的建立和評測方法 244
12.5 本章小結(jié) 245
附錄:漢語語料加工詞性標(biāo)記體系 246
參考文獻(xiàn) 247