基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立
定 價:55 元
- 作者:劉智穎
- 出版時間:2015/2/1
- ISBN:9787516155769
- 出 版 社:中國社會科學(xué)出版社
- 中圖法分類:H1
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16K
《基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立》針對自然語言處理資源建設(shè)方面的需求,從語義的角度、句子的層面研究建立句子級語義標(biāo)注語料庫。
《基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立》以HNC(概念層次網(wǎng)絡(luò))理論句類體系為基礎(chǔ),探討了句子級語義標(biāo)注語料庫的標(biāo)注內(nèi)容、標(biāo)注方法和標(biāo)注難點,確定了XML的標(biāo)注規(guī)范,設(shè)計了語料庫的查詢工具。
《基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立》是HNC理論在資源建設(shè)方面的研究與發(fā)展。該語料庫的建設(shè)與研究不僅對于計算機理解語義具有重要意義,而且對語言學(xué)工作者也具有一定的參考價值。
劉智穎,2010年畢業(yè)于北京師范大學(xué)語言學(xué)及應(yīng)用語言學(xué)專業(yè),獲博士學(xué)位,F(xiàn)任北京師范大學(xué)中文信息處理研究所講師,碩士生導(dǎo)師。主要研究方向為中文信息處理。在國內(nèi)學(xué)術(shù)期刊及自然語言處理的國際會議發(fā)表論文20余篇,參編信息處理用詞典一部。曾主持國家“865”項目“中文信息處理應(yīng)用基礎(chǔ)研究”的“句子級語義標(biāo)注的現(xiàn)代漢語語料庫”課題,并作為主要研究人員參與了多項國家865課題和國家科技支撐計劃課題的研究。
第一章 緒論
第一節(jié) 中文信息處理的研究熱點
第二節(jié) 基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫
第三節(jié) 本書的研究內(nèi)容
一 標(biāo)注項
二 標(biāo)注方式
三 管理工具功能設(shè)計
第四節(jié) 已有的研究
一 現(xiàn)代漢語詞義標(biāo)注語料庫
二 漢語框架語義標(biāo)注語料庫
三 語義結(jié)構(gòu)標(biāo)注語料庫
第五節(jié) 本書的結(jié)構(gòu)安排
第二章 HNC理論及其句類思想
第一節(jié) HNC理論簡介
第二節(jié) HNC的句類思想
第三節(jié) 句類及句類知識
一 基本句類
二 混合句類
三 復(fù)合句類
第三章 HNC語義標(biāo)注語料庫的設(shè)計
第一節(jié) 語料的采集
第二節(jié) 語料的加工
一 標(biāo)注規(guī)模
二 標(biāo)注特點
三 標(biāo)注形式
第四章 HNC語義標(biāo)注語料庫的標(biāo)注規(guī)范
第一節(jié) XML語言介紹
一 XMlL的歷史
二 XML的內(nèi)容
三 XML的特點和優(yōu)點
第二節(jié) HNC語義標(biāo)注語料庫的XML標(biāo)注規(guī)范
一 XML文檔
二 Schema模式
三 XSL轉(zhuǎn)換
第五章 HNC語義標(biāo)注語料庫的標(biāo)注
第一節(jié) 標(biāo)注內(nèi)容
一 篇頭信息
二 篇體信息
第二節(jié) 標(biāo)注難點
一 語義塊核心要素的部分缺省
二 包裝品與分離語
三 “的”字短語
四 “所”字結(jié)構(gòu)
五 基于全句理解的句類
第六章 語料標(biāo)注工具的設(shè)計與使用
第一節(jié) TXTxML文檔的轉(zhuǎn)換
第二節(jié) XMLspy標(biāo)注工具的使用
一 XMLSpy工具介紹
二 語料的標(biāo)注
三 檢查與驗證
第七章 HNC語義標(biāo)注語料庫查詢工具
第一節(jié) 查詢工具的特點
一 快捷的查詢速度
二 友好的查詢界面
三 強大的查詢功能
第二節(jié) 查詢工具的功能設(shè)計
一 數(shù)據(jù)的存儲
二 數(shù)據(jù)庫的操作
三 語料查詢
第八章 HNC語義標(biāo)注語料庫的應(yīng)用
第一節(jié) 在語言本體研究方面的應(yīng)用
第二節(jié) 在中文信息處理方面的應(yīng)用
第三節(jié) 在語言教學(xué)方面的應(yīng)用
第四節(jié) 結(jié)語
附錄
附錄1 HNC句子級語義標(biāo)注語料庫的xML規(guī)范
附錄2 HNC句子級語義標(biāo)注語料庫標(biāo)注文檔示例
參考文獻
后記
《基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立》:
復(fù)雜句分為共享句與無共享句以及介于兩者之間的半共享旬三種類型。共享句是指分句間存在廣義對象語義塊整體共享現(xiàn)象的復(fù)句。《HNC(概念層次網(wǎng)絡(luò))理論》中定義的復(fù)合句實際上就是共享句。半共享句是指分句問存在局部共享(即要素共享)現(xiàn)象的復(fù)句。無共享句是指分句間不存在共享現(xiàn)象的復(fù)句。共享句中有兩個特殊子類:一是迭句(居后句子的第一個廣義對象語義塊共用居前句子的第一個廣義對象語義塊),二是鏈句(居后句子的第一個廣義對象語義塊共用居前句子的最后一個廣義對象語義塊)。(池毓煥,2005)
我們用來標(biāo)注復(fù)雜句。復(fù)雜句的類型信息我們用內(nèi)所包含的屬性type進行標(biāo)記,type的取值表示復(fù)雜句的各個類型。取值為“1”表示無共享句,即分句的各語義塊之間不存在共享;取值為“2”表示迭句;取值為“3”表示鏈句;取值為“4”表示復(fù)雜共享句,指分句內(nèi)的某個整語義塊共享分句內(nèi)或分句外多個語義塊或半個語義塊,或分句內(nèi)的某半個語義塊共享分句內(nèi)或分句外多個語義塊的情況,因具體語義塊共享情況比較復(fù)雜,故稱為復(fù)雜共享句,《基于HNC的現(xiàn)代漢語句子級語義標(biāo)注語料庫的研究和建立》對其內(nèi)部的各種復(fù)雜共享情況暫不進行分類表示;取值為“5”表示無共享句,指分句內(nèi)的語義塊完整,不存在共享其他語義塊的情況。復(fù)雜句元素本身不提供句類信息,句類信息蘊含在其包含的(sentence)子元素里面。
除了子元素外,復(fù)雜句下面還包含、和元素。元素用來標(biāo)注關(guān)聯(lián)詞語信息,元素用來標(biāo)注獨立語信息,元素用來標(biāo)注輔塊信息,復(fù)雜句下面的輔塊是復(fù)雜句所包含的分句的共同輔塊,而非某一個特定分句的輔塊,特定分句的輔塊信息會標(biāo)注在子元素里面。
元素既可以表示簡單句,也可以表示復(fù)雜句的分句。主要包含下列元素:廣義對象語義塊、特征語義塊、輔語義塊、關(guān)聯(lián)語、獨立語、分離語。其中語義塊是句子構(gòu)成的基本單位。分離語是指從語義塊中分離出來的部分。HNC認(rèn)為,語義塊存在構(gòu)成和分離的現(xiàn)象,因此需要對分離部分做出語義標(biāo)記,分離語是HNC特有的語義標(biāo)注信息。
……