本書共分為六個部分:基礎入門、研究設計和基礎工具、文本挖掘基礎、人文社會科學與文本分析、計算機科學與文本挖掘、寫作和展示,在內容安排上由淺入深、循序漸進。相較于單一且詳盡的方法教程,本書的目的更多是在于指導學生運用社會世界的文本數(shù)據(jù)來設計一項可行的社會科學研究。本書涵蓋了文本挖掘研究多個方面的關鍵問題,包括網(wǎng)絡抓取和爬蟲、策略性數(shù)據(jù)選擇、數(shù)據(jù)抽樣、特定的文本分析和文本挖掘方法以及研究報告的撰寫。除了技術性內容,本書還討論了基于文本的社會科學研究設計面臨的倫理和哲學問題。同時,書中還提供了各種學科的具體案例,方便來自不同領域的文本挖掘研究者理解和學習。
加布·伊格納托(Gabe Ignatow)
社會學副教授,2007年起任教于北得克薩斯州大學(UNT)。研究方向為社會學理論、文本挖掘和分析、新媒體以及信息政策。
目前與計算機科學和統(tǒng)計學領域的專家合作,將文本挖掘和主題模型技術應用于社會科學研究。1990年以來,加布一直致力于文本的混合分析方法,并在以下期刊發(fā)表了研究成果:Social Forces,Sociological Forum,Poetics,Journal for the Theory of Social Behaviour,Journal of Computer-Mediated Communication。共發(fā)表或出版三十余篇論文和圖書章節(jié),擔任以下期刊的編委會成員:Sociological Forum、Journal for the Theory of Social Behaviour和Studies in Media and Communication。
曾擔任北得克薩斯州大學社會學系研究生項目副主任和本科生項目主任,耶魯大學文化社會學中心理事會成員。研究生項目搜索引擎公司GradTrek的聯(lián)合創(chuàng)始人和首席執(zhí)行官。
拉達·米哈爾。≧ada Mihalcea)
密歇根大學計算機科學與工程專業(yè)教授,研究興趣為計算語言學,尤其是詞匯語義學、多語自然語言處理和計算社會科學。擔任以下期刊的編委:Computational Linguistics,Language Resources and Evaluation,Natural Language Engineering,Research on Language and Computation,IEEE Transactions on Affective Computing以及Transactions of the Association for Computational Linguistics。
2015年計算語言學協(xié)會北美分會(NAACL)會議主席,2011年計算語言學協(xié)會會議聯(lián)合項目主席,2009年自然語言處理中的經(jīng)驗方法會議聯(lián)合項目主席。曾獲2008年美國國家科學基金會CAREER獎和2009年美國青年科學家與工程師總統(tǒng)獎。2013年,獲得家鄉(xiāng)羅馬尼亞克盧日-納波卡頒發(fā)的榮譽公民稱號。
譯者簡介
汪順玉
二級教授,博士,博士生導師,西外學者領軍學者,西安外國語大學研究生院院長。先后主持國家社科重點項目、jiaoyu部人文社科項目、省市級哲學社會科學規(guī)劃課題、教改重點課題、教育考試院課題等 10 余項。在《外語教學》《英語研究》《重慶大學學報》《上海科技翻譯》《天津外國語大學學報》等刊物發(fā)表學術論文 30 余篇,出版學術專著、譯著、教材 8 部。學術興趣包括語言測試與評價、學術翻譯、話語研究、社會研究方法等。
陳瑞哲
西安外國語大學在讀博士,西安郵電大學人文與外國語學院講師。發(fā)表學術論文10余篇,出版書籍5部,譯著2部。曾獲陜西省第十五次哲學社會科學優(yōu)秀成果獎二等獎,陜西高等學校人文社會科學研究優(yōu)秀成果三等獎。研究興趣為文本挖掘和話語分析。