這是一部從技術(shù)原理、算法和工程實踐3個維度系統(tǒng)講解圖像識別的著作,由阿里巴巴達摩院算法專家、阿里巴巴技術(shù)發(fā)展專家、阿里巴巴數(shù)據(jù)架構(gòu)師聯(lián)合撰寫。
在知識點的選擇上,本書廣度和深度兼顧,既能讓完全沒有基礎的讀者迅速入門,又能讓有基礎的讀者深入掌握圖像識別的核心技術(shù);在寫作方式上,本書避開了復雜的數(shù)學公式及其推導,從問題的前因后果 、創(chuàng)造者的思考過程,利用簡單的數(shù)學計算來做模型分析和講解,通俗易懂。更重要的書,本書不僅僅是聚焦于技術(shù),而是將重點放在了如何用技術(shù)解決實際的業(yè)務問題。
全書一共13章:
第1-2章主要介紹了圖像識別的應用場景、工具和工作環(huán)境的搭建;
第3-6章詳細講解了圖像分類算法、機器學習、神經(jīng)網(wǎng)絡、誤差反向傳播等圖像識別的基礎技術(shù)及其原理;
第7章講解了如何利用PyTorch來實現(xiàn)神經(jīng)網(wǎng)絡的圖像分類,專注于實操,是從基礎向高階的過渡;
第8-12章深入講解了圖像識別的核心技術(shù)及其原理,包括卷積神經(jīng)網(wǎng)絡、目標檢測、分割、產(chǎn)生式模型、神經(jīng)網(wǎng)絡可視化等主題;
第13章從工程實踐的角度講解了圖像識別算法的部署模式。
購買本書的讀者請在http://www.hzcourse.com/web/refbook/detail/8376/226下載源代碼
為什么要寫這本書
隨著深度學習技術(shù)的發(fā)展、計算能力的提升和視覺數(shù)據(jù)的增長,視覺智能計算技術(shù)在許多應用領(lǐng)域如拍照搜索、智能相冊、人臉閘機、城市智能交通管理、智慧醫(yī)療等都取得了令人矚目的成績。因此越來越多的人開始對機器視覺感興趣,并開始從事這個行業(yè)。就圖像識別領(lǐng)域來說,運行一個開源的代碼并不是什么難事,但搞懂其中的原理確實會稍有些難度。因此本書在每章中都會用相對通俗的語言來介紹算法的背景和原理,并會在讀者似懂非懂時給出實戰(zhàn)案例。實戰(zhàn)案例的代碼已全部在線下運行通過,代碼并不復雜,可以很好地幫助讀者理解其中的細節(jié),希望讀者在學習理論之后可以親自動手實踐。圖像識別的理論和實踐是相輔相成的,希望本書可以帶領(lǐng)讀者走進圖像識別的世界。
本書從章節(jié)規(guī)劃到具體的講述方式,具有以下兩個特點:
第一個特點是本書的主要目標讀者定位為高校相關(guān)專業(yè)的本科生(統(tǒng)計學、計算機技術(shù))、圖像識別愛好者,以及不具備專業(yè)數(shù)學知識的人群。圖像識別是一系列學科的集合體,它以機器學習、模式識別等知識為基礎,因此依賴很多數(shù)學知識。本書盡量繞開復雜的數(shù)學證明和推導,從問題的前因后果、創(chuàng)造者思考的過程和簡單的數(shù)學計算的角度來做模型的分析和講解,目的是以更通俗易懂的方式帶領(lǐng)讀者入門。另外,在第8~12章的后面都附有參考文獻,想要深入了解的讀者可以繼續(xù)閱讀。
第二個特點是本書在每章后面都附有實戰(zhàn)案例,讀者可以結(jié)合案例學習,通過實踐驗證自己想法的價值。在本書的內(nèi)容編排上,遵循知識點背景介紹原理剖析實戰(zhàn)案例的介紹方式,同時所有的代碼會在書中詳細列出或者上傳到GitHub,以方便讀者下載與調(diào)試,幫助讀者快速掌握知識點,快速上手,而且這些代碼也可以應用到后續(xù)實際的開發(fā)項目中。在實際項目章節(jié)中,選取目前在圖像識別領(lǐng)域中比較熱門的項目,對之前的知識點進行匯總,幫助讀者鞏固與提升。
讀者對象
統(tǒng)計學或相關(guān)IT專業(yè)學生
本書的初衷是面向相關(guān)專業(yè)的學生擁有大量基于理論知識的認知卻缺乏實戰(zhàn)經(jīng)驗的人員,讓其在理論的基礎上深入了解。通過本書,學生可以跟隨本書的教程一起操作學習,達到對自己使用的人工智能工具、算法和技術(shù)知其然亦知其所以然的目的。
信息科學和計算機科學愛好者
本書是一本近現(xiàn)代科技的歷史書,也是一本科普書,還是一本人工智能思想和技術(shù)的教科書。通過本書可以了解人工智能領(lǐng)域的前輩們在探索的道路上做出的努力和思考,理解他們不同的觀點和思路,有助于開拓自己的思維和視野。
人工智能相關(guān)專業(yè)的研究人員
本書詳細介紹了圖像識別的相關(guān)知識。通過本書可以了解其理論知識,了解哪些才是項目所需的內(nèi)容以及如何在項目中實現(xiàn),能夠快速上手。
如何閱讀本書
本書從以下幾個方面闡述圖像識別:
第1章介紹圖像識別的一些應用場景,讓讀者對圖像識別有個初步的認識。
第2章主要對圖像識別的工程背景做簡單介紹,同時介紹了本書后續(xù)章節(jié)實戰(zhàn)案例中會用到的環(huán)境,因此該章是實戰(zhàn)的基礎。
第3~6章是圖像識別的技術(shù)基礎,包括機器學習、神經(jīng)網(wǎng)絡等。該部分的代碼主要使用Python實現(xiàn)。沒有機器學習基礎的同學需要理解這幾章之后再往下看,有機器學習基礎的同學可以有選擇地學習。
第7章是一個過渡章節(jié),雖然第6章中手動用Python實現(xiàn)了神經(jīng)網(wǎng)絡,但由于本書后面的圖像識別部分主要使用PyTorch實現(xiàn),因此使用該章作為過渡,介紹如何使用PyTorch來搭建神經(jīng)網(wǎng)絡。
第8~12章為圖像識別的核心。第8章首先介紹了圖像中的卷積神經(jīng)網(wǎng)絡與普通神經(jīng)網(wǎng)絡的異同,并給出了常見的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)。接下來的第9~12章分別介紹了圖像識別中的檢測、分割、產(chǎn)生式模型以及可視化的問題,并在每章后面給出相應的實戰(zhàn)案例。
第13章簡單介紹了圖像識別的工業(yè)部署模式,以幫助讀者構(gòu)建一個更完整的知識體系。
第8~12章包含參考文獻,主要是本書中介紹的一些方法,或者本書中提到但是沒有深入說明的方法,感興趣的讀者可以自行查詢學習。
關(guān)于附件的使用方法:除了第1章外,本書的每一章都有對應的源數(shù)據(jù)和完整代碼,這些內(nèi)容可在本書中直接找到,有些代碼需要從GitHub中下載,地址為http://www.hzcourse.com/web/refbook/detail/8376/226。需要注意的是,為了讓讀者更好地了解每行代碼的含義,在注釋信息中使用了中文標注,每個程序文件的編碼格式都是UTF-8。
勘誤和支持
由于本書的作者水平及撰稿時間有限,書中難免會出現(xiàn)一些錯誤或者不準確的地方,懇請讀者批評指正。讀者可通過發(fā)送電子郵件到weixihan1@163.com和kenny_tm@hotmail.com聯(lián)系并反饋建議或意見。
致謝
首先非常感謝我的家人,由于業(yè)余時間常常被工作擠占,本書的撰寫又用了所剩不多的業(yè)余時間,因此少了很多陪伴家人的時間,感謝他們的理解、支持和鼓勵。
撰寫一本書,將自己的知識重新梳理后分享給讀者,在技術(shù)發(fā)展的道路上幫助到其他人,這件事情是非常有價值的,因此也非常感謝兩位合著者涂銘、張修鵬。
感謝機械工業(yè)出版社華章公司的楊福川老師,以及全程參與審核、校驗等工作的張錫鵬、孫海亮老師等出版工作者,是他們的辛勤付出才能保證本書順利面世。
感謝我身邊的朋友、同事、同學,感謝一路走來你們的支持、鼓勵和幫助。
謹以此書獻給熱愛算法并為之奮斗的朋友們,愿大家身體健康、生活美滿、事業(yè)有成!
魏溪含
書籍初成,感慨良多。
在接受邀請撰寫該書時,從未想到過程如此艱辛與波折。這里需要感謝一路陪我走來的所有人。
感謝我的家人的理解和支持,陪伴我度過寫作本書的漫長歲月。
感謝我的合寫者魏溪含和張修鵬,與他們合作輕松愉快,他們給予我很多的理解和包容。
感謝參與審閱、校驗等工作的楊福川老師以及其他老師,是他們在幕后的辛勤付出保證了本書的成功出版。
另外在本書的寫作期間,有很多專業(yè)領(lǐng)域的內(nèi)容都得到了各個領(lǐng)域?qū)<业闹笇踔劣H筆編著。這里需要特別感謝阿里云計算公司產(chǎn)品方面的專家李駿,編寫了第13章全部內(nèi)容,感謝他在產(chǎn)品和技術(shù)上利用其豐富的行業(yè)經(jīng)驗為本書留下的寶貴財富。
再次感謝大家!
涂 銘
首先要感謝我的妻子金暉,我能在工作繁忙的情況下參與此書的編寫,離不開她的付出和支持,感謝我的寶貝張正延,給了我無窮的動力,感謝我的父親、母親,永遠深愛你們。
感謝魏溪含和涂銘!魏溪含在書中貢獻了她圖像識別領(lǐng)域多年的經(jīng)驗,涂銘為此書的出版付出了最多的心血。
這本書是友誼和工作成果的結(jié)晶,本書作為我們并肩奮斗的見證,希望能將我們實踐經(jīng)驗沉淀成的知識,幫助到更多希望了解和學習深度學習與圖像識別的讀者。
感謝楊福川等機械工業(yè)出版社的老師們,他們在幕后的付出和支持,是本書得以出版的保障。
最后感謝這些年一路走來幫助過我的親人、老師、朋友、同事、同學,始終滿懷感恩!
張修鵬