本書將利用文本挖掘和情報學中的信息分析方法,采用大樣本數(shù)據(jù)集對具有非專利引文關系的科學論文與技術專利文本的知識相關性進行檢驗。在四輪德爾菲專家調查后歸納總結兩類文本具有的知識相關類型,并在此基礎上提出能夠反映科學研究創(chuàng)新應用潛力的文本知識相關性計算方法與技術,協(xié)助企業(yè)從事基于科學的技術創(chuàng)新實踐,達到提升研發(fā)效率的目的。
科技創(chuàng)新是國家濟和社會發(fā)展的重要支撐,科學發(fā)展對技術創(chuàng)新的積極作用得到了各國政府和各領城學者的廣泛認可。企業(yè)作為國家技術創(chuàng)新體系中活躍和重要的參與主體,是創(chuàng)新驅動發(fā)展戰(zhàn)略的中堅力量?茖W研究中已揭示的科學發(fā)展對技術創(chuàng)新的作用以及多元主體從事研發(fā)活動所積累的創(chuàng)新成果等,為以企業(yè)為代表的技術創(chuàng)新主體開展基于科學的技術創(chuàng)新實踐提供了理論指導和知識積累。
作為科學和技術領域間存在關聯(lián)關系的重要依據(jù),專利文獻含的非專利引文為探索二者間復雜的作用關系和互動方式提供了可度量的現(xiàn)實途徑。已有的研究多根據(jù)技術專利和學術論文中的著錄信息在不同
創(chuàng)新主體、創(chuàng)新領城、創(chuàng)新成果之間建立映射,再結合創(chuàng)新擴散、社會
再
網(wǎng)絡關系、技術轉移等理論探討科學發(fā)展推動技術創(chuàng)新的內在原理與作用機制。雖然非專利引文真正關聯(lián)的是學術論文和技術專利這兩類文本,但其能夠作為關聯(lián)科學和技術領城的依據(jù)則是基于這樣兩個假設:,專利和論文分別是技術創(chuàng)新和科學研究的重要產(chǎn)出;第二,非專利引文關系中的專利與論文之間存在知識上的相關性。
目前,學術界對于個假設的成立已達成共識,在對各個國家和地區(qū)授予專利和文數(shù)行統(tǒng)計后可以發(fā)現(xiàn),企業(yè)和以高校為代表的科研機構分別是專利和論文的申請與發(fā)表的主體,因而將專利和論文作為兩類創(chuàng)新主體的主要創(chuàng)新產(chǎn)出存在合理性。然而,關于第二個假設的成立仍缺少系統(tǒng)且全面的科學論證,這直接影響了建立在非專利引文基礎上的科學和技術關聯(lián)研究的可靠性。此外,雖然重大技術突破離不開相關領城的科展,但并非所有與施引專利存在知識相關性的學術成果對于技術問題的解決都具有直接推動作用,優(yōu)秀的科研成果也并是具有可直行技術轉化的高應用價值。在企業(yè)的技術創(chuàng)新實踐中,非專利引文能夠為研發(fā)活動需要的科學知識提供具體線索,但過分依賴容易造成科學研究和技術創(chuàng)新發(fā)展邏輯上的不兼容而導致企業(yè)研發(fā)戰(zhàn)略的制定和資源投入出現(xiàn)偏差,增加項目投資風險、延長了技術研發(fā)周期。因此,檢驗非專利引文關系學和技術文本知識相關性,揭示兩類文本的知識相關類型和特點,開發(fā)能夠從非專利引文中識別具有技術創(chuàng)新應用潛力科學研究的技術方法,對于探索科學與技術間的復雜關系,豐富和完善二者相關性研究的范式與方法,指導企業(yè)從事基于科學的技術創(chuàng)新實踐等具有重要意義。
本書利用文本挖掘技術和信息分析方法對非專利引文關系中的論文和專利兩類科學與技術文本的知識相關行系統(tǒng)研究,主要的研究內容如下:
(1)梳理科學與技術間存在關聯(lián)關系的理論依據(jù)、研究方手段,對基于非專利引文所確立的科學技術相關性研究現(xiàn)行評述并指出不足。
(2)將研究對象限定在論文和專利兩類科學和技術文本,并將非專利引文限定在技術專利對科學論文的引用上。以向量空間模型計算兩類文本的知識相關性,采用大樣本數(shù)據(jù)集對3D打印技術領城非專利引文關系中的論文和專利的知識相關行檢驗,對非專利引文能否作為判定兩類文本存在知識相關性的依據(jù)提供系統(tǒng)而全面的論證。
(3)在四輪德爾菲專家調查法后歸結施引專利與被引論文間的知識相關類型,結合創(chuàng)新擴散、基于文獻的知識,探討與專利存在不同相關類型的科學研究成果如何輔助企業(yè)的技術創(chuàng)新實踐,是如何加快具體技術問題的解決。在此基礎上,分析以向量空間模型為基礎的相關性計算結果對不同知識相關文本的度量效果,指出將高得分科學研究成果作為實現(xiàn)技術創(chuàng)新重要途徑存在的問題與不足。
(4)針對上述傳統(tǒng)相關性計算方法中的不足,從信息抽取、知識表示、相關性度量三個方面入手,提出能夠從非專利引文中識別具有創(chuàng)新應用潛力的科學研究的方法括用于專利和論文知識內容表示的關鍵詞抽取算法、融合概念間語義信息的文本知識表示方文與專利的知識相關性計算方法。
(5)為了體現(xiàn)本書提出的相關性計算方法的性,以3D打印技術領域的技術專利和科學論文為分析對象,介紹如何將該方法應用于企業(yè)的技術創(chuàng)新合作伙伴識別任務當中。揭示將該相關性結果作為合作伙伴評價指標對識別結果的影響,以此證明本書的方法在科學和技術文本知識相關性計算方面的可靠性。
本書的主要研究結論與成果如下:
(1)證明了具有非專利引文關系的技術專利和科學論文之間的確存在知識相關性。
(2)提出了非專利引文關系中專利與論文具有的四種知識相關類別,即知識背景相關、創(chuàng)新依存相關、能相關、主題概念相關。
(3)提出了一種可用于表示專利和論文摘要中重要知識內容的關鍵詞抽取算法,并在開放語料上證明其的性能。
(4)提出了一種用于計算專利和論文文本知識相關性的新方法,可反映文本知識在文本內容、“技能”關聯(lián)、知識網(wǎng)絡距離三個維度上的相關性特征。
(5)以3D打印技術領域企業(yè)的技術創(chuàng)新合作伙伴識別任務為例,證明了相關方法在科學和技術文本相關性計算方面的性,說明了本書的方法應用境廣泛。
第1章導論/1
1.1研究背景與研究問題/1
1.2研究目標與研究意義/4
1.3研究思路/7
第2章理論基礎與研究綜述/10
2.1相關概念界定/10
2.2科學與技術關聯(lián)的理論基礎/15
2.3科學與技術的定量關聯(lián)方法/
2.4基于非專利引文的科學技術關聯(lián)研究/23
2.5科學論文與技術專利的信息抽取方法/26
第3章非專利引文文本知識相關性的可靠性研究/37
3.1假設的提出/38
3.2數(shù)據(jù)采集與預處理/38
3.3非專利引文的知識相關性的比較分析/45
3.4基于非專利引文耦合的專利知識相關性檢驗/
3.5本章小結/67
第4章基于關鍵詞網(wǎng)絡的專利與論文知識內容提取/69
4.1摘要文本的預處理與圖表示方法/71
4.2基于共現(xiàn)與語義連接的關鍵詞加權方法/85
4.3關鍵詞抽取方法的比較與評估/90
本章小結/95
非專利引文關系文本的知識相關性計算方法/96
5.1問題描述與概念界定/97
5.2異質信息網(wǎng)絡生成與元路徑設定/105
5.3基于異質信息網(wǎng)絡的專利與論文知識相關性計算/109
5.4算法評估與討論/118
5.5本章小結/130
第6章科學與技術文本知識相關性的應用研究/131
6.1基于技術專利的企業(yè)一技術領域關聯(lián)分析/134
6.2基于科學論文的科研機構一一科學知識關聯(lián)分析/146
6.33D打印技術企業(yè)與科研機構的知識相關性計算/153
3D打印技術企業(yè)的科研機構合作伙伴識別/157
6.5本章小結/170
第7章研究結論與展望/172
7.1主要研究結論/172
7.2研究創(chuàng)新點與貢獻/174
7.3研究局限與展望/177
參考文獻/179
附錄/ 195
附錄A:科學與技術文本知識相關類型調查問卷/195
附錄B:德爾菲專家調查反饋結果/ 196
索引/ 198