開放協(xié)同的科技大數(shù)據(jù)匯聚融合與演化分析
定 價:158 元
叢書名:科技大數(shù)據(jù)理論與技術叢書
當前圖書已被 14 所學校薦購過!
查看明細
- 作者:陳浩等著
- 出版時間:2022/6/1
- ISBN:9787030713902
- 出 版 社:科學出版社
- 中圖法分類:G203
- 頁碼:255
- 紙張:膠版紙
- 版次:1
- 開本:16開
本書針對現(xiàn)有科技大數(shù)據(jù)存在眾多數(shù)據(jù)來源、數(shù)據(jù)異構、數(shù)據(jù)質量不均衡等問題, 解決多源異構科技大數(shù)據(jù)的數(shù)據(jù)采集、清洗、融合、存儲等問題, 構建科技大數(shù)據(jù)高效匯聚融合、智能演化分析、以及個性化檢索服務平臺。主要內容包括多源異構科技大數(shù)據(jù)采集機制、科技大數(shù)據(jù)匯聚融合機制、科技大數(shù)據(jù)分布式存儲關鍵技術、面向開放協(xié)同的科技大數(shù)據(jù)檢索服務接口、科技大數(shù)據(jù)交換與可信確權、科技大數(shù)據(jù)交互式演化分析、面向領域的科技大數(shù)據(jù)智能服務應用。
更多科學出版社服務,請掃碼獲取。
目錄
第1章 緒論 1
1.1 研究背景及意義 1
1.2 國內外研究現(xiàn)狀 3
1.3 研究目標和內容 8
1.4 研究創(chuàng)新和預期效益 10
第2章 多源異構科技大數(shù)據(jù)資源體系建設與應用場景 12
2.1 科技大數(shù)據(jù)的概念定義 12
2.2 科技大數(shù)據(jù)模型框架設計 14
2.3 科技大數(shù)據(jù)資源體系建設 17
2.4 科技大數(shù)據(jù)服務體系建設 32
2.5 本章小結 36
第3章 多源異構科技大數(shù)據(jù)分布式存儲關鍵技術 37
3.1 面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關鍵技術 37
3.2 分布式計算環(huán)境下科技大數(shù)據(jù)協(xié)同存儲機制 39
3.3 基于分布式計算的科技大數(shù)據(jù)可擴展存儲機制 43
3.4 異構科技數(shù)據(jù)安全可信交換模型 48
3.5 延遲感知的科技數(shù)據(jù)自適應副本管理機制 51
3.6 本章小結 53
第4章 科技大數(shù)據(jù)匯聚融合與演化分析系統(tǒng)架構 54
4.1 科技大數(shù)據(jù)匯聚融合需求分析 54
4.2 系統(tǒng)設計 57
4.3 功能模塊詳細設計 62
4.4 系統(tǒng)技術架構設計 71
4.5 本章小結 75
第5章 科技大數(shù)據(jù)匯聚融合機制 76
5.1 多源異構科技數(shù)據(jù)源語義映射機制 76
5.2 基于領域知識的科技大數(shù)據(jù)采集規(guī)則 79
5.3 基于粗糙集理論的科技大數(shù)據(jù)清洗方法 81
5.4 面向開放協(xié)同的多源異構科技大數(shù)據(jù)特征融合 88
5.5 本章小結 97
第6章 科技大數(shù)據(jù)實體智能匹配與查詢 98
6.1 科技大數(shù)據(jù)高性能索引關鍵技術 98
6.2 科技大數(shù)據(jù)模糊查詢匹配的高效采樣方法 102
6.3 面向科技大數(shù)據(jù)分析的過濾規(guī)則建模方法 111
6.4 科技大數(shù)據(jù)分析方法推薦技術 120
6.5 本章小結 125
第7章 面向開放協(xié)同的科技大數(shù)據(jù)檢索服務接口 126
7.1 科技大數(shù)據(jù)元數(shù)據(jù) 126
7.2 科技大數(shù)據(jù)檢索接口標準制定 130
7.3 科技大數(shù)據(jù)檢索服務接口 133
7.4 科技大數(shù)據(jù)檢索與管理 159
7.5 本章小結 163
第8章 科技大數(shù)據(jù)追蹤保護與演化分析 164
8.1 基于混合選舉的委員會共識機制 164
8.2 基于多級社區(qū)的區(qū)塊鏈共識機制 170
8.3 基于區(qū)塊鏈的科技大數(shù)據(jù)交換 176
8.4 基于區(qū)塊鏈的科技大數(shù)據(jù)可信確權 187
8.5 基于區(qū)塊鏈的科技大數(shù)據(jù)追蹤保護 191
8.6 本章小結 201
參考文獻 202
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
隨著新興技術的不斷突破,不管是區(qū)塊鏈還是AI(artificial intelligence,人工智能),抑或是大數(shù)據(jù),當前正處于科技和產(chǎn)業(yè)變革的關鍵節(jié)點。隨著技術的進步和社會需求的改變,每一天、每一小時甚至每一秒都在不斷產(chǎn)生海量支撐AI發(fā)展的科技數(shù)據(jù)。盡管數(shù)據(jù)龐雜,但其中記載著詳細學科知識、相關真理及驗證過程、某學科的實驗過程和結論等,這些對推動技術發(fā)展起到關鍵作用的核心科技情報知識線索,是現(xiàn)代各尖端領域用于科技創(chuàng)新發(fā)現(xiàn)的算法模型實現(xiàn)的核心數(shù)據(jù)根基和重要知識基礎[1]。
在數(shù)據(jù)快速增長的信息爆炸時代,亟待解決的問題就是對大數(shù)據(jù)的數(shù)據(jù)質量的甄別及分析。解決信息孤島和數(shù)據(jù)疏散等問題,沖破現(xiàn)行的各類行政壁壘,推進科技資本的合理布局、統(tǒng)籌規(guī)劃及整合,從而滿足同享同用的需求;解決數(shù)據(jù)時效性差、多頭來源,數(shù)據(jù)指標不統(tǒng)一、口徑不一致的問題,從而實現(xiàn)資源規(guī)范標準、利用快捷高效;解決數(shù)據(jù)開發(fā)潛力不足的難題,從而實現(xiàn)多形式展示、深層次挖掘、定制式推送、個性化服務等。對復雜構成的科技大數(shù)據(jù)進行基于語義的計算分析,已經(jīng)成為Google、Microsoft等企業(yè)搶占未來大數(shù)據(jù)AI服務的重要部署[2]。
一系列文件指出,應該建立健全鼓勵原始創(chuàng)新、集成創(chuàng)新、引進消化吸收再創(chuàng)新的體制機制,健全技術創(chuàng)新市場導向機制,建立產(chǎn)學研協(xié)同創(chuàng)新機制,加強知識產(chǎn)權運用和保護,健全技術創(chuàng)新激勵機制,整合科技規(guī)劃和資源,完善政府對基礎性、戰(zhàn)略性、前沿性科學研究和共性技術研究的支持機制[3, 4]。我國現(xiàn)階段在科技平臺建設方面,不管是模式、內容還是機制都面臨著巨大的挑戰(zhàn),而矢志不渝地進行科技平臺建設是推動知識服務的供給側結構性改革的重要部分。
盡管我國于2003年全面啟動國家科技基礎條件平臺建設,并產(chǎn)出了很多重要的成果,但目前仍存在不少亟待突破的問題,如平臺信息滯后、各平臺間聯(lián)結度與信息共享度低,無法滿足客戶動態(tài)需求等,解決這些問題將會使我國的科技平臺建設飛躍到一個新的高度。開放共享經(jīng)濟環(huán)境下,借助云技術的精準定位與信息挖掘,探索科技大數(shù)據(jù)服務平臺的功能與運作,有利于實時追蹤技術交易,提供個性化信息推送、專利技術需求智能關聯(lián)等服務,進而促進科技向生產(chǎn)力的快速轉化。
數(shù)據(jù)作為目前最有價值、最重要的資本之一,得到了研究人員的廣泛關注。企業(yè)管理者能否做出正確決策與其承載數(shù)據(jù)量的大小有關,所以,對歷史數(shù)據(jù)的采集和處理一直都是研究人員關注的重點內容,大型企業(yè)、中小型企業(yè)及政府部門都在對構建大數(shù)據(jù)平臺進行探索、整合各部門數(shù)據(jù),進而形成關聯(lián),最終將其有效用于決策支持。大數(shù)據(jù)有別于常見的數(shù)據(jù),通常使用一些常規(guī)軟件就可以實現(xiàn)常見的數(shù)據(jù)的抓取、分析和處理等操作,但大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)價值密度相對較低、數(shù)據(jù)類型多、處理速度快、時效性要求高等特征,人們無法使用常規(guī)處理數(shù)據(jù)的方式去處理大數(shù)據(jù)。而針對大數(shù)據(jù)的分析與處理,往往不是使用隨機分析、抽樣調查等方法對局部數(shù)據(jù)進行操作,而是對所有數(shù)據(jù)進行分析,從而得到數(shù)據(jù)整體的分析結果與處理方案。這就要求在大數(shù)據(jù)處理過程中,采用技術上具有可操作性、便捷高效的處理模式。因此,對大數(shù)據(jù)進行分析處理,要求具備從大量數(shù)據(jù)中抽絲剝繭地提取出有效的數(shù)據(jù)信息,對大批量數(shù)據(jù)從不同維度同時進行分析處理,并快速得到目標數(shù)據(jù)集的能力。
大數(shù)據(jù)涉及很多領域,其中具備科技及知識屬性的大數(shù)據(jù)資源,被認為是科技大數(shù)據(jù)?萍即髷(shù)據(jù)依托于信息技術的高速發(fā)展,加速了與經(jīng)濟社會的交匯融合,科技大數(shù)據(jù)因對社會生產(chǎn)、物流、消費等日;顒蛹敖(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生越來越大的影響而成為國家基礎性戰(zhàn)略資源,所以構建針對大數(shù)據(jù)的工具,從而合理、高效地使用科技知識領域的大數(shù)據(jù)資源,就十分具有戰(zhàn)略意義。
科技大數(shù)據(jù)有別于傳統(tǒng)的數(shù)據(jù)資源領域,也并不是常見的網(wǎng)絡及行業(yè)大數(shù)據(jù)。科技大數(shù)據(jù)主要是指包括科技成果數(shù)據(jù)、科技活動數(shù)據(jù)及互聯(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)在內的數(shù)據(jù)內容。其中,科技成果數(shù)據(jù)是指各學科內記錄形成的數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡科技報道等承載知識的數(shù)據(jù)?萍蓟顒訑(shù)據(jù)包括兩類,一類是科技實體數(shù)據(jù),科技實體數(shù)據(jù)包括科技項目、學術會議、科技團隊、科技組織、科技人才、科技機構、科技獎項、科技主題、科技概念、研究設備、研究模型、研究方法等;另一類就是知識關系數(shù)據(jù),知識關系數(shù)據(jù)包括語義關系及計量關系等;ヂ(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)是指常見自媒體產(chǎn)生的數(shù)據(jù),如微信數(shù)據(jù)或微博數(shù)據(jù),其特征是及時、權威、互動性較好。
科技大數(shù)據(jù)理論與技術研究是一項順應目前科技行業(yè)信息化技術水平發(fā)展、服務政府職能改革的科學研究工作,主要目標是強化科技與經(jīng)濟運行監(jiān)測分析,并將分析結果提供給科技管理者、科研機構、企業(yè)和個人,從而有效推動科技創(chuàng)新的一站式的云管理和服務平臺建設,推進科技數(shù)據(jù)共享和業(yè)務協(xié)同,以信息化提升數(shù)據(jù)化管理與服務能力,準確掌握科技發(fā)展在宏觀和微觀等多種維度的動態(tài),及時并快速地響應科技政策的更新,并為其制定提供依據(jù)。
1.1.2 研究意義
本書針對科技服務對科技資源數(shù)據(jù)匯聚融合的需求,研究多源科技大數(shù)據(jù)資源融合的云計算系統(tǒng)平臺分布式管理方法,形成協(xié)調統(tǒng)一的科技大數(shù)據(jù)分布式存儲與處理模式。本書基于神經(jīng)網(wǎng)絡學習模型和特征表示學習的科技大數(shù)據(jù)融合處理方法,實現(xiàn)跨領域跨學科的科技大數(shù)據(jù)自動監(jiān)測與采集。利用在線知識圖譜中所蘊含的豐富結構化文本與鏈接信息,建立多源異構、碎片化數(shù)據(jù)之間的語義關聯(lián)和多粒度層次之間的語義映射,完成科技大數(shù)據(jù)的實體識別和匹配;設計以多粒度知識服務為核心的大數(shù)據(jù)處理架構與引擎,實現(xiàn)從元數(shù)據(jù)記錄層、知識實體層以及知識關系層的智能數(shù)據(jù)融合與演化分析;研究跨平臺跨系統(tǒng)跨業(yè)務跨場景的大數(shù)據(jù)共享交換機制技術,構建支持數(shù)據(jù)交換、可信確權與追蹤保護的科技大數(shù)據(jù)資源融合系統(tǒng)平臺,實現(xiàn)科技大數(shù)據(jù)的生命周期管理,以期在跨媒體跨領域科技大數(shù)據(jù)的實體識別、匯聚融合與演化分析等一系列關鍵技術上取得進展。
1.2 國內外研究現(xiàn)狀
1.2.1 多源異構數(shù)據(jù)融合研究現(xiàn)狀
多源異構大數(shù)據(jù)融合的研究開始于美國,早在20世紀中期,美國軍隊就已經(jīng)可以對多源傳感器所獲得的相關信息進行多源數(shù)據(jù)融合,進一步提高了決策的精確度。數(shù)據(jù)融合是一個針對多源異構數(shù)據(jù)信息的加工過程,該過程還包括自動化檢測、相關互聯(lián)以及多級組合等[5, 6]。Greif在1998年將數(shù)據(jù)融合技術定義成一種通過融合算法以及相關工具方式對多源異構數(shù)據(jù)信息進行關聯(lián)分析的形式框架[7]。該框架的意義不僅在于可以獲得更加多源優(yōu)質的數(shù)據(jù)信息資源,還在于可以有效改善決策的魯棒性以及可靠性。在應用領域上,數(shù)據(jù)融合在工業(yè)控制領域、醫(yī)療識別領域、天氣預測領域等相關領域有所應用,并逐漸向更多更廣的交叉領域擴展。
為解決多源異構數(shù)據(jù)中存在的諸多問題,有一些研究成果通過給多源異構數(shù)據(jù)添加相應的規(guī)則,實現(xiàn)多源數(shù)據(jù)的融合。例如,“線性加權融合”運算、“最大值”運算、“最小值”運算、“求和”運算、“求或”運算以及“投票機制”。相關核心工作成果有如下幾個。文獻[8]通過 正則化項與鉸鏈損失函數(shù)相結合對多模態(tài)數(shù)據(jù)進行特征選擇,利用 正則化項引入不同的和函數(shù)學習不同來源數(shù)據(jù)中的互補信息。文獻[9]提出了一種聯(lián)合判別特征融合框架,該框架通過約束函數(shù),最大化樣本間的距離和最小化樣本內的距離,實現(xiàn)特征融合。文獻[10]提出了一種判別分析方法,主要通過學習多源異構數(shù)據(jù)之間、數(shù)據(jù)對之間的線性變化,引入約束條件加強多個線性變換視圖的一致性。文獻[11]利用線性組合技術對多源異構數(shù)據(jù)進行特征融合,從得到的融合特征中篩選出貢獻率最大的特征,利用遺傳算法進行特征加權。文獻[12]提出了一種新的特征提取方法,即正態(tài)分布的貝葉斯誤差和貝葉斯相結合的方法,能夠實現(xiàn)特征融合和特征選擇。文獻[13]提出了一種基于相位一致性和能量加權的融合方法,通過NSCT(non subsampled contourlet transform,非下采樣輪廓波變換)濾波獲得不同模態(tài)數(shù)據(jù)中不同頻率的特征,其中高頻特征通過相位一致性規(guī)則進行融合,低頻特征通過能量加權進行融合。有的學者利用深度多項式網(wǎng)絡[14]給多源異構數(shù)據(jù)添加線性約束,實現(xiàn)多源異構數(shù)據(jù)的融合。還有學者提出了一種新的深度學習結構[15],通過不斷加權特征信息來實現(xiàn)特征融合。
除了基于規(guī)則的方法之外,還可以通過表征學習的方法,將多源異構數(shù)據(jù)投影到一個公共的子空間中。代表性工作有如下幾個。文獻[16]通過對多項式網(wǎng)絡進行疊加完成數(shù)據(jù)的融合:第一層多項式網(wǎng)絡提取多源異構數(shù)據(jù)的高層語義特征,第二層多項式用于學習多源異構數(shù)據(jù)間的相互聯(lián)系。文獻[17]提出在統(tǒng)一的框架下識別和選擇出各個模態(tài)中有用的特征,通過子空間學習的方法學習數(shù)據(jù)的內部結構特征。這是一種特征選擇和子空間學習相結合的方法。文獻[18]提出了一種新的多類型診斷框架,該框架由自動編碼器和softmax層組成,通過自動編碼器網(wǎng)絡學習多源異構數(shù)據(jù)空間共享表示。Huddar等在雙向LSTM(long-short term memory,長短期記憶)神經(jīng)網(wǎng)絡中加入多個注意力機制,對多源異構數(shù)據(jù)進行多次融合得到融合信息[19]。一部分學者利用深度學習在高維空間中表示多源異構數(shù)據(jù)之間的關系,獲得多源異構數(shù)據(jù)的在高維空間中的融合表示,完成分類任務[20, 21]。還有一部分學者通過稀疏表示將多源異構數(shù)據(jù)映射到統(tǒng)一表示空間[22, 23]。另外有研究者提出了一種基于聯(lián)合訓練框架的方法,并證明了該方法的成功性和適用性[24, 25]。最近,有研究者提出了一種基于典型相關分析的共享隱空間學習方法[26],也存在一些表征學習的框架旨在充分利用多模態(tài)不完全異構數(shù)據(jù)[27, 28]。
雖然我國很重視這方面的發(fā)展,但與國際水平相比還有一些差距,為了縮小數(shù)據(jù)融合在運算精度以及速度方面的差距,還需要再接再厲,促進科技發(fā)展與進步。
1.2.2 科技大數(shù)據(jù)知識圖譜的應用
知識圖譜(knowledge graph)[29]的主要目的是針對其搜索引擎,通過分析描述真實世界中存在的各種實體以及概念,找到并以圖的形式描述這些實體、概念之間的關聯(lián)關系,從而改善搜索結果,將知識系統(tǒng)化地呈現(xiàn)給用戶,提高用戶目標搜索結果的命中率。
知識圖譜可以顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,利用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯(lián)系。應用知識圖譜時,通常是將應用數(shù)學、圖形學、信息可視化技術、信息科學等學科的理論與方法和計量學引文分析、共現(xiàn)分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發(fā)展歷史、前沿領域以及整體知識架構,達到多學科融合目的。基于上述原因,知識圖譜適用于科技大數(shù)據(jù)的分析研究,其可以實現(xiàn)對知識持續(xù)增量的自動獲取,具備概念識別、實體發(fā)現(xiàn)、屬性預測、知識演化建模和關系挖掘能力,可以形成涵蓋數(shù)十億實體規(guī)模的多源、多學科和多數(shù)據(jù)類型的跨媒體知識圖譜[30]。劉嶠等指出科技大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)信息有很大區(qū)別,主要原因在于科技大數(shù)據(jù)內容包括各學科內的記錄數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡科技報道等科技成果數(shù)據(jù),除以上成果類內容之外,還常常包含科技領域中涉及的項目、學術會議、人才、機構、獎項、主題、概念等特色數(shù)據(jù),以及研究領域相關的設備、模型、方法等實體及其語義關系的活動數(shù)據(jù)[31]。
知識圖譜被廣泛用于語義搜索,即用戶搜索次數(shù)越多,范圍越廣,搜索引擎越能獲得更多的信息和內容;知識圖譜被廣泛用于智能問答,運用知識圖譜可以融合所有學科,以保證用戶搜索時具有連貫性,從而實現(xiàn)智能問答;知識圖譜被廣泛用于數(shù)據(jù)挖掘,運用知識圖譜可以從整個互聯(lián)網(wǎng)汲取有用的信息讓用戶獲得更多相關的數(shù)據(jù)資源;知識圖譜被廣泛應用于推薦系統(tǒng),知識圖譜可以綜合用戶特征,把與關鍵字相關的知識化體系系統(tǒng)化地展示給用戶。
在數(shù)字圖書館領域,一些大型出版商也已開始以科技文獻數(shù)據(jù)為基礎構建知識圖譜。