復雜性是大數(shù)據區(qū)別于小數(shù)據的本質特性,也是當前大數(shù)據質量控制與數(shù)據治理面臨的核心挑戰(zhàn)。本書圍繞大數(shù)據的復雜性開展研究,旨在探索當前數(shù)據資源建設與利用過程中面臨的挑戰(zhàn)和技術難題,促進數(shù)據價值的充分釋放。全書分為6部分,共24章。第1部分概述(第1、2章),綜述所研究數(shù)據控制技術的基本概念和任務定位,以及國內外的研究進展; 第2部分實體分辨技術(第3~13章),研究了高維數(shù)據實體分辨、名稱分辨、XML數(shù)據實體分辨和跨模態(tài)數(shù)據實體分辨等; 第3部分真值發(fā)現(xiàn)技術(第14~18章),研究了單真值發(fā)現(xiàn)、多真值發(fā)現(xiàn)、文本數(shù)據真值發(fā)現(xiàn),以及基于多蟻群優(yōu)化和基于深度神經網絡的真值發(fā)現(xiàn)等; 第4部分基于數(shù)據依賴的數(shù)據質量控制技術(第19~21章),研究了數(shù)據錄入輔助預測與推理方法、不一致數(shù)據檢測與修復方法,以及有限先驗知識下的全局數(shù)據質量評估; 第5部分系統(tǒng)與平臺(第22、23章),介紹了數(shù)據質量控制系統(tǒng),以及數(shù)據治理平臺的設計與實現(xiàn); 第6部分結束語(第24章),歸納總結了當前面臨的風險和挑戰(zhàn)。本書務實求新,系統(tǒng)性強,易讀性和可操作性好,既可作為數(shù)據質量控制與數(shù)據治理領域的進階用書,又可作為數(shù)據資源建設與利用、信息技術等相關學科領域的教學參考或工程實踐指導用書。