▲鄔江興院士在“上海大數據試驗場”成立儀式上接受采訪。 張建松 攝
俗話說:“沒有金剛鉆,攬不了瓷器活”。如果將越來越多、越來越復雜的大數據分析研究比作一項“瓷器活”,隨著信息時代每天都產生浩如煙海的數據,傳統的分析研究工具越來越捉襟見肘,研制能挖掘大數據“金礦”的“金剛鉆”,已顯得迫在眉睫。
目前,上海正積極推動建設的“大數據試驗場”,其目的就是要為研制挖掘大數據的“金剛鉆”提供技術創新能力與試驗條件的支持,并由此帶動大數據產業的可持續發展。
挖掘大數據“金礦”需要一個試驗場
12月2日,由復旦大學、上海交通大學共同牽頭,29家高等院校、研究所、企事業單位在上海聯合成立了全國首個“大數據試驗場”聯盟,聯手推動“上海大數據試驗場”的建設,共同打造大數據試驗場產業生態圈。
復旦大學校長、中國科學院院士許寧生和上海交通大學校長、中國科學院院士張杰當選為大數據試驗場聯盟理事長,中國工程院院士、上海市數據科學重點實驗室學術委員會主任鄔江興當選為執行理事長。
“如果將大數據比作一座金礦,隨著數據量級的非線性增加,需要發明新的探礦理論、采礦技術、挖掘機械和選礦理論、選礦工藝、選礦設備等,才能從海量的數據中采出有用的礦石,選出冶煉級的原料,送到熔爐里冶煉成黃金。因此,需要有一個試驗場,以便開展面向大數據的新型計算、存儲、傳送、資源管理、服務支撐等相關理論、技術和應用方面的試驗,包括未來的技術裝備、生產方式和商業模式等試驗。”鄔江興院士說。
他認為,簡單地來看,大數據可以歸納為兩個主要問題:首先是,用大數據解決的問題;其次是,要解決數據大的問題。前者是指用數據解決科學研究、社會發展和經濟建設中的各種問題,發展新的學科,新的商業模式和新興產業等。后者是大數據事業可持續發展的基礎性問題,需要解決諸如爆炸性增長的數據如何管、如何算、如何傳等共性問題。
自2012年以來,國家自然科學基金(NSFC)開始立項支持大數據研究。五年來,共計支持了558項大數據研究項目。其中,總計346項支持了應用基礎的研究,即用數據解決問題的項目占到62%。其次是數據挖掘方法研究占到18%以上,而涉及“數據大問題”的研究項目總共不到20%。
綜合來看,我國對“數據大問題”的研究投入明顯不足。長此以往,將會嚴重制約我國大數據事業的可持續發展。
海量數據對計算技術帶來巨大挑戰
數據,是信息化時代最豐富的產品。每天,各行各業都在源源不斷地生產各類數據。量變必將會產生質變。PB、EB、ZB級數據量,對于計算機的硬件和軟件都已帶來巨大挑戰。
據鄔江興院士介紹,從硬件方面來看:首先是機械硬盤問題。由于價格和持久性要求,絕大部分存儲設備都是用的機械硬盤,這類硬盤一次讀寫需要至少6毫秒的機械臂運動,對于PB級以上的數據來說,這是一個大問題;其次是體系結構問題。現有的計算機體系結構都是從有利于科學計算的角度來設計的,往往不適應大數據分析角色;此外,什么樣的計算框架有利于大數據分析,也有待試驗研究。目前的HADOOP/MAP-REDUCE計算框架,只是表明能夠處理大數據,其性能遠遠達不到大數據分析的要求。
大數據的移動也是一個巨大問題。比如從上海到北京,數據很難在期望的時間內實現移動,而且消耗的功率數十倍于處理這些數據的能量,美國亞馬遜公司研究認為:在現有技術條件下,用傳統運輸工具運輸PB級數據,要比通過網絡移動數據更為實時和經濟些。未來數據不移動是否可以?這樣的“多地計算”或“異地計算”技術能否發明出來?這都需要不斷試驗、不斷創新。
實際上,PB級以上的數據管理也是個極為棘手的問題。傳統的數據管理是由數據庫管理系統(DBMS)來完成的,由于技術設計的原因,難以處理數百臺以上服務器集群的數據,并且處理的數據類型單一,不能適應大數據處理的需要。目前還沒有應對數據量爆炸性增長導致數據管理挑戰的方法。
“數據分析是大數據事業的核心。但是,絕大部分數據挖掘算法只是針對內存數據設計的,一旦數據涉及到外存,算法效率就非常低。目前,還沒有看到好的算法。當然,這與傳統計算機體系架構、計算框架都有關系。”鄔江興院士說,“我們在全球率先提出建立大數據試驗場,就是要探索新型的計算技術,來解決大數據面臨的挑戰性問題。”
那么,現有的超級計算中心和云計算基地能否應對大數據面臨的挑戰呢?鄔江興認為,答案是否定的。
這是因為超算中心是一類具備超級計算能力的基礎設施,面向高速、大運算量的計算密集型應用(如科學計算、氣象預測、災害防治、大氣模擬、動漫制作等),并不適用數據密集型應用,比如PB級以上大數據的應用。
云計算是一種基于互聯網的資源、平臺和軟件的服務交付模式。它通過虛擬化和服務化手段,為用戶提供一種靈活方便、動態持續可用、可伸縮、按需付費的資源、平臺和軟件。“云平臺”不是也不可能解決大數據的處理、存儲、傳輸和管理等問題,而且還存在數據安全性不能保證、處理效率低下、數據移動困難等其他難題。
以“大數據試驗場”帶動產業發展
當前,我國各行各業都處在依托大數據進行創新發展的階段。在國務院發布的《促進大數據發展行動綱要》中,明確提出要在任務布局上,優先規劃大數據基礎設施建設。上海正積極推進建設的“大數據試驗場”,正是開展大數據科學研究、技術創新與應用示范不可或缺的一項重大基礎設施。
據悉,上海大數據試驗場建立后,一方面,將在當前技術能夠處理分析的數據量級上,開發大數據應用技術、發展大數據應用,形成大數據應用創新,形成新產業、新業態等;另一方面,將探索基于更大級別數據量級的計算理論、處理體系和共性技術,開發相關技術產品,支持大數據應用深入發展的需求。如此往復,不斷前行,邊探索、邊試驗、邊發展。
“重大科學基礎設施是科技領先的保證,科技領先是產業領先的保證。大數據試驗場是上海大數據產業可持續發展的重要抓手,必將為上海全球科創中心建設提供重要支撐。”上海市經濟與信息化委員會副主任邵志清說。
2013年7月,上海曾發布 《上海推進大數據研究與發展三年行動計劃》(2013-2015年)。2016年9月,又發布了《上海市大數據發展實施意見》,并于10月獲批成立國家大數據示范綜合試驗區。全國首個“大數據試驗場”聯盟的成立,表明上海在大數據產業上再度發力。
據悉,“大數據試驗場”聯盟將盡快發展成為一個全國性聯盟,并積極推動“國家大數據試驗場”的建設。(記者張建松)