接下翻譯這本《大數(shù)據(jù)時代》的任務(wù)時,我的目標(biāo)是做到110%的好。因為作者維克托邁爾-舍恩伯格畢竟不像我們每天在一線與數(shù)據(jù)廝殺搏斗,其愛其恨都更深刻。特別地,我們可以為中文的讀者補充很多中國的例子和參考資料。很遺憾,我們最終只做到了90%,應(yīng)該補充的一些材料還沒有整理好,遣詞造句也多有生硬疏忽之處。如果再給我一個月的時間,就可以達到我預(yù)想的110%甚至120%。
為什么現(xiàn)在把這個版本呈現(xiàn)給諸位呢?一是因為我們的努力使得本書中譯本的出版和英文原版完全同步,單從獲取知識的角度講,我們一點兒不比美國的讀者慢!二是我相信作者在書中的一個重要觀點,就是大數(shù)據(jù)時代,要允許一點點的錯誤和不完美,因為效率可能更加重要!留下一些可供提高的地方,也使得我們的每一次印刷,都能夠與以前有所不同。親,這不是建議你等到某個更好的版本才去購買,而是說,其實你應(yīng)該每個版本都買一本:)。
《大數(shù)據(jù)時代》這本書是200%的好,因此90%的譯本也絕對值得一讀。首先,作者拋出了大數(shù)據(jù)時代處理數(shù)據(jù)理念上的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果;接著,從萬事萬物數(shù)據(jù)化和數(shù)據(jù)交叉復(fù)用的巨大價值兩個方面,講述驅(qū)動大數(shù)據(jù)戰(zhàn)車在材質(zhì)和智力方面向前滾動的最根本動力;最后,作者冷靜描繪了大數(shù)據(jù)帝國前夜的脆弱和不安,包括產(chǎn)業(yè)生態(tài)環(huán)境、數(shù)據(jù)安全隱私、信息公正公開等問題。
國內(nèi)最近也出版了一些大數(shù)據(jù)方面的著作,可以和本書互為補充。鄭毅的《證析》對于數(shù)據(jù)通過交叉復(fù)用體現(xiàn)的新價值、大數(shù)據(jù)戰(zhàn)略在企業(yè)與政府執(zhí)行層面的流程和大數(shù)據(jù)科學(xué)家這一新職位,以及圍繞這個職位的能力和責(zé)任給出了最深刻、最具體的描述;子沛的《大數(shù)據(jù)》對于數(shù)據(jù)的公正性、公平性以及信息和數(shù)據(jù)管理等方面理念、政策和執(zhí)行的變化,特別是美國在這方面的進展,給出了完整的介紹;蘇萌、林森和我合著的《個性化:商業(yè)的未來》則對大數(shù)據(jù)時代最重要的技術(shù)、個性化技術(shù),以及與之相關(guān)的新商業(yè)模式給出了從理念到技術(shù)細(xì)節(jié)的全景工筆??偟膩碚f,這三本書都針對本書的某一局部給出了更深刻的介紹和洞見,也各有明顯超出本書的優(yōu)點,但三本之和也無法囊括本書的菁華,亦缺乏本書的宏大視野。
簡單地說,這本書好在三個地方:
一是觀點擲地有聲,絕非主流媒體上若干討論的簡單匯總和平均,更不是一個宏大概念面前曖昧的叫好聲。讀者可能對其中一些觀點并不認(rèn)同,但是讀完之后不可能一個都記不住。
二是觀念高屋建瓴,作者試圖從很多實例和經(jīng)驗,包括歷史事件中萃取出普適性的觀念,而不僅僅是適用于幾個特定情況的案例分析。
三是例子豐富翔實,不大的篇幅包括了上百個學(xué)術(shù)和商業(yè)的實例。三點近乎完美地結(jié)合起來,體現(xiàn)了作者駕馭大問題的能力和豐富的知識,以及,可能更為重要地,作者渴求立言立說的野心!所以說,這本書絕對不是一堆枯燥的綱要,更不是一本巨厚的雜志。
我在這里拼命叫好,是為了這本書賣得更多,但不代表作者的所有觀點都是絕對真理。舉個例子,我本人對于大數(shù)據(jù)時代“相關(guān)關(guān)系比因果關(guān)系更重要”這個觀點就不認(rèn)同。有了機器學(xué)習(xí),特別是集成學(xué)習(xí),我們解決問題的方式變成了訓(xùn)練所有可能的模型和擬合所有可能的參數(shù)問題從一個端口進去,答案從另一個端口出來,中間則是一個黑匣子,因為沒有人能夠從成千上萬的參數(shù)擬合值里面讀到“科學(xué)”,我們讀到的只是“計算機工程”。與其說大數(shù)據(jù)讓我們重視相關(guān)勝于因果,不如說機器學(xué)習(xí)和以結(jié)果為導(dǎo)向的研究思路讓我們變成這樣。
那么,大數(shù)據(jù)是不是都這樣了?其實很多時候恰恰相反。想想瑞士日內(nèi)瓦的強子對撞機,我們在上面捕獲了人類有史以來最大規(guī)模的單位時間數(shù)據(jù)。我們是希望找到或者驗證某種相關(guān)關(guān)系嗎?不是!我們試圖回答的,正是人類所能問出的關(guān)于因果關(guān)系最偉大的問題:希格斯玻色子是否存在,我們的宇宙是否有可能用標(biāo)準(zhǔn)模型刻畫。這個問題的最終答案,將打破人和神的界限!認(rèn)為相關(guān)重于因果,是某些有代表性的大數(shù)據(jù)分析手段(譬如機器學(xué)習(xí))里面內(nèi)稟的實用主義的魅影,絕非大數(shù)據(jù)自身的訴求。從小處講,作者試圖避免的“數(shù)據(jù)的獨裁”和“錯誤的前提導(dǎo)致錯誤的結(jié)論”,其解決之道恰在于挖掘因果邏輯而非相關(guān)性;從大處講,放棄對因果性的追求,就是放棄了人類凌駕于計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落。如果未來某一天機器和計算完全接管了這個世界,那么這種放棄就是末日之始。蘇珊朗格(SusanLanger)在《哲學(xué)新視野》一書中說:
【“某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎將有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速地抓住它們,作為進入某種新實證科學(xué)的法寶,作為可以用來建構(gòu)一個綜合分析體系的概念軸心。這種"宏大概念"突然流行起來,一時間把幾乎所有的東西都擠到了一邊。”】
這段話通常被認(rèn)為是對當(dāng)時“存在主義”和“精神分析法”這類萬能概念的善意批評,而如今特別適合作為一盆冷水潑在那些沒有任何深刻理解,卻月月日日分分秒秒穿行于各種“大數(shù)據(jù)嘉年華”的投資人、媒體人和創(chuàng)業(yè)者身上。希望《大數(shù)據(jù)時代》給予各位的是一些實實在在的知識和思考,并且喚起各位安靜思索相關(guān)問題的心境。大數(shù)據(jù)是一個很重要的概念,代表了很重要的趨勢,但我不希望它成為一種放之四海皆準(zhǔn)的萬能概念因為越是萬能的,就越是空洞的!人類學(xué)家克利福德吉爾茲(CliffordGeertz)在其著作《文化的解釋》中曾給出了一個樸素而冷靜的勸說:“努力在可以應(yīng)用、可以拓展的地方,應(yīng)用它、拓展它;在不能應(yīng)用、不能拓展的地方,就停下來。”我想,這應(yīng)該是所有人面對一個新領(lǐng)域或新概念時應(yīng)有的態(tài)度。
大數(shù)據(jù)的道路上沒有戈多,我們已經(jīng)在路上,晃晃悠悠。人類的自由意志和諸神之下的尊嚴(yán),會在這條道路上異化甚至消逝嗎?極目遠(yuǎn)眺,不知道世界的盡頭,是否是一個冷酷的仙境!諸位為之奮斗吧,而我只想,做一個,麥田里的守望者。以為序。
謝文:實實在在大數(shù)據(jù)
中國互聯(lián)網(wǎng)發(fā)展的重要參與者,知名IT評論人謝文
因為我本身十分關(guān)注大數(shù)據(jù),也寫過若干關(guān)于大數(shù)據(jù)的文章,做過若干關(guān)于大數(shù)據(jù)的演講,所以對有關(guān)這一主題的論文和書籍非常有興趣。過去幾年,在這方面我讀過十幾本書、上百篇論文和文章。相對而言,維克托邁爾-舍恩伯格教授的《大數(shù)據(jù)時代》是迄今為止我讀過的最好的一本專著,中英文都算上。
此書的一大貢獻就是在大數(shù)據(jù)方興未艾、眾說紛紜的時刻,進一步闡述和厘清了大數(shù)據(jù)的基本概念和特點,這對許多以為大數(shù)據(jù)就是“數(shù)據(jù)大”的人來說很有幫助。
在人類歷史長河中,即使是在現(xiàn)代社會日新月異的發(fā)展中,人們還主要是依賴抽樣數(shù)據(jù)、局部數(shù)據(jù)和片面數(shù)據(jù),甚至在無法獲得實證數(shù)據(jù)的時候純粹依賴經(jīng)驗、理論、假設(shè)和價值觀去發(fā)現(xiàn)未知領(lǐng)域的規(guī)律。因此,人們對世界的認(rèn)識往往是表面的、膚淺的、簡單的、扭曲的或者是無知的。維克托指出,大數(shù)據(jù)時代的來臨使人類第一次有機會和條件,在非常多的領(lǐng)域和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實世界的規(guī)律,獲取過去不可能獲取的知識,得到過去無法企及的商機。大數(shù)據(jù)的出現(xiàn),使得通過數(shù)據(jù)分析獲得知識、商機和社會服務(wù)的能力從以往局限于少數(shù)象牙塔之中的學(xué)術(shù)精英圈子擴大到了普通的機構(gòu)、企業(yè)和政府部門。門檻的降低直接導(dǎo)致了數(shù)據(jù)的容錯率提高和成本的降低,但正如維克托所強調(diào)的,最重要的是人們可以在很大程度上從對于因果關(guān)系的追求中解脫出來,轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上。只要發(fā)現(xiàn)了兩個現(xiàn)象之間存在的顯著相關(guān)性,就可以創(chuàng)造巨大的經(jīng)濟或社會效益,而弄清二者為什么相關(guān)可以留待學(xué)者們慢慢研究。大數(shù)據(jù)之所以可能成為一個“時代”,在很大程度上是因為這是一個可以由社會各界廣泛參與,八面出擊,處處結(jié)果的社會運動,而不僅僅是少數(shù)專家學(xué)者的研究對象。
大數(shù)據(jù)將逐漸成為現(xiàn)代社會基礎(chǔ)設(shè)施的一部分,就像公路、鐵路、港口、水電和通信網(wǎng)絡(luò)一樣不可或缺。但就其價值特性而言,大數(shù)據(jù)卻和這些物理化的基礎(chǔ)設(shè)施不同,不會因為人們的使用而折舊和貶值。例如,一組DNA可能會死亡或毀滅,但數(shù)據(jù)化的DNA卻會永存。所以,維克托贊同許多物理學(xué)家的看法,世界的本質(zhì)就是數(shù)據(jù)。因此,大數(shù)據(jù)時代的經(jīng)濟學(xué)、政治學(xué)、社會學(xué)和許多科學(xué)門類都會發(fā)生巨大甚至是本質(zhì)上的變化和發(fā)展,進而影響人類的價值體系、知識體系和生活方式。哲學(xué)史上爭論不休的世界可知論和不可知論將會轉(zhuǎn)變?yōu)閷嵶C科學(xué)中的具體問題??芍允墙^對的,無事無物不可知;不可知性是相對的,是尚未知道的意思。對于不從事網(wǎng)絡(luò)業(yè)、IT業(yè)以及數(shù)據(jù)分析和使用的讀者,本書的一大好處就是通俗易懂,通過具體實例說明問題,有助于人們的理解和聯(lián)想。在時限上,作者概括了直到2012年7月大數(shù)據(jù)方向上的最新發(fā)展,避免了許多同類作品存在的例證過于陳舊、視野相對狹窄的毛病。
作為一位生活在歐美現(xiàn)代社會的學(xué)者,維克托是把民主、開放和理性作為已知前提來討論大數(shù)據(jù)革命的。這對生活在發(fā)展中國家,社會現(xiàn)代化程度尚且有限的讀者來說,也許是個遺憾,因為書中描述的許多已經(jīng)發(fā)生的事例可能更像是神話。沒有市場經(jīng)濟制度和法治體系作為基礎(chǔ)支撐,大數(shù)據(jù)很可能成為發(fā)達國家在下一輪全球化競爭中的利器,而發(fā)展中國家依然處于被動依附的狀態(tài)之中。整個世界可能被割裂為大數(shù)據(jù)時代、小數(shù)據(jù)時代和無數(shù)據(jù)時代。處于發(fā)展中國家前列的中國,目前正面臨著一個重大的歷史抉擇關(guān)口。應(yīng)該說,在過去的三十余年時間里,中國在快速走向工業(yè)化、信息化、網(wǎng)絡(luò)化方面交出了一份不錯的成績單。如今適逢世界走向數(shù)據(jù)化,邁入大數(shù)據(jù)時代的時刻,無論對個人、企業(yè)還是對社會和國家,都有認(rèn)真理解、嚴(yán)肅決策的必要性和緊迫性。哪怕僅從這一點考慮,讀一讀這本書也是很值得的。
田溯寧:擁抱大數(shù)據(jù)時代
寬帶資本董事長田溯寧
從硅谷到北京,大數(shù)據(jù)的話題正在被傳播。隨著智能手機以及“可佩帶”計算設(shè)備的出現(xiàn),我們的行為、位置,甚至身體生理數(shù)據(jù)等每一點變化都成為了可被記錄和分析的數(shù)據(jù)。以此為基礎(chǔ),“反饋經(jīng)濟”(feedbackeconomy)等新經(jīng)濟、新商業(yè)模式也正在開始形成。維克托邁爾-舍恩伯格教授這本《大數(shù)據(jù)時代》,是我看到的最好的大數(shù)據(jù)著作,不管對于產(chǎn)業(yè)實踐者,還是對于政府和公眾機構(gòu),都是非常具有價值的。
如今,一個大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時代正在開啟。正如維克托教授所說,大數(shù)據(jù)的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。而發(fā)掘數(shù)據(jù)價值、征服數(shù)據(jù)海洋的“動力”就是云計算?;ヂ?lián)網(wǎng)時代,尤其是社交網(wǎng)絡(luò)、電子商務(wù)與移動通信把人類社會帶入了一個以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時代。在云計算出現(xiàn)之前,傳統(tǒng)的計算機是無法處理如此量大、并且不規(guī)則的“非結(jié)構(gòu)數(shù)據(jù)”的。
以云計算為基礎(chǔ)的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲下來,并隨時進行分析與計算。大數(shù)據(jù)與云計算是一個問題的兩面:一個是問題,一個是解決問題的方法。通過云計算對大數(shù)據(jù)進行分析、預(yù)測,會使得決策更為精準(zhǔn),釋放出更多數(shù)據(jù)的隱藏價值。數(shù)據(jù),這個21世紀(jì)人類探索的新邊疆,正在被云計算發(fā)現(xiàn)、征服。
《大數(shù)據(jù)時代》列舉了眾多在公共衛(wèi)生、商業(yè)服務(wù)領(lǐng)域大數(shù)據(jù)變革的例子。一旦“不再追求精確度,不再追求因果關(guān)系,而是承認(rèn)混雜性,探索相關(guān)關(guān)系”,“思維轉(zhuǎn)變過來,數(shù)據(jù)就能被巧妙地用來激發(fā)新產(chǎn)品和新型服務(wù)”。數(shù)據(jù)正成為巨大的經(jīng)濟資產(chǎn),成為新世紀(jì)的礦產(chǎn)與石油,將帶來全新的創(chuàng)業(yè)方向、商業(yè)模式和投資機會。
龐大的人群和應(yīng)用市場,復(fù)雜性高、充滿變化,使得中國成為世界上最復(fù)雜的大數(shù)據(jù)國家。解決這種由大規(guī)模數(shù)據(jù)引發(fā)的問題,探索以大數(shù)據(jù)為基礎(chǔ)的解決方案,是中國產(chǎn)業(yè)升級、效率提高的重要手段。數(shù)據(jù)挖掘不僅能夠成為公司競爭力的來源,也將成為國家競爭力的一部分。聯(lián)系到我國現(xiàn)代化所面臨的種種問題以及教育、交通、醫(yī)療保健等各方面挑戰(zhàn),通過大數(shù)據(jù)這種創(chuàng)新方式來解決問題,創(chuàng)建新的產(chǎn)業(yè)群,實現(xiàn)“中國制造到中國創(chuàng)造”的改變,意義就更大。
“大數(shù)據(jù)”發(fā)展的障礙,在于數(shù)據(jù)的“流動性”和“可獲取性”。美國政府創(chuàng)建了Data.gov網(wǎng)站,為大數(shù)據(jù)敞開了大門;英國、印度也有“數(shù)據(jù)公開”運動。中國要趕上這樣一場大數(shù)據(jù)變革,各界應(yīng)該首先開始嘗試公開數(shù)據(jù)、方式與方法。如同工業(yè)革命要開放物質(zhì)交易、流通一樣,開放、流通的數(shù)據(jù)是時代趨勢的要求?!洞髷?shù)據(jù)時代》一書也提到了數(shù)據(jù)擁有權(quán)、隱私性保護等問題,但相比較來看,新科技可能帶來的改變要遠(yuǎn)遠(yuǎn)大于其存在的問題。
本書的譯者周濤教授是我國最年輕有為的大數(shù)據(jù)專家。這位27歲的天才型教授,數(shù)年來一直帶領(lǐng)我國學(xué)術(shù)界在大數(shù)據(jù)研究上向國際一流看齊。更可貴的是,他不僅做研究,也關(guān)注著研究成果的商業(yè)化及傳播。這部譯著就是他這種努力的一個成果。
現(xiàn)代歷史上的歷次技術(shù)革命,中國均是學(xué)習(xí)者。而在這次云計算與大數(shù)據(jù)的新變革中,中國與世界的距離最小,在很多領(lǐng)域甚至還有著創(chuàng)新與領(lǐng)先的可能。只要我們以開放的心態(tài)、創(chuàng)新的勇氣擁抱“大數(shù)據(jù)時代”,就一定會抓住歷史賦予中國創(chuàng)新的機會。
責(zé)任編輯: 中國能源網(wǎng)