Gartner給出了這樣的定義:「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
個人認為Gartner的定義更為貼切。「新處理模式」是一個很關鍵的詞彙,這也是我所理解的「大數據」區別於傳統統計分析等最關鍵的特徵之一。這個所謂的「新處理模式」有兩層含義:
1、由於海量的數據,需要更高效的存儲和處理技術,Hadoop成為了大數據時代的標誌;
2、如果你認為大數據就等於Hadoop,那就大錯特錯了。Hadoop只是大數據時代的一個必要條件,大數據還有一個明顯的標誌是數據挖掘和人工智能的緊密結合。這也是我理解的「大數據」與現在很多所謂「大數據」項目最明顯的區別之一。我會在後面的案例中給大家展開。
除了上面的「新處理模式」上的區別,個人認為還有一個最主要的區別是:數據統計分析是基於已有數據的縱向歸類,而大數據是基於對已有海量數據的處理,對還未產生的數據作出預測和推薦。數據統計是已經發生的事情,而大數據往往被用於還沒有發生的事情預測或者推薦中。
預測和推薦,是如何實現的?
目前主要的推薦算法大致可以分為兩類。一個是基於行為,一個是基於內容。當然,針對不同的領域,不同的預測和推薦的對象,又會有十餘種算法。這就不是本文展開的內容了。
基於行為的分析,顧名思義,即對用戶在互聯網、移動互聯網留下的「痕迹」,即瀏覽、點擊、收藏、購買、二次購買的分析,得出未來會選擇購買的預測和推薦結果。基於行為的分析,屬於群體智慧,綜合利用群體用戶的行為偏好。用戶之間會相互影響,更加符合現實世界中的用戶行為。
圖1、電商基於行為的推薦漏斗算法
基於內容的分析, 包括對文字、圖片、音頻、視頻等信息的分析,得出預測和推薦的結論。內容的「基因」和用戶的偏好相匹配,最有代表的是潘多拉的音樂推薦項目,其將曲庫中所有歌曲都由400多位專家打上標籤,然後建立個人與音樂的聯繫,從而完成音樂的推薦。內容的分析只針對個人,與用戶之間關係無關。
大數據到底能做什麼
現在談這個問題可能會讓大家笑話,似乎所有人都知道大數據能幹這個,能幹那個,最後連我們自己都覺得可笑。大數據已經都不是被「妖魔化」了,是「娛樂化」。大數據似乎是個離我們忽遠又忽近的事物了,變得不真實起來。
好吧,我還是結合從業經歷來說說大數據「解決過什麼問題」吧:簡單地來說,大數據可以幫我們解決決策和選擇的問題。
天氣預報就是一個最古老而且眾所周知的預測。你可以根據預報來決定明天穿什麼衣服,是否要帶雨傘,等等;
近兩年來,大數據被應用到影視製片行業,基於對觀眾偏好的分析,去預測、設計觀眾喜歡的劇情,找觀眾喜愛的演員出演相關的角色,甚至可以去預測票房。這些所有的預測都是基於數據的基礎上,經過一定的模型處理,得到接近真實的結論。從某種程度上給決策者決策的依據,比如《紙牌屋》和《星星》。
大數據還有一個重要的作用,就是解決人們的「選擇」問題。別笑,無論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問題。講的學術一些,這是由於「長尾效應」導致的問題;講得通俗一些,就是由於日益增多的可選擇的對象和我們自身的處理能力之間的矛盾。
科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁複雜的商品(電商),到海量曲庫中的樂曲;從婚戀網站的男女朋友,到交通管理的信號燈。
基於人工智能下的大數據,就是可以使人們「變懶」的一個手段。基於你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結果,推薦給你。這就是大數據,她是你的貼心管家,或者說是最懂你的朋友。
一個最經典的案例是沃爾瑪曾經做過的「啤酒」和「尿布」調研:沃爾瑪在研究中發現,一類顧客經常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關聯的兩個品類的商品,從個人經驗上來看,根本想不到二者的聯繫。後來發現,這是一類社會現象所導致的。美國有很多年輕夫婦,尿布用完后,女主人在家帶孩子,而男主人就去超市買尿布。買完尿布之後,男主人通常會順帶着買些啤酒。
上述例子說明,數據經常可以讓你發現看似不合理不合邏輯但卻存在,並且經常發生的現象。
再舉個例子,北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰,這已經不需要預測了。但如果根據歷史交通數據,再經過數學模型,計算出一個全北京最佳的交通信號燈管理系統,這就屬於大數據的範疇了。
圖2、的士每天的分布圖
這也是我眼中大數據主要與普通的數據統計分析最大的不同:數據統計可以幫助你發現疾病,但大數據可以不但幫助你發現,且幫助你治療疾病。
大數據絕不是「噱頭「,我們在幫助某運營商閱讀基地的閱讀推薦項目中,各項指標均得到大幅提升。而這個提升不是百分之幾十,而是數倍的提升!(用戶人均流量提升了4倍,沉默用戶激活能力提升了6.5倍)這才是大數據的魅力。
大數據不是萬能的
圖3、互聯網與移動互聯網數據的打通
當然,數據的打通絕不僅限於互聯網和移動互聯網。每個數據源的數據往往刻畫了一個人的不同方面。正如巴拉巴西教授在《爆發》一書中描繪的那樣,如果數據充分,人類93%的行為是可以預知的,是有規律的。
也只有將這些不同來源的數據重新組織,才能挖掘出更有意義的信息。
如今,行業內不少人打着「數據統計和分析」的旗號來做大數據,讓很多外行人陷入了誤區:數據統計並非等於大數據。無論數據統計也好,大數據也罷,其實都是為了使我們的工作變得更為有效,讓決策更為理性而準確。重視數據,本身就是一個企業成熟的標誌。
附件: [130125eojx5cblikj.jpg] 130125eojx5cblikj.jpg (2014-4-1 13:30:11, 0 Bytes) / 下載次數 0
附件: [130126gasldcc5osz.jpg] 130126gasldcc5osz.jpg (2014-4-1 13:30:11, 0 Bytes) / 下載次數 0
附件: [130126g4jzxtg44sc.jpg] 130126g4jzxtg44sc.jpg (2014-4-1 13:30:11, 0 Bytes) / 下載次數 0
附件: [130126n1te15adwob.jpg] 130126n1te15adwob.jpg (2014-4-1 13:30:11, 0 Bytes) / 下載次數 0| 歡迎光臨 SAY討論區 (http://forum.go2tutor.com/) | Powered by Discuz! X2 |