當心大數據時代的浮誇陷阱 @ 弦子

　　張田勘《中國青年報》（2014年11月18日02版）
　　數據分析師在對阿裡巴巴內衣銷售數據進行分析後發現，購買大號內衣的女性往往更“敗家”。其根據是，65%B罩杯的女性屬於低消費顧客，而C罩杯及以上的顧客大多屬於中等消費或高消費買家。這一結論是否成立姑且不論，但首先傳遞了一個信息，今天人們已經進入數據為王的時代，其中大數據似乎又是王中之王。
　　無論是商業網站還是搜索網站，人們的所搜所看所買都成為大數據的組成部分，無論之於商業，還是之於公共衛生，抑或國家安全，它們都是有用的信息。有心人已經意識到，因為擁有大量未經充分研究的中產階層，中國成為世界上最重要的數據市場之一。研究這些數據，對社會各方面都是多贏。當然，保護人們個人隱私的代價需要考慮。
　　2008年谷歌推出“谷歌流感趨勢”（GFT）數據分析工具，谷歌的工程師根據這個工具的數據分析，預測了2009年H1N1流感將要暴發，甚至具體到特定的地區和州。這一結論在流感暴發前發表在英國的《自然》雜誌上。後來，情況果真如此，這與美國疾病控制和預防中心（CDC）的預測完全一致，但時間上比CDC早了近兩周。從2010年起，阿裡巴巴利用其數據建立的信用記錄，向小微企業提供融資，也取得了不錯的效果。
　　這些結果表明，數據為王時代早就到來。其實，這並不奇怪。人類文明的三大支柱是材料（物質）、能量和信息，數據又是信息中的核心部分。古希腊的畢達哥拉斯早就說過，“一切皆數”，儘管其所說的“數”與今天的數據有所不同，但在某些方面是相似的。所以，在今天也就有了“一切皆信息”，也即數據為王。
　　不過，數據為王並不意味著大數據為王，或數據越多越好，還要看如何分析和利用數據，進而得出最契合實際的結論，並且有效利用這一結論。因此，如果要承認阿裡巴巴基於內衣銷售的數據分析得出的女性胸越大越“敗家”的結論，就需要有符合客觀實際的解釋，不幸的是，這一結論還處於見仁見智的階段。網友的各種分析就提供了佐證：一是“大胸都被有錢人娶了，所以才有能力敗”；二是“說明青春期的營養狀況確實會影響胸的大小”，“胸大的確實普遍嫁得好”；三是“胸大並不敗家，集中在網上打折的時候買東西，只會旺家。”
　　這筆混亂賬目前肯定掰扯不清，但已有事實證明，數據越大並不意味著越好。就算是谷歌，一旦他們的大數據處理和分析不當，也會得出錯誤的結論。2013年1月，美國又發生流感，但GFT的預測比實際數據高兩倍。這並非偶然出現錯誤，而是在過去一再發生。2011年8月~2013年9月，GFT高估流感流行長達108周。
　　谷歌的大數據為何預測不准呢？發表在2014年3月14日《科學》雜誌上的一篇文章指出了兩個主要原因。一是大數據浮誇，二是算法變化。大數據浮誇指的是，以為大數據可以完全取代傳統的數據收集方法，而非作為後者的補充。大數據浮誇的最大問題在於，絕大多數大數據與經過嚴謹科學試驗得到的數據之間存在很大的差異。
　　另外，谷歌對算法會進行不斷的調整和改進，搜索引擎算法的改變和用戶的搜索行為會影響到預測結果，比如媒體對於流感流行的報道會增加與流感相關的詞語的搜索次數，進而影響GFT的預測；相關搜索算法也會對GFT造成影響。例如，搜索“發燒”，相關搜索中會給出關鍵詞“流感”，而搜索“咳嗽”則會給出“普通感冒”。
　　如果沒有嚴謹的科學試驗數據做後盾，現階段就不能得出女性胸越大越“敗家”的結論。同樣，也需要得到科學試驗數據後，才能解釋為何在2012年的“雙十一”，中國比基尼銷量最高的地區是並不沿海的新疆。對大數據浮誇的兩種解決之道則是：大數據並不能代替嚴謹的科學試驗得到的數據，這兩者之間需要互補，而且要使算法更符合實際情況。　　（原標題：當心大數據時代的浮誇陷阱）

jo35jofjry

弦子

jo35jofjry 發表在痞客邦留言(0) 人氣()

E-mail轉寄

弦子

弦子

當心大數據時代的浮誇陷阱

歷史上的今天

留言列表

站方公告

活動快報

日本最優價租車

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY