說到這里,大數據的另外幾個特征:“速度”、“多樣性”“低價值密度”。從應用的角度看,這些特征的意義似乎也不是很大。
1、產生速度快。增大了分析的難度,對應用帶來的好處卻不多,故而僅僅是在理論上有價值。
2、低價值密度。也增加了分析的難度。但對應用來說,這是一種現象,似乎不值得強調。事實上,為了獲得可靠的結果,個別的‘小數據’往往才是分析大數據的關鍵鑰匙。而且,發現具有‘黑天鵝’性質的小數據,往往是研究大數據的重要目的。
3、所謂‘多樣性’,指有很多非結構化數據。也是增加理論難度、對實用無正面影響的因素。在現實中,數據分布越廣越好,便于從不同角度和視野確定結論的可靠性。所以,我寧可把多樣性’理解為數據分布的廣泛性,而非數據形態的多樣性。
從應用的角度看,筆者更欣賞‘數據科學’的概念:綜合利用數據分析、模型計算和領域知識來解決實際問題。對工程師來說,分析數據的目的是解決問題。為了達到分析的目的,應該采取一切有利的方法、收集一切有用的證據,不應該將自己限制在某個特定的理論方法上。我們期望大數據,卻也喜歡小數據:我們喜歡完整的、真實的數據。IBM對4V理論進行了矯正。
綜上所述,筆者認為:將大數據理論用于工業領域時,不可執著于‘原教旨主義’的認識。我們關注大數據,是為了創造價值,而不是追趕時髦的理論和領域。從這種意義上說,制造企業研究大數據,應該特別強調‘工業’二字,以區分現在流行的、以商務為主的大數據理論。
注:文章內的所有配圖皆為網絡轉載圖片,侵權即刪!