大數據以質取勝

Posted by

如果有兩個數據庫(database),一個盛載着二十萬名會員紀錄,另一個則只有十萬名會員紀錄。假設你是一名數據分析師,你會選擇那一個?

讓我們利用另一個角度思考一下。圖中有兩個魚缸,左面的魚缸容量較小,承載着的水較少,所養的魚較大;而右面的則容量較大,承載着的水較多,所養的魚較小。你又會如何選擇?

如何下決定,當然需要看看實際需求。作為數據分析師,我們希望從數據中,透過利用各種分析方法及演算法(algorithm)獲取數據中蘊含的知識,從而幫助客戶作日常商業決定。大部份客戶,特別在初次接觸時,都會向我們詢問同一個問題:「我們的數據夠大嗎?」數據量大,當然是好。但是也要看看數據中所蘊含的知識量(knowledge content)。

大數據的傳統定義由四個V開始,分別是Volume(數據量)丶Variety(多樣性)丶Velocity(數據速度)及Veracity(真實性)。

Volume(數據量):數據由機器丶網絡丶人與人之間之互動每刻不斷累積,現在說的數據量單位都是TB(Tera Bytes)丶甚至是PB(Peta Bytes)或EB(Exabytes)等級。

Variety(多樣性):結構性及非結構性,亦包括文字丶圖片丶影片等等不同形式的數據。

Velocity(數據速度):論壇使用者丶網上搜尋結果每秒都在成長,這些數據都是高速增長的。

Veracity(真實性):數據有機會只是不完整的部份,甚至乎是虛假的,這都影響分析結果的準確度。

以上四個V只是針對大數據進行規範化, 而真正進行大數據分析的意義實屬第五個V,是指Value(價值)。

大數據分析可以為商戶帶來什麼價值?例如:

  • 客戶分群,然後按每個群組的行為特點定制特別服務
  • 利用過往數據,模擬現在環境及對將來進行預測
  • 加強各部門之聯繫,由採購丶生產丶物流及銷售,整體提升效率
  • 透過挖掘潛在知識,進行產品及服務創新

讓我引用一下阿里巴巴的王堅於大數據之觀點:

  • 今天的數據不是大,真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。
  • 非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。
  • 你千萬不要想著拿數據去改進一個業務,這不是大數據。你一定是去做了一件以前做不了的事情。

大數據的真正價值在於創造,知識量足夠便可為商戶創造未來!話說回來,從作者之角度,第一條問題的選擇會基於利用各種演算法去檢測數據含量。而第二條問題,假若魚缸代表系統伺服器,水代表數據量,而所養的魚則代表知識含量,你應該知道如何抉擇了吧?

Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
YouTube: https://www.youtube.com/drjackeiwong/