2012年12月27日 星期四

2013 台灣 Big Data 市場五大趨勢預測

做為台灣 2012 Big Data 於特定行業應用發展現況代表的 Etu Solution Day 2012,在專業又熱鬧氣氛下圓滿落幕 (活動照片簡報線上瀏覽與下載)。隨著 Hadoop 相關產品與企業環境對接的日漸成熟、專業服務能量的積累、行業應用方案的推出,企業擁抱 Big Data 的力度、廣度、與深度,將在新的一年,有明顯上升趨勢。

筆者在會中發表了對 2013 台灣 Big Data 市場的五大趨勢預測,包括:
  1. 本地不同行業的 Big Data 應用案例,將一一浮現;
  2. ”Medium” Data 出現在更多企業 Big Data 應用場景;
  3. Hadoop 相關專業教育訓練課程漸熱;
  4. 從 Quantified Self、Enterprise Data、Open Data、到 Internet-scale Data,資料分析蔚為顯學;
  5. Open Data 方興未艾,各級政府、不同部門的開放策略與腳步不一,來自民間的挑戰也不斷。
各項預測說明如下:

1. 本地不同行業的 Big Data 應用案例,將一一浮現

在歷經 2012 一整年的 Big Data 概念、Use Case 參研、技術的學習、企業自身需求的融入後,Big Data 處理與分析的報酬指標將較能被具體地定義與檢視。

電信、電子商務、零售、製造、金融、政府將是 2013 年一一出現應用的焦點領域。

同時我們認為,在這個階段,各領域應用的打造方式,會啟動從專案形式,走向採用標準平台與高度標準化解決方案的交付模式轉型。而後者,將成為 Big Data 產業價值鏈分工的重要一步。

2. ”Medium” Data 將出現在更多企業 Big Data 應用場景

”Big” 是一個在討論 Big Data 時常見的迷思。讓我們回到 3V 的模型來明辨:


圖 1. 每個 Big Data Processing User Case 都有一個 3V 橢圓

  • Volume: 資料量
  • Velocity: 及時處理
  • Variety: 資料格式

以上圖的三個橢圓來說,分別代表的意義是:
  1. 資料量相對大,資料格式種類中等,資料處理及時性需求相對低。
  2. 資料量相對小,資料格式種類單純,資料處理及時性需求相對高。
  3. 資料量相對小,資料格式種類較多,資料處理及時性需求相對低。
每個 3V 橢圓,都可以找到對應的 Big Data 處理操作策略。如橢圓 2. 與橢圓 3.,處理的重點並不在資料量上。 

當資料分析的好處廣被市場認可之後,即使是不具備 Terabyte ~ Petabyte 資料量的企業,也會想要享有多結構化資料的正向報酬。透過新興的標準應用與商業模式 (如 Data as a Service 雲服務) 的崛起,可以降低企業追求數據報酬的難度與投資門檻,增加市場的廣度。

3. Hadoop 相關專業教育訓練課程漸熱

從一隻大象到一個動物園,Hadoop Ecosystem 生氣盎然,但企業 IT 普遍還是感覺陌生。我們分兩種角色來說明技能養成的情況:開發 Hadoop 應用的 Developer 與管理 Hadoop 叢集的 System Administrator。

Developer

對於熟悉 SQL 與任一 Script Language 的 Developer 來說,其實學習 Hive 或 Pig 這類比較高階的程式工具來取用 Hadoop 平台上的 Big Data,應該不是曲線太陡峭的過程。發生在筆者身邊的實例也一再證明,具有 Hadoop 平台環境後,只要常常練習與找題目來實作,3 個月上手,是很稀鬆平常的事。

System Administrator

相較於 Developer 學習 Hadoop 應用開發較低的門檻,要能夠部署、管理、營運一個自行搭建的 Hadoop 叢集,可就是一件難度相對高的任務。System Administrator (系統管理者) 必須從  Hadoop Core (HDFS + MapReduce) 系統架構與運作瞭解起,兼及資料來源如何蒐集、資料流程與資料倉儲系統如何管理、NoSQL 的儲存與查詢如何架構、網路環境如何搭配、如何與企業既有的 RDB/DW 串接,再加上安全性與 HA 等議題。在能夠成功搭建一組 Hadoop 叢集之前,不知道已經死了多少腦細胞?更遑論後續還有 Production 營運、維護、與最佳化的諸多議題。

所以,企業要能駕馭 Hadoop 這頭大象,擴及整個動物園,Hadoop 相關專業教育訓練課程的需求是具體存在的,端看企業目標,要養成的,是著重在 Developer,還是 System Administrator 上。課程的供給,在實際增加中。

從另一個角度來看,坐視 System Administrator 面對複雜的 Hadoop 叢集系統,看見困難與痛處,卻不思解決之道,將是 Hadoop 平台提供者的失敗。好在,從 Etu Appliance 產品身上,我們已經看到了念茲在茲的努力與希望。

4. 從 Quantified Self、Enterprise Data、Open Data、到 Internet-scale Data,資料分析蔚為顯學

資料無所不在,而多結構化數位資料也存在許久,對資料與數字的解讀,往往成為指引,對許多應用場景來說,也是一件有趣的事情。無怪乎《哈佛商業評論》稱「資料科學家 21 世紀最性感的工作」(Data Scientist: The Sexiest Job of the 21st Century)。

藉由這波全球火熱的 Big Data 風潮,讓各界重新審視與界定「Data Ecosystem」:圍繞在資料「生、流、存、算、用、看」周圍的各種操作角色、系統、與技術。說到底,無非是要「知意圖、求價值」。個人、企業、社會、國家、世界,各種面向的數據價值挖掘工程持續在建構中。

從瞭解自己的生理資訊、時間分配,到企業經營、公民利益、網路效應,乃至地球與宇宙的觀測與解析,透過新的技術突破與服務型態的改變,我們可以看到與資料分析相關的人與事,真是越來越有存在感。

5. Open Data 方興未艾,各級政府、不同部門的開放策略與腳步不一,來自民間的挑戰也不斷

從 4 個熱血工程師的房屋實價登錄地圖事件 (實價登錄地圖 FAQ),以及台灣零時政府第零次動員戡亂黑客松活動 (g0v hackath0n),我們可以從實際案例的層面,看到非營利事業、公民組織、商業應用對政府開放資料需求的殷切。中央或地方,不同功能的部會局處,終將面臨資料開放政策與實際做法的挑戰。「公開」vs.「開放」、「使民知道」vs.「便民使用」,實是不同層次的議題。

我們欣見中央政策指導單位已經帶頭引領「民之所欲」的正確方向,朝著「便民使用」的宗旨在發展 (請參見《行政院及所屬各級機關政府資料開放作業原則(草案)》),循此道路,希望各層級、各功能單位也能跟上。類似內政部房屋實價登錄資訊公開,但不友善取用,阻礙 Open Data 暢其流的事情,不要再重演,否則,台灣政府想要在 Open Government Data 領域做國際標竿,終究充滿政策與執行落差的下場。


好了,以上就是小弟對 2013 台灣 Big Data 市場的五大趨勢預測說明,也許您有不同的看法,歡迎來信與我交流:fredchiang [at] gmail.com 。

無論如何,就讓我們在年底時,再來檢驗這些預測的實踐程度吧。

感謝收看以上落落長的全文。


沒有留言:

張貼留言