Strata+Hadoop World 2014 New York 觀察

一美東 (New York City)、一美西 (San Jose);一下半年 (通常是 10 月份)、一上半年 (通常是 6 月份);一 Cloudera + O’Reilly主辦、一 Hortonworks + Yahoo!;一 Hadoop World  (現在擴大為 Strata+Hadoop World)、一 Hadoop Summit,這兩個 Hadoop 界最大的盛會,往往從中,我們可以藉由議程的安排,觀察與感受 Big Data 的趨勢發展、關鍵議題、技術走向、新創公司與產品。

筆者連續四年參與 ──  2011 Hadoop World New York 、2012 Hadoop Summit San Jose2013 Hadoop Summit San Jose2014 Strata+Hadoop World New York,從 2011 年的 1,500 人,到 2014 年超過 5,000 人與會,親身見證了不少事情。

圖 1. Strata+Hadoop World 2014 New York 於 Javits Center 舉行,有超過 5,000 位人員參與

以下幾點是筆者對 Hadoop 與 Big Data 演進至今的觀察:


一、及時性的躍進

Hadoop 從一個以 Batch 為主的平行運算平台,走向 Near Real-time 的「秒級」價值。這背後代表的,是以資料驅動的應用,能夠以更短的時間來完成一個循環、一個跳動、一次更新、一次查詢、一次告警,光是這樣,就可以帶來前所未有的使用者體驗,大大提昇應用的價值。Impala、Storm、Spark 相繼的出現,雖然各有擅場,但講的都是類似的及時躍進。

圖 2. Big Data 的運算處理及時性,從 Batch 走到 Near Real-time,但還不到 Real-time (摘至《那些你知道的,但還沒看過的 Big Data 風景 ─ 致 Hadooper》P.13)

二、企業資料庫的冶煉

從 Hive/NoSQL 走向 Unified SQL Query;從非交易走向交易。這背後代表的意義,是大部分時候,企業要的不是直接取用破壞性的創新,而是疊在創新上,降低使用技能的門檻 (或謂使用習慣的返祖),要讓 Big Data 的取得與應用,從企業 IT 或萬能的資料科學家,交到商業分析師、專業分工的資料科學團隊成員的手上。

三、資料科學的百花齊放

資料蒐集、ETL、分析 (統計/資料探勘/機器學習)、資料視覺化,無論是資料科學的哪一段,都是顯學,可見欲萃取 Big Data 的價值,End-To-End 中的每一個環節都很重要,一節錯,後面皆錯。這背後代表的,是每一個環節都是一個專業的領域,而跨領域合作,則是資料科學能夠展現價值的必要手段。而每一個環節,也都有代表性的廠商與工具產品,或是開源的專案可以取用。而因為事關 Big Data,往往討論起來,資料科學技術與工具都要強調「Bigger is better,but at what cost?」(大即是好,但代價是什麼?) 、「at scale」(規模化之後,事情會變得怎樣?)

四、資料的價值體現

資料擁有者 (Data Owner) 坐擁金山,一旦有價值運用的故事傳出,往往待價而沽。有些人喜愛用「挖金礦的年代,賣挖礦工具的可能比去挖礦的人賺更多」來比喻新工具軟體的出現。但用以審視「資料如金礦」的時代,擁有 Big Data 的人,其實在還沒有購買工具之前,是很有機會衡量所擁有資料含金量高低的。只要 Use Case 清晰,目標或指標是明確,一開始先不求全自動化、規模化,各種 Open Source 的免費或試用工具,都可以用來做先行驗證。這背後代表的,是 Big Data 擁有者都可以儘早形塑自己的 Data Product,在追求差異化競爭的商業世界,爭取在行業或專業服務領域中,講出自己的資料價值故事,而且越早越好。

展望未來,面對不斷更新與推新的 Hadoop Ecosystem,其實企業或興趣者只要把握一個原則,就能取適而用:

Telling Use Case, Winning in Solution. (述說使用場景,贏在解決方案搭建)

每個 Use Case 背後都會有一個最妥適的 Solution,從現在開始,就來打造屬於您的 Big Data Solution 吧。





留言