Strata+Hadoop World 2014 New York 觀察

一美東 (New York City)、一美西 (San Jose)；一下半年 (通常是 10 月份)、一上半年 (通常是 6 月份)；一 Cloudera + O’Reilly主辦、一 Hortonworks + Yahoo!；一 Hadoop World (現在擴大為 Strata+Hadoop World)、一 Hadoop Summit，這兩個 Hadoop 界最大的盛會，往往從中，我們可以藉由議程的安排，觀察與感受 Big Data 的趨勢發展、關鍵議題、技術走向、新創公司與產品。

筆者連續四年參與 ── 2011 Hadoop World New York 、2012 Hadoop Summit San Jose、2013 Hadoop Summit San Jose、2014 Strata+Hadoop World New York，從 2011 年的 1,500 人，到 2014 年超過 5,000 人與會，親身見證了不少事情。

圖 1. Strata+Hadoop World 2014 New York 於 Javits Center 舉行，有超過 5,000 位人員參與

以下幾點是筆者對 Hadoop 與 Big Data 演進至今的觀察：

一、及時性的躍進

Hadoop 從一個以 Batch 為主的平行運算平台，走向 Near Real-time 的「秒級」價值。這背後代表的，是以資料驅動的應用，能夠以更短的時間來完成一個循環、一個跳動、一次更新、一次查詢、一次告警，光是這樣，就可以帶來前所未有的使用者體驗，大大提昇應用的價值。Impala、Storm、Spark 相繼的出現，雖然各有擅場，但講的都是類似的及時躍進。

圖 2. Big Data 的運算處理及時性，從 Batch 走到 Near Real-time，但還不到 Real-time (摘至《那些你知道的，但還沒看過的 Big Data 風景 ─ 致 Hadooper》P.13)

二、企業資料庫的冶煉

從 Hive/NoSQL 走向 Unified SQL Query；從非交易走向交易。這背後代表的意義，是大部分時候，企業要的不是直接取用破壞性的創新，而是疊在創新上，降低使用技能的門檻 (或謂使用習慣的返祖)，要讓 Big Data 的取得與應用，從企業 IT 或萬能的資料科學家，交到商業分析師、專業分工的資料科學團隊成員的手上。

三、資料科學的百花齊放

資料蒐集、ETL、分析 (統計/資料探勘/機器學習)、資料視覺化，無論是資料科學的哪一段，都是顯學，可見欲萃取 Big Data 的價值，End-To-End 中的每一個環節都很重要，一節錯，後面皆錯。這背後代表的，是每一個環節都是一個專業的領域，而跨領域合作，則是資料科學能夠展現價值的必要手段。而每一個環節，也都有代表性的廠商與工具產品，或是開源的專案可以取用。而因為事關 Big Data，往往討論起來，資料科學技術與工具都要強調「Bigger is better，but at what cost?」(大即是好，但代價是什麼？) 、「at scale」(規模化之後，事情會變得怎樣？)

四、資料的價值體現

資料擁有者 (Data Owner) 坐擁金山，一旦有價值運用的故事傳出，往往待價而沽。有些人喜愛用「挖金礦的年代，賣挖礦工具的可能比去挖礦的人賺更多」來比喻新工具軟體的出現。但用以審視「資料如金礦」的時代，擁有 Big Data 的人，其實在還沒有購買工具之前，是很有機會衡量所擁有資料含金量高低的。只要 Use Case 清晰，目標或指標是明確，一開始先不求全自動化、規模化，各種 Open Source 的免費或試用工具，都可以用來做先行驗證。這背後代表的，是 Big Data 擁有者都可以儘早形塑自己的 Data Product，在追求差異化競爭的商業世界，爭取在行業或專業服務領域中，講出自己的資料價值故事，而且越早越好。

展望未來，面對不斷更新與推新的 Hadoop Ecosystem，其實企業或興趣者只要把握一個原則，就能取適而用：

Telling Use Case, Winning in Solution. (述說使用場景，贏在解決方案搭建)

每個 Use Case 背後都會有一個最妥適的 Solution，從現在開始，就來打造屬於您的 Big Data Solution 吧。

Fred 豢養的雲中象

搜尋此網誌

Strata+Hadoop World 2014 New York 觀察

留言

張貼留言