2014年2月25日 星期二

Big Data 市場產品與服務大閱兵

Big Data 是一個大部頭的 Umbrella Term,這把傘雖然比 Cloud Computing 小,但其內容與意涵,還是十分豐富,相關的新技術與架構,即使是企業內的應用開發、資訊管理、與資料分析人員,還是陌生的比熟識的多,更遑論行外看熱鬧的一般人。

在 Wikibon 專家線上社群持續維護的這份 Big Data Vendor Revenue and Market Forecast 2012-2017 市場報告中,Big Data 市場被切割成三大塊,依照 2012 年的營收比重大小,依序是:
  • Services (服務 - 44%)
  • Hardware (硬體 - 37%)
  • Software (軟體 - 19%)
在這三大塊市場之下,還可以細分出 11 項產品與服務:
  1. Hadoop software and related hardware;
    Hadoop 軟體與相關硬體
  2. NoSQL database software and related hardware;
    NoSQL 資料庫軟體與相關硬體
  3. Next-generation data warehouses/analytic database software and related hardware;
    新一代資料倉儲/分析資料庫軟體與相關硬體
  4. Non-Hadoop Big Data platforms, software, and related hardware;
    非 Hadoop Big Data 平台、軟體、與相關硬體
  5. In-memory – both DRAM and flash – databases as applied to Big Data workloads;
    In-memory、可處理 Big Data 的資料庫 (以 DRAM 或 Flash 為記憶儲存體)
  6. Data integration and data quality platforms and tools as applied to Big Data deployments;
    適用 Big Data 的資料整合與資料品質平台或工具
  7. Advanced analytics and data science platforms and tools;
    進階分析與資料科學平台或工具
  8. Application development platforms and tools as applied to Big Data use cases;
    適用 Big Data 案例的應用開發平台或工具
  9. Business intelligence and data visualization platforms and tools as applied to Big Data use cases;
    適用 Big Data 案例的商業智慧與資料視覺化平台或工具
  10. Analytic and transactional applications as applied to Big Data use cases;
    適用 Big Data 案例的分析型與交易型應用
  11. Big Data support, training, and professional services.
    適用 Big Data 的技術支援、教育訓練、以及各種專業服務

筆者特別將這 11 項,按類整理成一張圖表,如下:

Big Data 市場產品與服務類型總覽
圖 1. Big Data 市場產品與服務類型總覽 (by Fred Chiang / 放大圖)

這張圖,交代了一些事情,關鍵點說明如下:

  • 在左側,是三大塊市場切割:Svc.、S/W、H/W (服務、軟體、硬體)。
  • 在上端,先將 Data Platform (資料平台) 區分為 Hadoop  (Hadoop Ecosystem) 與非 Hadoop 兩大陣營。Hadoop 陣營可以處理 Unstructured Data 與 Semi-structured Data (非結構化與半結構化資料);非 Hadoop 陣營,可以處理 Semi-structured Data (如 Splunk),但更多的是處理與分析 Structured Data (結構化資料,如 RDB、EDW)。 
  • 在上述 1.~4. 細項中都有提及 "software and related hardware"。這其中除了單獨銷售的硬體 (運算、儲存、網路),也包含了軟、硬預先整合好的 Appliance (一體機)。 
  • 基本上,Hadoop 陣營中的各項產品,以 Open Source Project 為核心者居多,包含 Hadoop 本身。
  • Hadoop 陣營與非 Hadoop 陣營,並非是兩個平行不搭嘎的世界,隨著 Hadoop 漸獲企業的重視,有越來越多的非 Hadoop 陣營產品,廠商也自己或透過第三方,搭起了通往 Hadoop 的橋樑,可以存取放在 Hadoop 陣營中的原始資料或處理過後的資料。最常見的橋樑,搭在 Hive (資料倉儲)、HDFS (分散式檔案系統)、或 HBase (一種 NoSQL 資料庫) 上,尤其是前兩者。

底下是我們針對這 11 項產品與服務類型的進一步說明,並做適時的舉例:

1. Hadoop 軟體與相關硬體

即 Hadoop 軟體平台本身,包含兩大部分:分散式檔案系統 HDFS 與平行運算框架 Map/Reduce。Hadoop 軟體平台以業界公認的 Apache Hadoop 開源版本為標準,不同廠商可以取其為核心,添加更多的開源軟體模組,或是自行開發各種的管理功能,成為自己的發行版本 (Hadoop Distribution),如 Cloudera 的 CDH、Hortonworks 的 HDP。而「相關硬體」,就像是 Etu Appliance,將 Hadoop 軟體平台跟硬體做最佳化的整合,方便快速部署與做更完善的叢集管理。 

2. NoSQL 資料庫軟體與相關硬體

NoSQL 是 Not Only SQL 的簡稱,是相較於傳統 SQL 關聯式資料庫的一種「非我族類」對照。NoSQL 是資料庫類別的通稱,實際的開源專案如 HBase、MongoDB、Cassandra、Neo4j、CouchDB 等皆屬之。這類的產品大部分都可以跑在 Hadoop 平台之上,以應付大規模線上同時查詢的需求。既然是資料庫,還是一樣有結構化的 Table Schema,但差異是兩兩 Table 之間,不做關聯;也沒有多次存取的資料交易特性;且存在其中的,可以是非結構化資料。

3. 新一代資料倉儲/分析資料庫軟體與相關硬體

不管是強調分散式或是平行架構,新一代資料倉儲訴求的是:相較於傳統資料倉儲,它們在擴充性與效能上,可以更即時、更從容地面對更大量的結構化資料線上分析 (OLAP) 或查詢。在 Hadoop 陣營,有開源較早的 Hive 與新近的 Impala;而在非 Hadoop 陣營,則是各 Mega Vendor 汲汲營營的領域 ── MPP (Massively Parallel Processing) DB,如 SAP Sybase IQ、IBM Netezza、HP Vertica、EMC Greenplum 都是這類型的產品,其中也不乏以軟硬整合的 Appliance 面對市場。非常有趣的一件事是,這些企業級的 MPP DB 產品,有許多其實都是基於開源的 PostgreSQL (BSD License) 發展而來。現在的 MPP DB,大多具備存取 Hadoop 平台上資料的橋接能力。

4. 非 Hadoop Big Data 平台、軟體、與相關硬體

由於 Big Data 不是只強調 Volume (資料量),若能夠符合 Velocity (及時性) 與 Variety (多樣性) 的需求,一樣具備相當的價值,所以像以即時索引 Machine Data (即 Semi-structured Data) 聞名的 Splunk,或是傳統的 RDB/EDW,都可以因為特別強調適用在某些應用場景,帶出部份的 3V 價值而入列。在這其中,軟硬整合好的專屬 Appliance,也是市場的要角。如 SBOX 即是為 Splunk 量身打造的一體機。傳統的 RDB/EDW,可以透過 Sqoop 介面存取放在 Hadoop 平台上的資料;Splunk 也具備 Hive 與 HDFS 的連結功能。

5. In-memory、可處理 Big Data 的資料庫 (以 DRAM 或 Flash 為記憶儲存體)

此類與 3. 新一代資料倉儲/分析資料庫類似,但在系統架構上更強調 In-memory 運作的高效能。如 SAP HANA,就是其中頗為知名的產品。

6. 適用 Big Data 的資料整合與資料品質平台或工具

此類產品通常是在協助實作資料的處理或預處理,在 Hadoop 陣營中,可能是辨識、解析非結構化資料,或是彙整、清洗、排序、關聯、轉換半結構化資料,最終產出的是高品質的半結構化或結構化資料,以提供後續分析或其他應用;Pig 在其中扮演了很重要的角色。在非 Hadoop 陣營,則是將結構化或半結構化資料轉換至更大的結構化儲存體,非常典型的即是將 RDB 資料 ETL 至 EDW,一整路流動的都是結構化資料;Informatica、IBM DataStage、SAP BusinessObjects Data Services 等,都是行之有年的 ETL 名品。隨著 Hadoop 的興起,這些傳統商業工具,現在也都新增支援跟 Hadoop 陣營的介接,如透過 Hive 連結器,串連起兩個世界的結構化資料。 

7. 進階分析與資料科學平台或工具

在結構化的資料統計與資料探勘領域,商業化的工具如 SPSS、SAS、Matlab,長久以來,已經擁有眾多的使用者,並在這兩年陸續完成與 Hadoop 陣營的介接 (透過 Hive 或 HDFS)。開源的 R Language 則在這幾年快速竄起,並與 Hadoop 攜手力助資料科學的發展。Hadoop 陣營原生的 Mahout,則在機器學習與資料探勘方面,佔有一定的地位。

8. 適用 Big Data 案例的應用開發平台或工具

在軟體開發工具方面,廣為企業使用的 Java IDE,如 Eclipse 與 NetBeans,現在都有 Hadoop plug-in 可以協助應用的開發,甚至連 Microsoft .NET Framework 都有 SDK for Hadoop。在 Hadoop 陣營部分,一些備有開源版本的開發工具專案,如 Pentaho、Talend 等,則強調全程的多結構化資料整合與資料生命週期管理。

9. 適用 Big Data 案例的商業智慧與資料視覺化平台或工具

此類由於更貼近 Business User,所以是廠商重兵集結之地,從 BI 的洞見到視覺的饗宴,異常精采。這些產品的發展,許多也行之有年,到了 Big Data 時代,換上探索資料價值的思維,能夠介接 Hadoop 陣營的資料,也是必備的功能。舉例如 QlikView、SAP BusinessObjects、DataWatch、Tableau、Zoomdata 等皆是。 

10. 適用 Big Data 案例的分析型與交易型應用

由於現今的市場狀態,企業首先期盼的還是導入 End-to-End 全程解決方案,舉凡電信、零售、媒體、金融、高科技製造、醫療等,還是以客製化程度不等的應用專案交付為主。而上述的九類平台或工具,就成為打造應用的產品組合軍火庫,取適合者成其用。

11. 適用 Big Data 的技術支援、教育訓練、以及各種專業服務

由於 Hadoop 陣營有很多核心產品取自於開源專案,所以基於訂閱 (Subscription) 的技術支援服務,還有包含專業認證的教育訓練,都是常見的商業模式。而專業服務的範圍,則包含顧問服務、建置服務、甚至是各種的 Data-as-a-Service 雲服務。雖然這些通通歸為一類,但如前所提,這一塊可是佔目前 Big Data 市場營收的最大塊。


對於熟識企業軟體的朋友,筆者希望透過此篇閱兵式的介紹,能夠讓您快速地認識對應的 Hadoop 陣營。對於有心要進一步了解 Hadoop 陣營各專案該如何取用與學習的技術人員來說,則可以看看強者我同事 Paul Lin (a.k.a. Jindo) 的這一篇:邁向 Hadoop 之路,相信會有更大的收穫。






沒有留言:

張貼留言