2015年6月21日 星期日

資料價值領袖風範與關鍵行動 ── 以 Data Lake 為例

Big Data 領導者的風範幾乎都是 Thinker 與 Doer 兼具,有獨到的戰略規劃觀點,也有徹底的戰術執行計畫。舉例來說,許多企業都想從 Big Data 裡獲取洞察 (Insights),因為有了洞察,就可以進一步策劃行動,解決問題,產生價值。Big Data Thinker 與 Doer 在洞察這件事情上,應該要如何行動,才能將 Big Data 轉變成商業創新的機會,在符合企業擘化未來的同時,又能獲得立即的成效?

洞察很美,但美夢如何成真?

由 Big Data 而來的洞察不會憑空而生,通常是由結合領域知識的資料分析過程而來。而資料分析,必須是有米之炊 ── 使用經過蒐集、清洗、結構化好的資料,準確的洞察才有可能。

換言之,沒有清洗乾淨、結構化好的資料,分析不只沒有意義,洞察更可能導致悲劇。

Enterprise Data Lake 的存在,就是希望透過一個 Big Data 平台,加上一個標準化的流程,來讓資料準備 (Data Preparation) 這件事,做到正確、有效、自動化,讓商業洞察的美夢具備成真的基礎。

圖 1. Data Lake 透過資料盤點、儲存、處理、入庫流程自動化,讓商業洞察美夢成真


RDB 與 EDW 小溫習

Relational Database (RDB,關聯式資料庫) 的發展已超過 30 年,Enterprise Data Warehouse (EDW,企業資料倉儲) 的發展也逾 20 年。

時至今日,企業已經習慣在後端使用 RDB 來做為各種資訊系統,如 ERP、CRM、SCM、MES、HITS、Web AP、Mobile APP 的資料交易 (OLTP)、存放、取用的標準工具。

企業對資料交易的反應時間要求,通常是在 millisecond (毫秒) 這個等級。所以對於需要拉取多個 RDB 的資料,以便進行各種統計分析 (OLAP)、報表產製的工作,就會另外採用 EDW 來建置,以免影響到 RDB 的效能。企業對於傳統資料分析的產出時間要求,通常比較寬鬆,可能從幾分鐘到幾小時,在運算資料很大,但運算資源有限的情況下,也不乏以天計數的例子。

使用 EDW 來進行資料分析的工作,一般會設計 Data Model (資料模型),在這個步驟中,依據事先定義好的 Table Schema,從 EDW 中拉出所需的欄位資料,以形成 Data Mart (資料市集)。所以一個 Data Mart 會是 EDW 全部資料的子集 (Subset)。

至此, 我們可以歸納出 3 點:
  1. 即時性要求高的資料交易用 RDB。
  2. 即時性要求低的資料分析用EDW。
  3. 資料分析應用要在 EDW 上事先建模 (Data Modeling),以便產生該分析所需的 Data Mart。
一切都因 Big Data 而不同

本來運作得好好的 RDB for OLTP、EDW for OLAP,怎麼現在就說「不夠用」了呢?

Big Data 浪潮的到來,為企業帶來了幾個衝擊:
  1. 資料來源類型增加
    對比 RDB 與 EDW 的結構化資料,Big Data 代表企業必須處理更多的半結構化與非結構化資料,比如消費者的行為資料、社群媒體的內容資料。若要加以分析或探索,還必須將它們結構化入庫。
  2. 商業競爭壓力增加
    Big Data 的結構化入庫,若再用  EDW 或 RDB 來裝盛,顯然在運算速度面、擴充技術面、成本面,均不符合商業的需求。企業必須尋求新的平台架構,做徹底性的解決。
  3. 商務探索機會成本高張
    使用 EDW 來進行商業分析,由於必須事先建模,一般的 Business User,如行銷企劃、企業經營等職務,就很難使用如 Excel 或圖形化的 BI 工具,直接拉取 EDW 中的資料,中間還是要倚賴其他角色介入協助。這從企業組織運作的角度而言,不僅需要人力的配置,更重要的是從資料準備到分析洞察的回應時間無法縮短。將商業機會探索的資料分析自由度還給 Business User,這是企業在導入 Big Data 平台方案時,可以思考一併解決的。 
我們的答案:Enterprise Data Lake

在為多個行業導入 Big Data 解決方案的經驗累積中,針對以上的問題與挑戰, Etu 團隊提出 Enterprise Data Lake 的架構來回應。

對於 Big Data Thinker 而言,透過 Enterprise Data Lake 的實現,不只是將 Big Data 所帶來的衝擊加以化解,更進一步能夠提昇企業的競爭力、反應力、與變革力。

對於 Big Data Doer 而言,Enterprise Data Lake 是在把資料盤點、資料儲存、資料處理、資料入庫這四件事流程化、自動化,以釋放資料分析與探索的能量,讓 Big Data Doer 可以自由、自主地實現商業洞察的美夢。

圖 2. Data Lake 讓 Big Data Doer 可以自由、自主地分析與探索

Enterprise Data Lake 會取代 RDB/EDW 嗎?

我們認為在很長的一段時間內,Enterprise Data Lake 將與 RDB/EDW 並存,理由如下:
  • Enterprise Data Lake 並不具備如 RDB 的即時資料交易能力
  • 環繞在 EDW 周遭現存的資料分析、報表、BI 等應用短時間之內很難全面性地移植到 Enterprise Data Lake 上。
更合理的安排會是這樣:將 RDB 與 EDW 的資料餵入 Enterprise Data Lake,如同支流的水匯流入大湖,以便進行期程更長、混搭更多、維度更高的資料分析與商業探索。

Etu 是您建構 Enterprise Data Lake 的最佳夥伴

為協助企業建構流程化與自動化的 Data Lake,Etu 已經準備好了:
  1. Etu Manager Hadoop Big Data 平台產品;
  2. Etu 顧問服務;
  3. Etu 建置服務。 
而 Etu 的夥伴生態系統,如 SAP、Oracle、Informatica、Tableau 所提供的 ETL、RDB/EDW 連結、視覺化、與 BI 工具,也都與 Etu Manager 經過實際的整合驗測,讓 Big Data Doer 能夠安心使用,讓商業洞察夢想得以成真。

更多參考資料:


Data Leaders in Action - 資料價值領袖風範與關鍵行動
(Big Data Taiwan 2015 Keynote, by Fred Chiang)






沒有留言:

張貼留言