2012年10月29日 星期一

企業修煉 Big Data 的三道門與四種關鍵角色


Big Data 素養 3


~ 素養,是個人與外界作合理而有效的溝通或互動所需具備的條件 


隨著 Big Data 處理與分析的資料價值概念,漸為企業所認知,接下來進入操作步驟,直接面對的問題會是:「我們該怎麼開始?未來會怎麼走?我們該具備哪些人才?」

一. 企業修煉 Big Data 的三道門


圖 1. 企業修煉 Big Data 的三道門

現在就讓我們一道道把門開,依序說明問題與修煉的重點。


[第一道門] 不知道 Big Data 的價值何在?

在這道門外,企業擁有多結構化大量資料的企業,可能抱頭不解,這些累積,每天都還在增長的資料,除了能把它們往 Cold Data Storage (SAN、NAS、Cloud Storage) 存放,做為一種「靜止的數位資產」之外,還能拿來解決什麼商業上的問題,或是粹鍊出什麼價值?這時的情況有二:

  1. 商業問題很明確,現在就必須面對,只是找不到解方可藥到病除。比如:現在的客服系統,只是利用結構化的交易型資料來協助客服人員來解答客戶問題。但若能納進半結構化的設備使用與客戶行為資料,勢必可以細化解構問題,擴大解答的資訊視野。所以企業可以很明確知道來自通訊設備網路設備客戶使用介面服務的眾日誌檔案,就是這一題裡的 Big Data 處理與分析價值關鍵。
  2. 商業問題不明確,但必須先有個大方向目標:比如是要找出下一個明星產品、形塑新的競爭策略、或是提高顧客的忠誠度。有了目標方向,就可以展開 360 度的相關資料蒐集格式/內容關聯解析可行性分析。為了能夠細化目標、定義價值,在過程中,關鍵人物將是企業內的 Business Expert,她/他熟悉商務流程、相關利益者的關切點,必要時搭配外界的商業顧問與科技顧問,完成命題的全貌描速,定位出所有必須的企業資料。通常這個 Business Expert,極可能是 CEO、COO、CMO、CSO、CFO、CIO、SVP、VP,或是掌握需求的幕僚。


[第二道門] 不知道 Big Data 該如何處理?

站在這道門外,企業已經知道哪些 Big Data 能夠發揮什麼效益、增加什麼價值,只是在流程面與技術面,不知道該怎麼進行處理?

比如:電信或金融業利用 Data Warehouse 來出帳單,可能因為資料量太大,必須分批才能在一定的時間內算完,導致只能分批出帳。若能在此善用 Hadoop 叢集的平行運算能力,進行 Data Warehouse Offload (資料倉儲工作卸載) 的流程改造,將可有效提高出帳的效率。

面對這道門,我們建議按照以下的步驟來修煉:
  1. 診斷與處方。透過熟知 Domain Data 的 Big Data ETL Expert (一般為企業內部人員) 與 Big Data Programmer 溝通,將整個資料準備與處理流程、邏輯清楚定義出來。
  2. 進行小規模的驗證 (PoC)。針對上述流程與邏輯,配合清楚的驗證目標,拿取一部分的對應資料,來進行資料處理程式的撰寫,然後檢視結果符不符合預期。如果沒有,則做檢討與改進,直至目標達成為止。
  3. 導入 End-to-End 全程解決方案。擴大 PoC 的成效,實作更多的流程與處理範圍,最終串連產出用戶所需的應用介面或提供報表製作所需的加工後資料。

[第三道門] 不知道該問 Big Data 什麼問題?

站在這道門外,企業已經知道擁有處理 Big Data 的流程與程式,並且也累積了一定數量的資料集 (Data Set),接下來的修煉,則是「該問 Big Data 什麼問題?」

通常擁有發問能力的,是所謂的 Data Analyst (資料分析師) 或是 Data Scientist (資料科學家)。他們通常是位在企業內部,透過統計、分析、視覺化工具,與 Big Data Set 的連結,進行反覆詢問,漸漸逼近的查詢方式  (Exploratory Query),解答資料命題,找出商業價值。  

其實 Data Analyst 或 Data Scientist 本來就存在,只是他們分析資料的視野,會藉由 Big Data 引入半/非結構化資料而擴大,不再只侷限於 RDB 或 DW 中的結構化資料。而漸漸逼近的查詢方式,也帶給資料分析人員追求智慧的自由 —— 藉由新技術的引入,可分析資料的時間跨度更長、維度更多、速度更快、成本更低。

二. 企業修煉 Big Data 的四種關鍵角色

我們在上述 Big Data 修煉的過程中,其實已經提及了四種關鍵角色:
  • Business Expert:能夠提出明確的商業目標,或是引導商業目標的討論,也能針對最終的結果,提出行動計畫的人。
  • Big Data ETL Expert:負責多結構化資料的 ETL。資料來源不再只侷限於 RDB,資料存放目的地為 Hadoop 的 HDFS 分散式檔案系統,隨時可供運算使用。
  • Big Data Programmer:針對存放在 HDFS 上的資料,進行 Map/Reduce、Pig、Hive、HBase 等程式的撰寫工作。
  • Data Mining Expert:即上述的  Data Analyst 或 Data Scientist,負責提出資料分析的演算法,或是能夠針對結果資料進行判讀。

三. 企業現狀與未來

理想中,四種關鍵角色一起修煉三道 Big Data 法門,這樣企業的 Big Data 價值,可以發揮得淋漓盡致。 

但回歸到現實,關鍵角色可能還缺乏關鍵技能與工具。我們現在看到的現象是:
  • Big Data ETL Expert 對半/非結構化資料的準備工作尚不熟悉,相關工具的提供,也未達到普遍的程度。
  • Big Data Programmer 技能尚未普及,市場需求大過供給,企業求才若渴。
  • Data Mining Expert 熟悉的統計、視覺化工具與 Hadoop 平台的連結,還在逐漸成熟階段,如果 Data Mining Expert 能夠學習一些 Big Data Programmer 的技能,將可讓自己的資料分析工作更有效率。
所以有心要朝精煉 Big Data 價值方向發展的企業,現在可以善用外部資源,找尋與外部 Big Data 專業團隊的合作,取得領先的優勢。另外一方面,也儘早培養內部的關鍵角色,投資獨特的未來競爭優勢。

哪一道門卡住您的企業,就好好掌握對應的關鍵人才角色,向外尋求合作或自行培養皆可。現在開始,還有機會領先群倫。再過一兩年,可能就喪失先機了。

沒有留言:

張貼留言