2015年1月26日 星期一

Open Data 與 Big Data 發展的異同

2015.1.16 筆者隨 Open Data 聯盟、g0v 等民間開放資料社群代表,一起拜會行政院張善政副院長,與蔡玉玲政委、工業局、國發會、科技會報等 Open Data 議題相關官員進行了一場主題性的座談交流。相關資料見此:
在座談會後,雖然有媒體抓取非核心議題,如「政府網站被張副院長狂電」、「拉攏婉君」等下標報導,但無疑地,此一活動,又再一次讓台灣民間與官方的 Open Data Stakeholders 在線下與線上集結。

在座談會中,筆者發言主要著墨在 Open Data vs. Big Data 的議題,限於時間,當場來不及充分討論的,藉此部落文,一併彙整如下:

圖 1. Open Data 與 Big Data 發展的異同

Open Data 與 Big Data 發展的異同

張善政副院長當天提到,Open Data 與 Big Data 是兩個圓圈,中間有交集。這個看法不能說錯,但對於這兩項議題發展的異與同,其實我們可以描繪得更立體一點,如上圖 1. 所示。

我們保留交集的部份,成為以 Data 出發的三層同心圓。另外將不同的部份展開為兩個維度,因為在這裡,Open Data 與 Big Data 將分流討論。前者發展的關鍵是使用上的自由 (Openness),而後者則是強調善用新的技術架構來解決「傳統方法無法解決的 3V 問題:Volume、Velocity、Variety。


Open Data 與 Big Data 發展的交集:從 Data 出發的三層同心圓

Open Data 與 Big Data 發展交集的部份,從價值發揮的高低,可以畫分為三層:
  • Data (資料)
  • Data Science (資料科學)
  • Data Product (資料產品或應用)
這三層共通的發展主軸,是在提高 Data Value (資料價值)。

Open Data 與 Big Data 發展的分流差異:開放 vs. 技術變革

我們可以分別依主體性與變革重點來討論 Open Data 與 Big Data 的不同之處。

主體性

Open Data 與 Big Data 的發展會產生分流,其最大原因是主體的不同:
  • Open Data 的主體是 Data Owner
    利益相關者 (最常見的是資料使用者) 希望 Data Owner 可以就資料開放使用的五個要素,主要為授權模式資料格式 (如 CSV、JSON、XML、API、或其他檔案格式)、取得成本,兼及資料品質更新頻率。 
  • Big Data 的主體是 Data User
    對於 Data Owner 來說,若他只是擁有資料,並不去使用,其實是不會確切理解在一個特定 Use Case 上,他的資料在被應用時,於 3V (數量級、及時性、多結構性) 個別會產生什麼狀況、發生什麼問題?那誰會知道?自然是 Data User,一般即是使用各種所需資料集來打造 Data Product 的應用開發者。

變革重點

由主體性的差異出發,在圖 1. 的水平軸上,我們確認 Open Data 要變革的是 Data Owner 的心態與做法:
  • 心態上,首先要願意將擁有的資料拿出來;
  • 做法上,必須明訂資料開放使用的遊戲規則。
因為資料是要被使用才會有價值,所以接下來 Data User 的需求角度就會被包含進來。資料開放的遊戲規則與使用者需求的角度一定會存在落差,落差的高低,就成為評量 Data Owner 開放程度 (Openness) 的量尺。

台灣政府各單位身為 Data Owner,在 Open Data 這個議題下,目前並沒有實質的硬性遊戲規則 (法案或法規) 存在,只有國發會的軟性建議 (規範,如「以開放為原則;以收費為例外......」),亦即各 Data Owner 不遵循、沒做到也不會怎樣。

在圖 1. 的垂直軸上,是因運算架構變革而驅動的 Big Data 技術發展,賜予 Data User 一個機會,讓「很多的非/半結構化資料,要在一定的時間內處理完,而且成本不能太高」這件事成為可能。此架構即是分散式運算 (Distributed Computing),其中最具代表性的軟體平台,即是開放原始碼的 Apache Hadoop。它使用多台的平價 X86 電腦串起可以水平擴充 (Scale-out) 的平行運算框架 (MapReduce) 與分散式儲存 (HDFS),打破以往必須仰賴昂貴超級電腦才能完成任務的桎梏。

政府單位的資訊長 (CIO) 就是資料長 (CDO) 嗎?

座談當天曾經出現一個討論:各政府單位的資訊長是否就該是資料長?

綜合以上,這個答案已經呼之欲出。

資訊長關注的是各單位的資訊應用系統,要如何規劃、導入、與進行效益評估,他/她是「應用之長」;而政府單位資料長的角色任務,則是在盤點該單位所擁有的資料後,制定開放使用的五大要素遊戲規則,並督導執行的正確性,他/她是「資料之長」。

若有一個人具有超強的能力,可以同時扮演好兩種角色 ── 資訊長兼資料長,那當然我們無話可說。重點是有沒有把這兩種角色的職掌明確區隔開來,組織不同的工作團隊、給予不同的 KPI。

Open Data 與 Big Data 應該合流發展

最後,我們還是要呼籲,政府的 Big Data 應用不應該鎖在科技部與補助的學研。即使是因為目前有法令上的限制 (據稱主要是個資法),也應該要努力突破,使政府認定的 Big Data 也能成為 Open Data 中的資料集,讓民間一起來提高與累積資料的應用價值。分而治之,實非社稷之福。





2 則留言:

  1. 您好,對於文章的內容我有些問題,請問能否在此提問呢?

    回覆刪除