2013年4月14日 星期日

一人性感,還是整個團隊都性感? — 也談 Data Scientist


Big Data 素養 4


~ 素養,是個人與外界作合理而有效的溝通或互動所需具備的條件 



話說,自從 Harvard Business Review 在 2012 年 10 月以《Data Scientist: The Sexiest Job of the 21st Century》為題,發表了一篇以 LinkedIn 成效顯著的 “People You May Know” 會員推薦功能發展開頭的專文,為世人說明關於這群善於挖掘 Big Data 價值的巨星人物 —— Data Scientist (資料科學家) 的種種。出版之後,迅即吸引許多的關注與討論,包含:媒體到處尋找 Data Scientist 的故事;企業審視要內訓還是外求  Data Scientist,以便創造更多的商業價值;學術單位探討要如何設計課程,以便培養更多的 Data Scientist。

另外,更多人在自問:我算是他們說的 Data Scientist 嗎?我能成為一個 21 世紀最性感的工作者嗎?

(source: flickr.com)

事實上,Data Analyst (資料分析師) 存在世界已久,他們跟 Data Scientist 有何不同?只是資歷深淺的差異嗎?

這可能是一個典型的 Data Analyst 人才技能與經驗需求:

[Sensor Data Analyst]
  • Advanced data analysis skills
  • Advanced Excel and Macros
  • Strong appreciation of the value of insight in driving sound decisions
  • Solid experience of translating data into actionable insight will all be essential
  • Data mining tools experience:
    • SAS, SPSS, GIS, Pitney Bowes, Portrait Miner or any other
    • Business Objects
Source: http://www.cwjobs.co.uk/JobSearch/JobDetails.aspx?JobId=56214062

這可能是一個典型的 Data Scientist 人才技能與經驗需求:

[Data Scientist]
  • Ph.D. in Computer Science, Math or Statistics
  • Extensive programming and system design experience, ability to work with big data with minimal engineering support
  • Strong experience with distributed system such as Hadoop/MapReduce, streaming data processing, distributed caches, and NoSQL databases
  • Solid background in data mining, algorithms, statistical analysis, computational NLP and/or machine learning with at least 5 years experience
  • Proven track record of solving challenging problems in both academia and industry
  • Excellent verbal and written communication skills
  • Self-motivation and an ability to handle multiple competing priorities in a fast-paced environment
  • Ability to work both independently and collaboratively within a team
Source: http://dataminr.theresumator.com/apply/0hXUQB/Data-Scientist.html?source=INDE

其實兩者性質差不了多少,但兩相比較,似乎還看得出:
  • Data Scientist 直接要求更高的學歷,而且是要資訊工程、數學、或統計學科。
  • Data Scientist 要有處理 Big Data 的技能,包含 Hadoop Ecosystem 的駕馭能力。
  • Data Scientist 需具備良好的口語與寫作溝通能力。

這裡有三件事值得說說:
  1. 學歷養成
    Data Scientist 當然不一定非得是博士不可,但我的一位博士朋友說得好:PhD 的價值是貴在訓練過程,從發現問題到解決問題;而並非在擁有艱深難懂的知識。
  2. 程式設計
    從過去結構化的資料庫或資料倉儲中挖掘資料的價值,必須被延伸到半結構化或非結構化的資料,所以熟悉 Hadoop 這樣的 Big Data 處理技術平台,進一步利用 Hadoop Ecosystem 不同的軟體組件做多結構化資料的探勘與分析,就成了必備的新式技能。
  3. 跨界溝通
    一個 Data Scientist 當然不可能熟知所有的領域知識 (Domain Knowledge),往往是憑著一身的數理統計、電腦科學好本領,與不同領域的專家合作,一起發覺、定義、與解決各種面向的問題。即使是在同一個企業中,也必須面向 Business User、IT、Decision Maker、甚至是客戶、市場大眾,來做橫向或縱向的溝通。就也就是為何有人說 Data Scientist 必須是一個好的「Story Teller」的原因。

如此說來,我們不難想像,一個能夠充分發揮價值 Data Scientist 的養成,會是多麼地困難。如果有幸能夠有之,當然他會如巨星般閃耀,絕對是英雄榜的候選人物。

我們該期待一位巨星,還是一個團隊?

太新的倡議與概念,有人贊聲、推波,當然也會有人出來異議、反思。在今年二月的《Data Scientists Not Required: Big Data Is About Business Users》這篇文章中,作者 Kathryn Kelly 女士說了一句非常聳動的話:"The data scientist concept will die”。

她的觀點是從 Business User 的角度來看,Big Data 應該從技術基礎架構與專業分析師的手中解放出來,更容易地被企業的其他角色親近與客製。實踐的手段是建置應用 (Application),而非僅仰賴少數 Data Scientist 或 Data Analyst 這種同時能寫程式、建分析模式、問對問題的專家。

同一個月稍晚,在 Strata Conference 2013, Santa Clara 大會中,正在哥倫比亞大學開辦 Data Sciences 課程的 Rachel Schutt 博士,也以《Next-Gen Data Scientists》為題,直陳 "No one person can be the perfect data scientist, so we need teams":

與其期待一個同時擅長統計、數學、資訊工程、機器學習、資料視覺化、溝通 、領域知識的 Data Scientist,不如冀望於專業團隊。

無論意見為何,至少目前並沒有人否定 Data Scientist 的價值。事實上,坊間正流傳著一則則來自 Google、Facebook、LinkedIn、Netflex、Amazon、Kaggle 等公司 Data Scientist 如巨星般崛起的故事 (可以參考 Wired.tw 最近的兩篇報導:《你不能不知的最夯人才「資料科學家」 - 他們正在搖滾未來的IT產業!》、《你不能不知的最夯人才「資料科學家」 - 他們是從資料庫中挖掘21世紀文藝復興的奇才!》)。只是這種集數種學科專業,還能跨界溝通的傑出人才,物種稀缺,供給數量遠不及於各行業的需求。

破解之道,是在將期望從一人英雄身上卸載,代之以 Data Science 分工團隊的組合,這樣也許更有可能實現 Data Scientist 角色的價值。

強健的 Data Scientists 心理素質

Data Scientist 與 Data Science 團隊成員,不能只有專業技能,素質與態度,也是是否能夠發揮角色價值的重要條件。

Rachel Schutt 博士列舉出了 16 項重要的心理素質,如:

  • 破層思考 (Thinking about thinking; meta-cognition)
  • 舊學為體,新勢為用 (Applying past knowledge to new situations)
  • 思考與溝通力求清晰與準確 (Thinking and communicating with clarity and precision)
  • 發覺幽默之處 (Finding humor)
  • 開放持續學習 (Remain open to continuous learning)

寫到這裡,不覺莞爾:這些不也就是大部分「成功人士」的心理素質嗎?

Data Scientist 果真是超級性感的成功人士啊。無誤。



沒有留言:

張貼留言