內容簡介
分析現狀還不夠,預測未來更重要!
與其相信一個人的直覺,不如相信數千萬人的資料——
從圖解、案例,到策略與實戰,一本書,徹底解讀大數據!
Facebook、Google、Amazon,以及小松(KOMATSU)、瑞可利(Recruit)、GREE等歐美日知名企業都在用的資料淘金術!
懂得找出資料的價值、萃取可用的資訊,就能將大數據轉化為商業智慧(BI);嗅出趨勢、解決問題、創造商機,進而創造「偶然的幸運」(serendipity),正是大數據帶領企業持續前進的動力!
連上Facebook頁面,出現推薦「你可能認識的朋友……」的建議,妳因此而找到失聯已久國中同學。
到amazon.com網站購書,你看到「買這本書的人也買了這些書……」的清單,也正好是自己想讀的書。
只要打一個字,Google就出現「您是不是要查……」的資訊,正確預測到你想找的關鍵字。
事實上,這些「偶然的幸運」(Serendipity),都和善用大數據(Big Data,亦稱巨量資料、海量資料)有關。
上述的企業提供你需要的資料、精準預測到你的下一步,其實並非魔法、也不是憑空而來。這些企業將大數據轉化為商業智慧(BI,Business Intelligence),不僅分析現狀,更懂得預測未來。
大數據是「二十一世紀的新石油」,也是繼資料挖掘(data mining)、雲端運算、社群網站之後,最受矚目的趨勢。如何將龐雜的巨量資料理出脈絡、找到關聯、發掘價值,找出商機,成為決勝關鍵。
本書作者城田真琴,是野村總合研究所(簡稱野村總研)高級研究員,也是大數據領域的權威專家。在日本,野村總研被稱為最有影響力的民間智庫,作者以野村總研獨家調查的第一手資料為基礎,介紹Zynga、Centrica、Catalina Marketing等歐美企業,以及小松(KOMATSU)、瑞可利(Recruit)、GREE等日本企業如何應用大數據的實際案例。
一本書,讓你認清資料(data)、資訊(information)與情報(intelligence)的不同,不僅要看得到、看得懂,還要能用得出來,進而找到真正的商機所在!
【名家推薦】
◎吳世鈺(美商天睿資訊系統有限公司(Teradata)台灣分公司總經理)
◎詹宏志(PC HOME網路家庭董事長)
「本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識分子閱讀。」
——楊千(國立交通大學經營管理研究所教授)
「我很喜歡作者城田真琴在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!」
——陳志仁(台灣野村總研諮詢顧問股份有限公司副總經理)
「本書的付梓,提供了一個巨量資料生態圈比較完整的面貌,是非常好的出發點。其中最值得推薦閱讀的部分,在於日本企業小松(KOMATSU)、瑞可利(Recruit)、GREE等,如何運用巨量資料強化地域經濟的思維。在面臨全球產業布局和硬體利潤微薄化的今日,如何槓桿地域劣勢,轉化為全球區域發展的特色核心,日本政府和民間的過來經驗,不失為台灣各界的參考基準。」
——徐子涵 Schee(英國開放知識基金會地區大使、Fertta Communications執行長)
「想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?存得起來的,就是storage(儲存)。看得到的,才是data(資料)。看得懂的,叫做information(資訊)。用得出來的,才能稱為intelligence(情報、智慧)。很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。」
——翟本喬(和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
「身處於強調「與其相信一個人的判斷,不如相信千萬人的巨量資料」的時代,身為決策者,已經不能只靠直覺或數字,更必須融合資料科學,從各種消費紀錄、社群網站的輿情觀測、打卡定位等資料中萃取價值,做為決策參考之用。未來這段時間,所有從事行銷或商務的人,都將會遭到「巨量資料」淹沒,在載浮載沉之間,我推薦這本書當作你我的浮木,讓我們面對資訊洪流(data deluge),卻依然能一窺堂奧。」
——劉奕成(英商巴克萊銀行台北分行董事總經理、台灣金融分析專業人員協會〔CFA台灣分會〕理事長、《小日子享生活誌》創辦人)
「閱讀本書最大的收穫,並不是了解巨量資料的重要性,而是知道巨量資料可以如何應用在商業上?巨量資料帶給我們的衝擊會愈來愈大,你最好從現在就開始習慣。是的,我們活在廣袤的資料流中。而此刻,你無需驚慌,只需要有一本好書指引。帶著本書,讓我們啟航吧!」
——鄭緯筌Vista(資深部落客、獨立媒體人)
目錄
【導讀】
創造「偶然的幸運」(serendipity),正是巨量資料技術不斷前進的動力
(台灣野村總研諮詢顧問股份有限公司副總經理 陳志仁)
【推薦序】
當商業智慧隱藏在雲深不知處
(國立交通大學經營管理研究所教授 楊千)
Big Data, Big Intelligence:從資料、資訊到情報
(和沛科技股份有限公司總經理 翟本喬)
當巨量資料與社會脈絡交集
(英國開放知識基金會地區大使 徐子涵 Schee)
Data、Data、Data:我們活在廣袤的資料流中
(資深部落客 鄭緯筌Vista)
老大哥在看著你:Big Data? Big Brother?
(英商巴克萊銀行台北分行董事總經理 劉奕成)
前言
第一章 什麼是巨量資料
資料洪流(The Data deluge)
巨量資料的3V特性
廣義的巨量資料
為什麼到現在巨量資料才受到眾人的矚目?(1)巨量資料的民主化
為什麼到現在巨量資料才受到眾人的矚目?(2)硬體性價比的提升與軟體技術的進化
為什麼到現在巨量資料才受到眾人的矚目?(3)雲端的普及
從「分析過去」到「預測未來」 商業智慧與巨量資料的交會
從點(交易資料)到線(互動資料)的分析
巨量資料分析的起源
本章重點整理
第二章 支撐巨量資料的技術
人才短缺
什麼是Hadoop
與日俱增的套件
眾多套件版本並存的原因
NoSQL資料庫
創投也對Hadoop、NoSQL開發企業投以熱切的目光
巨量資料時代的資料處理基礎
備受矚目的分析資料庫
串流資料(即時資料)處理
自行開發串流資料處理技術的網路公司
機器學習、統計分析等
自然語言處理、其它
本章重點整理
第三章 以巨量資料為核心競爭力的企業 歐美企業篇
快速成長之網路公司的巨量資料運用技巧
eBay:每天產生50 TB的資料
(1)遠超乎想像的巨量資料產生速度
(2)eBay的資料分析基礎
Zynga:披著遊戲開發商外皮的資料分析公司
(1)社群遊戲經濟的重要指標
(2)提升病毒係數的機制
(3)遊戲其實是資料驅動營運
(4)三次點擊原則
Centrica:藉由引進智慧電表分析能源消耗模式
(1)英國電費、瓦斯費收費的實際狀況
(2)引進智慧電表後的影響
卡特琳娜行銷集團:以「收銀台優待券」設計顧客的消費行為
(1)儲存了超過一億人份的消費紀錄
(2)預測顧客的消費行為,帶動門市買氣
本章重點整理
第四章 以巨量資料為核心競爭力的企業 日本企業篇
日本國內也開始運用巨量資料
小松(KOMATSU):日本運用巨量資料的先驅
瑞可利(Recruit):徹底運用Hadoop資料分析,成功改造企業文化
(1)幾乎全公司上下都用Hadoop
(2)支撐瑞可利巨量資料分析的Hadoop基礎
(3)成功的祕訣在於組織體制
(4)對於瑞可利而言,Hadoop的「真正價值」究竟是什麼?
GREE:資料驅動型營運方式是快速成長的原動力
(1)與其相信一人的判斷,不如相信數千萬人的資料
(2)資料驅動型營運方式的根基來自對於日誌資料的執著
(3)具備多種技能的專業人士齊聚一堂
(4)將溝通不良減至最少的團隊體制
日本麥當勞:在現實世界實現一對一行銷 (One-To-One Marketing)
(1)劃時代優待券背後的周全準備
(2)把焦點集中在做為集點卡的行動電話與智慧型手機
本章重點整理
第五章 巨量資料的運用模式
巨量資料的運用案例
(1)精準推薦商品或服務
(2)行為定位廣告
(3)運用地點資訊的行銷
(4)糾出盜刷
(5)顧客流失分析
(6)預測設備故障
(7)驗出異常
(8)改善服務
(9)預測路況
(10)預測電力需求
(11)預測感冒流行
(12)預測股市行情
(13)油資成本的最佳化
巨量資料的運用模式分類
(1)個別優化×批次處理型
(2)個別優化×即時資訊型
(3)全體優化×批次處理型
(4)全體優化×即時資訊型
巨量資料的運用深度
(1)掌握過去與現狀
(2)發現行為模式
(3)預測
(4)優化
【專欄】動態定價
巨量資料運用的真正價值
本章重點整理
第六章 巨量資料時代的隱私權問題
隱私權與創新的兩難
美國國會也表示關注
製作網路個資檔案的是與非
請勿追蹤(Do Not Track)
消費者隱私權保護法案
採用選擇性參與方式的歐盟
資料保護綱領也進行修正
(1)引進「抹掉過去」的權利
(2)使用者尚未明確表示同意前,不得使用其個人資料
(3)制定資料可攜(Data Portability)的權利
(4)擴大說明責任
日本的法令架構是《個人資訊保護法》加上分別針對各領域訂定的指導原則
部分指導原則在提供資訊予第三人上採用選擇性參與方式
日本政府的評估狀況
以「資訊大航海計畫」為契機開始評估的經濟產業省
由生活紀錄的角度進行議論的總務省
線索就在與使用者的「對話」
實體世界裡的行為追蹤
本章重點整理
第七章 開放資料時代的到來與資料市場的興盛
「活用外部公開資料」的選項
風起雲湧的連結開放資料(LOD,Link Open Data)運動
影響擴及開放式政府
如雨後春筍般不斷出現的新創企業
透過比賽促進資料運用
落後一步的日本
日本國內因三一一大地震而略有進展的開放資料使用
資料市場的興盛
(1)Factual
(2)Windows Azure Marketplace
(3)Infochimps
(4)Public Data Sets on AWS
商業模式各有不同
熱絡的資料市場存在著不容忽視的課題
本章重點整理
第八章 面對巨量資料時代該有的準備
巨量資料時代的企業IT策略
開始邁向資料分享的日本企業
(1)LAWSON×Yahoo
(2)KDDI×樂天
(3)COOKPAD×ID’s
擁有原創資料的好處
供應商的新商機在提供「資料整合服務」
誰能成為資料整合公司
美國的支付服務業者明顯朝「資料整合公司」發展
(1)VISA
(2)PayPal
(3)美國運通
讓原創資料搖身一變成為「貴重資料」的絕妙資料組合
全世界對資料科學家的需求愈來愈高
資料科學家需具備的技能
資料科學家需具備的資質
(1)溝通能力
(2)創業家精神
(3)好奇心
相關人才嚴重不足
相關研究所開始設立
鉅額資金流向巨量資料分析企業
日本也開始對資料科學家展開搶人大戰
最後的一道關卡--組織體制與企業文化
朝向資料驅動型企業邁進
本章重點整理
謝詞
參考文獻
圖表索引
導讀
【導讀】創造「偶然的幸運」(serendipity),正是巨量資料技術不斷前進的動力
◎文/陳志仁(台灣野村總研諮詢顧問股份有限公司副總經理)
接到本書導讀的邀稿時,剛好是我跟一家國內大型服務公司探討他們公司海外發展議題之後的下午。
這讓我想到,從2004年加入野村總合研究所台北分公司以來,轉眼已經過了九年。常有企業主在面對全球新的議題與挑戰時,諮詢我們的看法;而我們的顧問專家群,難免也會私下討論不同國家的企業主對於新事物的接受態度。
過去,我們總是以為台灣企業主很少願意從邏輯思考的角度,看清所謂新事物的全貌,凡事好像只想要得到「引進這件新事物的時機是否已經成熟?」的答案, 卻沒有深入思考「如何親自將新事物引進企業,做為企業超越自我的契機?」。
讀完這本書之後,我必須稍加修正以上的觀點,或許該說,如果對於新事物的介紹,可以有辦法解說得完完整整、面面俱到,那麼,企業主怎麼可能放過這些知識呢?
這本書是我在東京總公司的同事城田真琴的著作,在日本,這本書出版於2012 年7月,2013年陸續出版韓文版、簡體中文版與繁體中文版,是巨量資料領域的重要著作。我認為,這本書內容能讓台灣的讀者有機會看見全球發展「巨量資料」的全貌。
本書的內容在第一及第二章介紹了「巨量資料」在資訊科技技術上出現的許多新名詞,例如Hadoop、NoSQL、LOD 等;並且進一步解說企業在資料運用層面,從過去的「資料可視化」進展到「資料預測未來」的境界;因此,強調深層的資料調查以及準確度的預測,讓企業因為採用巨量資料的「技術」而進展到更高的境界。
簡言之,對於電腦技術名詞沒有興趣的讀者,可以想像,過去資料只能「知道交易已經完成」的階段,當運用巨量資料以後,已經進化到可以「知道交易完成的原因」了。
對於想知道全球企業實際應用巨量資料個案的讀者們,可以在第三章了解到四家歐美企業的成功案例,其中包含網拍公司eBay如何整合過去的資料倉儲分析系統與巨量資料技術,讓大家羨慕eBay員工擁有三個不同的資料分析基礎來支持他們進行業務的拓展。此外,第三章也介紹遊戲公司Zynga如何以5 %的付費客戶繳出11億美元營收的驚人業績。英國瓦斯及電力公司Centrica的個案,讓讀者了解英國把150萬顆機械電表改成數位電表後,巨量資料改變每個人生活的情境。第三章最後介紹的是大型零售業者卡特琳娜行銷集團(Catalina Marketing),豪氣地蒐集一億人的消費資料,達成「能夠以100 %的準確度,預測出像是會購買某個商品的潛在消費者」的行銷新境界。
當讀者沉浸於以上個案的激盪時,別忘了第四章還有四個日本企業運用巨量資 料的成功案例——小松(KOMATSU)是日本主要建築機械的供應商,其實在台灣的建築工地也不難看見小松的推土機以及怪手;小松的商業模式是租賃這些機械設備給營建商或是工務機構,因此,透過全球機械所不斷蒐集的相關巨量資料,已經可以用來推估設備維修的需求即將發生,以及給使用者燃料使用節省的建議做法等。
瑞可利(RECRUIT)是家擁有各式各樣網路專門服務的公司,有求職、結婚、購屋網等,他們採用Hadoop技術,加上名為MIT(Marketing & IT United)的新組織,跨部門整合公司內部各單位,讓企業內部更有效地蒐集與分享利用巨量資料。
此外,第四章也剖析日本遊戲公司GREE急速成長的原動力,在於「與其相信一人的判斷,不如相信數千萬人的資料」,他們稱為「資料驅動型營運方式」。第四章最後的日本麥當勞(McDonald’s Japan)案例,我在2009年就曾涉獵過,很佩服該公司仍持續發展個人化行銷的相關巨量資料,要達成「在現實世界實現一對一行銷」的願景。
原本我以為這本書第三章與第四章完整介紹歐美日的八個企業案例之後,到此 應該夠了,但是,身為一位任職於全球知名智庫的管理顧問專家,如果只是把資料說個夠多,並沒有滿足提出「洞察力」(insight)這樣的專業標準,可能無法滿足讀者追根究柢的渴望。因此,我們可以看見第五章有13個巨量資料的運用案例,進一步介紹「將巨量資料引進企業,做為企業自我超越的契機」的具體樣貌。
本書最令人讚歎的地方,在於作者將他研究企業應用巨量資料的成功案例,歸納成一張張淺顯易懂的圖表,其中,第五章【圖表5-1】巨量資料的運用模式,是一張相當精采的圖表,由個別最佳化、全體最佳化、批次處理與及時處理構成四種巨量資料運用的商業模式,滿足想要對於巨量資料獲利模式一探究竟的挑剔讀者們。
接下來,第六章探討美國歐盟以及日本主要國家對於巨量資料侵犯隱私的相關 法律及對應的措施,針對許多服務業者關心台灣對於消費者隱私保護的議題而言, 有具體的參考價值。
我們都知道,談巨量資料一定避免不了政府的公開資料(Open Data)此一環節,作者選擇在商業模式探討完畢之後,再來說明美、英、日等國政府鼓勵發展公開資料的具體做法,其實也確實符合我們的觀察,單單政府資料公開無法成為獲利 模式的趨勢;但是,如果沒有政府的公開資料,肯定有些美好的巨量資料商業模式就無法成真。
事實上,本書結論讓我非常震撼——我是一位1990年代投身職場的上班族,當 年,資訊工程師(Information Engineer)這個新職業造就了一波產業的革命,也 帶動了台灣服務業的一波成長榮景。本書最後,作者告訴我們,身處巨量資料的年代,不僅僅企業在組織內需要一位資料長(Chief Data Officer)的新角色;而且未來十年,整個IT業界裡最重要的人才將是資料科學家(Data Scientist)這個新人才。美國的大學已經開始開設主修分析學的研究所課程,展開人才的培養教育,他需要培養三種特質,容我賣個關子,把這個答案留給讀者在本書裡挖掘吧!
最後,很高興出版單位給我有機會搶先讀完本書,我也很喜歡作者在本書中提出的許多細微的觀察,例如,在說明亞馬遜(Amazon)電子商務的「協同過濾」(Collaborative Filtering)技術時,引經據典地介紹「偶然的幸運」(Serendipity)這個詞,這是來自英國小說家霍雷斯.華爾波(Horace Walpole)在1754年的新創文字,描述消費者意外擁有幸運或是發現有價值事物的奇特心情,很傳神地說明了給消費者不可預期的幸運,正是巨量資料技術不斷前進的動力啊!內文試閱
★第四章 以巨量資料為核心競爭力的企業 日本企業篇
⊙日本國內也開始運用巨量資料⊙
巨量資料的運用,印象中似乎是歐美企業領先於日本企業,不過,日本企業中也有一些著善於運用巨量資料而收到顯著成效,或正開始收割成果的公司。在本章,做為日本企業致力於巨量資料的事例,舉出小松(KOMATSU)、瑞可利(Recruit)、GREE與日本麥當勞為對象進行說明。
⊙小松(KOMATSU):日本運用巨量資料的先驅⊙
以巨量資料為核心競爭力的日本企業中首先要介紹的,是僅次於美國Caterpillar Inc.的世界第二大建築機械製造商小松。早在「巨量資料」這個名詞尚未成形前,小松就已經開始致力於現今所稱之巨量資料的運用而收到顯著成效,如果說「日本巨量資料運用的原點就在小松」也不為過。尤其是利用GPS和感測器資料之巨量資料運用的精髓均濃縮在小松的例子裡,特別值得製造業參考。
對多數的日本企業來說,「全球化」是今後經營上最重要的課題。2010年度小松的合併營收為1兆8431億日圓,除了是名列全球第二的建築機械製造商外,從占了小松營收87.7%(1兆6156億日圓)之建築機械、車輛設備部門的地區別營收(請詳見【圖表4-1】)中,日本國內僅僅貢獻了16%(其餘皆來自海外)的事實來看,更應聚焦在小松是個非常早便實現全球化的企業這一點上。
小松全球化的原動力來自「KOMTRAX」,也就是能夠遠端監控建築機械運轉狀況的系統。KOMTRAX透過裝設在建築機械上的GPS與各種感測器,蒐集機械的現在所在位置、運轉時間 、運轉狀況、燃料殘留量、耗材的更換時期等資料,並利用衛星或手機通訊,最後經由網路將這些資料送回小松位於日本的伺服器,藉由這樣的機制世界各地的經銷商與客戶都能對小松的伺服器進行存取,並確認自己所在地區之資料(請詳見【圖表4-2】)。
KOMTRAX最早的版本於1999年首度問世,將GPS裝設於小松旗下租賃公司的推土機和油壓怪手等機械上,藉此掌握個別車輛的位置資訊與運轉時間,好處是除了能更有效率地進行車輛調度外,更不會再遭到偷竊,並降低了維修管理成本。
小松自2011年起將KOMTRAX列為日本國內市場所有建築機械的標準配備,之後並擴大引進至歐美、中國等地,目前在菲律賓、越南、南非等全球約70個國家中,有超過26萬部的設備參與運轉(2012年3月底時)。剛開始只掌握了位置資訊與運轉時間,但目前已能夠蒐集如「什麼時候補給了燃料」 「什麼時候在何種模式下使用了怪手」等各種資訊。
▲如何處理原始資料?▲
從小松KOMTRAX一連串致力於資料的運用方式中,我們想要學習的關鍵在於 「從所蒐集之原始資料(raw data)獲得什麼樣的洞察」。比方說,只要知道建築機械的正確運轉時間,便能事先鎖定損耗率高的零件,在維修服務的效率化派上用場。只要知道燃料的使用量,便能藉由對燃料使用量多的客戶與使用量少的客戶之間的差異進行分析,來釐清雙方操作方式的不同,並給予燃料使用過多的客戶節省能源的建議。具體來說像是 「白天時車輛位置並無變化,但引擎仍維持發動。最好提醒客戶不要怠速,記得關閉引擎」。
建議客戶適當的使用方式,不光是為客戶帶來節省維修與燃料費用的好處,對小松及經銷商也有助益。原因在於,讓客戶以適當的方式操作建築機械來維持機械本身的價值,不但能在二手市場以高價脫手,更有利於維持小松品牌的形象。
透過KOMTRAX的資料分析所得到的洞察中,最與眾不同的是對中國市場之門市債權管理的支援。在中國,個體戶申請貸款購買建築機械,再將機械出租給第三方,以租金所得繳交分期付款的情形所在多有。不過,也因為是個體戶,授信管理與資金回收也相對困難,但只要利用KOMTRAX就能了解建築機械的使用狀況,簡單地說就是掌握了使用者實際上有無承攬業務。因為小松的建築機械附有引擎遠端上鎖功能,對於明明承攬了業務卻不按時繳交分期付款的惡劣客戶,可藉由將引擎上鎖來催促客戶還款。
由於透過GPS掌握了哪些地區機械運轉時間的增加或減少,便能夠預測需求動向,並將庫存與生產量控制在適當的範圍。實際上,2004年受到中國政府實施緊縮銀根的影響,建築機械的需求急速滑落,在其他同業苦惱於庫存過多時,小松從獨自的運轉實情資料察覺到情況有異,洞燭機先地將生產線停工3個月,成功避開了庫存過剩的問題。
標榜「遙遙領先同業之經營」的小松,除了推出競爭對手在3到5年內追趕不上的先進產品之外,也主張「遙遙領先同業的客戶服務」與「遙遙領先同業的資料運用」。 小松董事長坂根正弘先生過去在接受日本產業資訊網站「Diamond Online」的專訪時說了這麼一段話:
「如果只有遙遙領先對手的產品和服務的話,總有一天同業會追趕上來,但只要連資料運用的領域都能大幅超越同業,對手便沒辦法趕上,小松的目標是在產品、服務、資料運用的三個步驟上皆時時走在領先競爭對手前面。」
由此可見,小松堪稱以資料分析能力為企業核心競爭力的代表。
⊙日本麥當勞 :在現實世界實現一對一行銷(One-To-One Marketing)
對照每一位顧客的屬性和消費紀錄,並推薦顧客最適合的產品―若是以亞馬遜為代表的電子商務網站,這不是什麼新鮮事。不過至目前為止,有辦法在實體商店做到上述功能的日本企業卻是少之又少。
而日本麥當勞正在逐漸實現上述功能。日本麥當勞仔細地分析每一位顧客的消費紀錄,對照其消費型態來發送內容因人而異的折價券至用戶的手機。
日本麥當勞過去是透過會員制行動電話手機網站「好康手機網站」與會員制智慧型手機APP的「好康APP」,提供優待券資訊或產品資訊、門市搜尋與貼圖促銷等服務。2011年3月,日本麥當勞以Android作業系統下具備電子錢包功能的智慧型手機為對象,推出手機感應讀取便可進行點餐的「感應優惠券」等,致力於提供透過行動電話或智慧型手機來提供服務。
2011年12月18日當時,「好康手機網站」的會員數突破了2600萬人,也就是說在日本每5人就有1人是日本麥當勞手機網站的會員。在這些會員當中,成為日本麥當勞落實一對一行銷之新型優惠券發送對象的,是持有「電子錢包」功能之手機(譯註:內建FeliCa晶片的行動電話或智慧型手機。FeliCa則是Sony所研發出非接觸型IC卡的技術。)的會員。
優惠券的具體案例如以下所示:
.對於「經常在週六、週日的中午購買咖啡的顧客」,發送「週末早晨的咖啡免費兌換券」。
.對於「已有一段時間沒上門的顧客」,發送「過去經常購買之漢堡等的折價券」。
.對於「雖然經常來店消費,但不購買新口味漢堡的顧客」,發送「新口味漢堡的大幅度折價券」。
.對於「經常購買漢堡套餐的顧客」,發送「蘋果派等再多點一道也能輕鬆下肚之餐點的折價券」。
說到優惠券,一般來說是從網站上列印出任誰都是一模一樣的內容,就算以郵件的形式發送至行動電話或智慧型手機,所有消費者拿到的也是完全相同的內容。不過,日本麥當勞的優惠券除了內容因人而異外,也相應個別顧客的來店狀況變更其發送的頻率,可以說與過去的手機優惠券截然不同。
▲劃時代優待券背後的周全準備▲
日本麥當勞這個劃時代的優惠券,並不是肇因於天外飛來一筆的突發奇想。為了實現可因應每位顧客消費紀錄不同而縝密調整的優惠券發送方式,不可或缺的是儲存足夠份量的消費紀錄資料,因此,日本麥當勞在打造資料蒐集機制的同時,也在2004年開始陸續投下300億日圓,建構儲存與分析顧客資訊等的系統。
手機優惠券的發送始於日本麥當勞在2003年7月啟用的行動電話手機網站「好康手機網站」,雖於2006年2月著手進行會員屬性的調查,但當時僅止於以問券的方式讓用戶回答年齡或性別等相關資料。
蒐集消費紀錄的動作正式展開的時間點是在2007年7月,日本麥當勞與NTT Docomo共同成立了以「電子錢包手機」為主要業務的新網路行銷公司「The JV」,做為新公司創設的成果,2008年5月日本麥當勞開始在日本九州的部分地區提供結合了「電子錢包手機」與讀取機技術的「感應優惠券」服務(請詳見【圖表4-12】)。同時也引進了CRM系統以進行消費紀錄資料的蒐集,並於2009年8月表示「感應優惠券」已成功導入日本全國的所有門市。
2007年9月時還只有500萬人的「好康手機網站」會員數,在2010年1月突破了1600萬人,到了2011年2月更攀升至2000萬人。接著,在完成將「感應優j惠券」導入日本全國門市約2年後的2011年7月,在已儲存了大量顧客消費紀錄資料的這個時間點,日本麥當勞跨出了實現發送一對一行銷優惠券的一步(請詳見【圖表4-13】)。
過去擁有實體店鋪的零售業皆仰賴夾報宣傳單或電視廣告等以不特定多數消費者為對象的大眾行銷方式。不過,今後由於可廉價儲存與處理龐大顧客資料技術的出現,轉而採用一對一行銷的企業應該會逐漸增加,實際上在進入2012年後,報導指出大型家電連鎖量販店Bic camera與Yodobashi camera等公司也開始對集點卡會員提供相應於顧客消費紀錄的優惠券。
▲把焦點集中在做為集點卡的行動電話與智慧型手機▲
另一個值得注意的是行動電話與智慧型手機所扮演的角色。日本麥當勞與Bic camera,皆把行動電話與智慧型手機做為集點卡來使用。
關於一般的集點卡,常常會有因為卡片張數愈來愈多,消費者便以「錢包塞不下」等的理由將卡片放在家裡,等真的有需要的時候才發現沒帶在身上的情況,若是行動電話或智慧型手機的話,只要不發生特殊狀況,通常不會忘了帶出門。站在業者的立場來看,要是能以行動電話或智慧型手機取代集點卡,就表示不會再出現「蒐集消費紀錄資料的漏網之魚」。對於實行以消費紀錄為基礎之一對一行銷,最理想的情況是能讓消費者在每一次消費時都使用集點卡,以掌握其所有的消費行為。但現實上會因上述理由,或「懶得從錢包裡拿出集點卡」之類的理由,無法做到滴水不漏的消費紀錄蒐集。
做為發送優惠券或結帳的手段,行動電話與智慧型手機發揮了很大的效用,,但未來也應將焦點放在將行動電話與智慧型手機做為資料蒐集的媒介上。談到利用智慧型手機來進行資料蒐集時,多數人經常將把目光聚集在利用GPS來蒐集位置資訊的部分,不過,行動電話或智慧型手機當作集點卡來使用時,便能夠立刻搖身變成蒐集消費紀錄的媒介。
★第八章 面對巨量資料時代該有的準備★
⊙開始邁向資料分享的日本企業⊙
相對於美國透過設立資料市場,促使資料以較為開放的方式流通的情形,日本的商業模式則是透過特定企業間的策略聯盟,共享彼此資料。以下,為各位介紹幾個案例:
▲(1)羅森超商(LAWSON)×日本雅虎(Yahoo! JAPAN)▲
在羅森超商與日本雅虎於2011年6月宣布的合作計畫中,羅森超商可取得擁有日本雅虎帳號約2,600萬名使用者的網頁瀏覽紀錄、搜尋紀錄、商品消費紀錄等諸如此類資料;相對的,日本雅虎則能取得由羅森超商推行的點數回饋方案Ponta的約3,200萬名會員的消費紀錄(以上皆為2011年6月宣布時之會員數)。
二家公司計畫在取得客戶同意的前提下,提供服務將適合個別使用者的活動介紹或各種資訊,傳送到顧客智慧型手機的服務。
▲(2)KDDI×樂天▲
手機業者KDDI與樂天(Rakuten)也在2011年6月宣布雙方將以電子錢包服務為主,進行業務合作。雙方合作之後,使用者就能利用KDDI的結帳系統「au輕鬆付」(auかんたん決済)加值樂天的電子錢包Edy,加值的金額就跟au的電話費合併支付。使用者還能用「au輕鬆付」來支付在樂天市場上消費的商品費用等,相互強化雙方付費平台的運用。
未來,亦將評估以au、Edy雙方顧客的屬性資訊、消費紀錄資訊、地點資訊等為基礎,共同推行以促使客戶到可使用Edy付費的實體商店消費的行銷活動(傳送優惠券、推薦商品、傳送限時特價資訊等,諸如此類)。
▲(3)COOKPAD×ID’s▲
COOKPAD是日本最大食譜社群網站,每月用戶人數超過1,500萬人; ID’s在日本擁有33家連鎖超市的客戶,是一家為連鎖零售商提供提高顧客忠誠度策略的企業,兩家公司在2011年12月宣布進行策略合作。
他們針對在東急Store(Tokyu Store)、西鐵Store(Nishitetsu Store)、SUNNY MART、Tairaya等7家全國合作夥伴連鎖超市消費的「購物點數卡」會員,以及使用COOKPAD來決定食譜的COOKPAD會員合作,展開運用搜尋紀錄與消費紀錄等資料的行銷活動。具體做法是,客戶只要以購物點數卡的ID登入COOKPAD,除了能閱覽自己在超市裡購買的食材外,還能依所購買的食材,由網站推薦最適合的食譜。
而對超市而言,取得食譜的搜尋資料的好處在於,能夠「掌握顧客購買食材的目的」、「配合個人的興趣發行優惠券」、「改善陳列方式」等。
⊙擁有原始資料的好處⊙
第三個案例COOKPAD×ID’s,其實不單只是二家公司間的資料分享,更可以從不同的角度獲得啟發。我們應該從COOKPAD身上學習的重點,在於擁有其他公司沒有的「原始資料」的優勢。
COOKPAD對所有使用者為了搜尋食譜而輸入的龐大搜尋紀錄做分析後,將其結果整理為「吃看看」(TABEMIRU)資料庫,出售給食品公司等。該資料庫之所以有價值,在於搜尋紀錄是「顯示出消費者對食材潛在需求的寶貴行銷資料」。
也就是說,COOKPAD把自己公司所擁有的核心資料「出售給其他公司」;以這一點而言,可說已在實踐【圖表8-2】裡介紹的資料運用策略。
只要運用「吃看看」資料庫,就能知道像是「火鍋」這個關鍵字,「是跟哪些食材(白菜或高麗菜、鱈魚、豬肉、雞肉等)組合起來搜尋的?」、「在哪個月份被搜尋最多次?」,或是「東京地區(首都圏)與關西地區的搜尋傾向有無差異」等分析結果。食品公司能基於這些資料,去開發新商品;流通零售業則能運用它,來設計出一個站在消費者觀點的充滿吸引力的賣場。
據聞,某家食品公司的咖哩塊商品企畫部門,在分析不同月份與「咖哩」一起做為搜尋關鍵字的食材之後發現,最常被搜尋的食材是「絞肉」的這項事實。依據這樣的結果,該公司把組合了絞肉和咖哩塊的食譜放進與流通業者的討論內容上,一起提供給他們。
經營全日本最大食譜社群網站的COOKPAD,以「廣泛掌握消費者對食材的潛在需求」這一點而言,無人能出其右。無論是與ID’s的合作,或是「吃看看」資料庫這項服務,都把只有COOKPAD才有的「原始資料」的長處發揮到極致。該公司的策略,非常值得其他業界參考。
⊙供應商的新商機在提供「資料整合服務」⊙
另一方面,我們該從ID’s身上學習的重點,在於該公司是與複數家連鎖超市擁有溝通窗口的「資料整合者」(Data Aggregator)。也就是說,它和本書在第三章中介紹過的卡特琳娜行銷公司一樣,藉由彙總各家超市的顧客消費紀錄,成為能將該等資料一次提供給外部(本案例為COOKPAD)的中介業者(請詳見【圖表8-3】)。
站在希望取得大量資料的第三人——也就是像本案例中COOKPAD般的業者——角度觀之,資料整合者替他省掉了逐一和各個超市或消費者進行交涉的心力與時間,是個非常方便的存在。
而在其他業界,也開始出現資料整合者。比方說,電力業界的「需求回應整合公司」(Demand Response Aggregator)便是這樣的角色。第五章裡,筆者曾經介紹過「當電力需求達到尖峰時,自動關閉非必要之機器設備」的「自動反應需求電量」技術。但若以非自動化的方式,在電力公司請求降低電力使用量時,負責對各家庭或企業呼籲節電的中間業者,便是「需求回應整合公司」。其運作模式是:需求回應整合公司會事先徵求願意提供協助的家庭或企業,在有需要時,對其提出配合節電的要求,然後對配合的家庭或企業,提供金錢或點數等謝禮。謝禮(誘因)由電力公司支付,需求回應整合公司則在扣除手續費後,依節電的電量,把謝禮轉付給家庭或企業。
再介紹一個例子。第五章裡,已經介紹過依車主的駕駛習慣,能獲得保險費折扣的「付你駕」(Pay as You Drive)車險。這種車險方案最重要的一環,就是蒐集「駕駛習慣」的資料。而在這種已開始擴展到許多保險公司的保險方案裡,也已經存在資料整合者——像美國的Crimson Informatics公司,便是其代表。這家公司的主要業務,就是代替想提供「Pay as You Drive」這種新保險的保險公司,發送蒐集資料用的設備,蒐集資料,進行分析。
如果是在網路上,要蒐集資料相對比較容易。因此,只要是擁有一定技術能力的企業,其資料蒐集、資料分析、依據分析結果進行優化等工作,通常是由自己公司內部包辦。但在蒐集資料難度較高的現實世界,如想進行類似業務,資料整合者的存在意義就非常大(雖然功能略有不同)。尤其當資料來源是個人時,或是掌握大部分市佔率的絕對性的領導企業時,更是如此。
資料整合者的優劣,依能取得多少該領域的資料而定。能在同一領域存活下來的資料整合公司,了不起最多兩、三家罷了。尤其如果是由其他業界進入的參賽者欲擔任資料整合者,那麼愈早發覺資料的價値、比其他公司都更早開始蒐集資料的企業,獲勝的可能性就愈大。
⊙誰能成為資料整合公司⊙
雖然無論誰都有可能成為資料整合者,但最可能成功的,便是經手資料,負責開發、運用資料蒐集工具的企業。
不曉得各位讀者對「Carrier IQ」這個軟體有沒有印象?這是一個會記錄下智慧型手機使用者詳細操作紀錄(除用了哪些App之外,連地點資訊、文字輸入內容、攝影機或音樂播放器的運作狀況等一切資訊,全都包含在內),將該等紀錄傳送到行動電話通訊業者或終端製造商的軟體。由於被踢爆根本沒取得使用者同意,就由通訊業者預先安裝在智慧型手機裡,在美國引起了軒然大波。
雖然這是個極端的例子,但其顯示出來的「離資料入口愈近的業者愈有利」一事,則是無庸置疑。既然無論要蒐集或是運用資料,獲得資料所有者的同意都是最基本的大前提,那麼理所當然的,愈是對個人而言敏感的資料,愈是對企業而言有價値的資料,就愈難取得。因此,獲得社會信賴的企業,能提供資料所有者一定的附加價値或誘因,讓他覺得「把資料交給它也沒關係」的企業,想必將會是能否成為資料整合公司的條件。
以這個角度而言,一開始就贏在起跑點的便是通訊業者。很少有使用者把智慧型手機定位為只用來通話的工具,以巨量資料的觀點而言,手機「使用者總是帶在身上,並擁有通訊功能的感測設備」這個特徵非常重要。換句話說,業者不只能利用手機裡的GPS或加速度感測器來掌握地點資訊或速度資訊,連被視為生活紀錄的幾乎所有資料,都能透過智慧型手機輸入。
舉例而言,NTT Docomo宣布自2011年12月起,與提供健康管理服務的OMRON Healthcare合作,在2012年6月為目標,一起設立新公司。透過這項合作,兩家公司把OMRON Healthcare的健康醫療設備(血壓計、體重體組成計、計步器等)與Docomo的智慧型手機等連結在一起;除了建立能輕易累積、管理體重或血壓等健康、醫療資料的環境外,還透過與擁有健康相關業務的企業等合作,以提供健康、醫療支援服務為目標。
NTT Docomo從以前起,就有經營透過行動電話提供健康支援的「i Bodymo」服務,提供能自動記錄步數的計步器,或是記錄慢跑距離、時間、速度等的功能。透過這次跟OMRON Healthcare的合作,連包含體重或血壓等在內的測量資料都可進行管理和分析,再加上與其他健康、醫療管理服務的合作夥伴合作,將能夠提供多樣化的健康支援服務,以及疾病預防支援服務。
對NTT Docomo而言,這應該只是服務的其中一個例子而已。因為如果我們假定行動電話、智慧型手機是「資料的入口」,那麼控制著那個入口的通訊業者,就等於掌握了各式各樣的可能性。
⊙美國的支付服務業者明顯朝「資料整合公司」發展⊙
相較於日本,以信用卡做為支付工具的習慣相當普遍的美國,有能力彙總客戶所有消費紀錄的支付業者,開始很明顯地轉型為「資料整合公司」。仔細想想就能明白,像VISA或美國運通(American Express)等國際品牌的信用卡業者,等於是即時性地掌握了所有使用各該卡片付款的消費紀錄,也就是「何時,在哪家店,買了什麼」的一切資料。而且,從超級市場到服飾店、加油站……只要是能使用信用卡的店,無論全世界任何商店的消費紀錄都能掌握。
▲(1)VISA▲
美國VISA公司運用這項優勢,開始提供一種服務:在核准交易的時點,將合作企業發行的優惠券,依預先設定的條件,傳送到以選擇性參與方式取得其同意的客戶行動電話。比方說,持卡人在某個加油站加油、並用VISA信用卡付完款後,手機就會收到最近一家咖啡廳的優惠券,諸如此類。
VISA是在取得客戶同意後,累積其消費紀錄(最多13個月份),分析該客戶的消費傾向。比方說,較常在哪個地區購物,購物的時間帶通常是何時,傾向在什麼樣的店裡購買什麼樣的商品等,諸如此類。
合作企業則可依據VISA公司的分析結果,精密地設定發生交易店鋪的郵遞區號、消費商品、特定的日子或時段、顧客個人資訊等優惠券的發送條件。
現在,美國最大的服飾零售店Gap已在使用這項服務。Gap根據郵遞區號,當客人以信用卡在位於Gap分店附近的店家(例如某間咖啡廳)刷完卡的瞬間,手機就會收到能在附近Gap分店使用的優惠券。會收到優惠券的僅限有在Gap提供的「Gap Mobile 4U」這項服務方案裡登錄,而且事先同意的會員(請詳見【圖表8-4】)。
▲(2)PayPal▲
身為大型線上支付服務供應商的PayPal,雖非信用卡業者,但也在積極拓展實體商店付款業務的同時,開始蒐集使用者的消費紀錄,邁向通往資料整合公司的道路。
在實體店家的信用卡或轉帳卡收費終端機上,追加了一個「以PayPal支付」的選項;消費者只要把自己的行動電話號碼及密碼輸入終端機裡,就能完成付款認證。
而對零售商店而言,則可運用PayPal事前取得客戶同意後所取得的,包含線上消費紀錄在內的顧客資訊,以進行行銷。
▲(3)美國運通▲
美國運通開始推行的,是一個運用Facebook上「連結,按讚,喜歡」(Link, Like, Love)的活動紀錄的有趣計畫,其概念與VISA、PayPal「運用會員消費紀錄」的模式不同,值得向各位介紹。
它的概念是,由美國運通卡的持卡人,把自己的信用卡號碼與自己的Facebook帳號連結,然後美國運通則依據會員在Facebook上的活動(對某企業網頁按了「讚!」等),提供相應的優惠。
具體做法,是分析會員在Facebook上的活動,由參與該計畫的合作夥伴企業(H&M、Virgin America航空公司、Outback澳美客牛排館、Dunkin' Donuts甜甜圈、Lenovo聯想電腦、Sheraton Hotel喜來登大飯店等)所提供的優惠中,選出該會員可能有興趣的商家的優惠——比方說,可於消費時使用的10%折扣券等——傳送給會員。會員只要在網路上選擇想使用的優惠券,並選擇「以美國運通卡支付」,就完成準備。
獨特的是,雖說是「優惠券」,但由於消費金額是直接向信用卡請款,故不但不需要把優惠券列印出來,也不用預先去購買折價禮券等。只要會員在付款時以美國運通卡支付,這筆消費就會自動適用優惠價格。這樣的關係,相當於使用者把關於自己興趣、嗜好的資料揭露給美國運通,換來能以優惠價格消費等的好處。
提到「巨量資料的相關商機」,相信多數人立即想到的是大容量儲存設備、資料倉儲、Hadoop、商業智慧工具等軟硬體銷售,或是承包資料分析等外包作業。但筆者在此要特別強調的是,「資料整合公司」這門生意,也存在著非常大的商機,請各位切勿錯過。
⊙讓原始資料搖身一變成為「貴重資料」的絕妙資料組合⊙
無論是透過與其他公司的結盟合作,或是利用資料整合公司所提供的服務,當你的公司擁有內部原始資料時,接下來就應該思考,如何把它與其他公司的資料組合在一起,昇華為能產生出新附加價値的「貴重資料」。思考如何發揮出綜效的絕妙資料組合,也是運用巨量資料的過程中最有趣的事情之一。
像「實際購買的食材資料」組合「料理食譜資料」的ID’s(超級市場)與COOKPAD的合作關係,就是一個非常有代表性的案例。
另外,像是第三章裡介紹的美國卡特琳娜行銷公司,透過與電視等媒體收視率或網際網路收視率調查公司尼爾森(The Nielsen Company)的策略聯盟,達到能夠對廣告效果測定出「哪支廣告造成顧客的實際消費行為?」的境界。這可說同樣是結合其他公司資料,創造出全新附加價値的一個好案例。
像這樣如何把自己公司的原始資料,與其他公司的資料組合在一起,或如何選擇想取得自己公司原始資料的合作對象,還真的是以創意定勝負。有時候,自己公司內部認為是「毫無用處」的資料,對其他公司而言,卻是「夢寐以求」的寶物。
舉例來說,由NIKE所提供的iPhone用跑步記錄App「Nike+GPS」,能以GPS功能,把你的跑步路徑記錄在地圖上。只要把這些紀錄匿名化後彙總蒐集,馬上就能知道最受慢跑者喜愛的跑步路線是哪些。而站在運動用品店的角度而言,這應該就是選擇店鋪店面位置時,非常有幫助的資料,或是對想設置提供淋浴間或置物櫃的收費休息處的業者而言,或是對正在評估自動販賣機放置地點或販賣品項的業者而言,這項資料也相當有幫助。
誠心建議握有原始資料的企業或資料整合公司,避免只在所屬業種之中劃地自限,而應以廣闊的視野、不受業種設限的態度,制定資料運用策略。
延伸內容
【推薦序】Big Data, Big Intelligence:從資料、資訊到情報
◎文/翟本喬(本文作者為和沛科技股份有限公司總經理,曾任台達電子雲端技術中心資深處長、Google Platforms Architect。)
我在2006年任職於Google時,有一次,前往一所大學演講Google的儲存系統GFS。一位教授問我:「那資料要刪除的時候怎麼辦?」我反問:「資料為什麼要刪除?」在場所有人都露出奇怪的表情。
Google的認知是:資料(data)裡面會有資訊(information),「現在用不到」並不表示「以後用不到」。除非法律規定必須刪除,不然一概保留。今天大家已經聽到了「資料是新石油」(Data is the new oil.)這句話,也開始知道了資料中會有「看不見的價值」。
《孫子兵法》共有十三篇,最後一篇談〈用間〉,也就是情報戰。情報的價值,遠高於其他戰術或武器。今天所謂的精靈武器,就是能妥善運用地理定位(Geolocation)和圖形識別(Pattern Recognition)等技術所取得的資訊和情報。由最近幾年公布的許多資料可以看出,第二次世界大戰的勝負,其實就是決定在情報。由美軍破解日本海軍密碼而在中途島(Midway Islands)洞燭機先,到英國破解德軍潛艇的Enigma密碼而殲滅狼群以保全橫渡大西洋的生命線,都是任何戰術和武器無法獨自達成的。
情報如此重要,許多人把失敗的責任歸責於錯誤的情報,或是缺乏情報。事實上,我們的四周充滿了大量的情報,只是一般人無法有效正確地辨識。例如珍珠港事件(Pearl Harbor Bombing)之前,已有一封緊急電報示警,但是這封電報遭人擱置,直到事件發生之後才譯出。有能力正確並及時辨識這些情報的人,小者被稱為福爾摩斯(Sherlock Holmes)或是柯南(名探偵コナン),大者就被稱為諸葛亮。在商場不見硝煙的戰爭中,情報更突顯出它的重要。今天我們開始擁有了處理這些大量資料的工具,更重要的是讀懂這些資料,把它們轉化成可用情報的智慧。正如我在 Facebook 上說過的(編按:全文詳見作者網誌〈IoT 和 Big Data 商機的迷思〉):
想要做Big Data(巨量資料)的人請先認清楚:什麼是Data(資料)?
存得起來的,就是storage(儲存)。
看得到的,才是data(資料)。
看得懂的,叫做information(資訊)。
用得出來的,才能稱為intelligence(情報、智慧)。
Big Data這個名字事實上是有點誤導。真正賺錢的,是從big data中萃取出來的 big intelligence。
為什麼CIA叫作Central Intelligence Agency(中央情報局),而不是Central Information Agency(中央資訊局)或Central Data Agency(中央資料局)?而萃取information和intelligence的技術並不是現在才有的。
隨便問一個有水準的資訊資工系教授,就會告訴你data mining(資料探勘)、neural network(神經網路)、pattern recognition(圖形識別)、statistical machine translation(統計型機器翻譯)、information retrieval(資訊萃取),...等等領域的歷史。這些才是困難而需要投資開發的領域,而不是一個簡單的大量儲存和平行運算系統。
我在2003年進入Google的時候,正是MapReduce初啟用之時。Google原本的Indexer是一套大程式,用了幾百台伺服器,要一個多星期才能完成工作。而中間只要有一台機器當機一次,就要全部重來。Google因此設計了MapReduce這套系統,主要目的在於容錯。將資料切成許多小塊,分到獨立的伺服器上處理。雖然機器數量增加到了兩千台,但中間不管怎麼當機都沒關係了。後來在論文發表後引出了Hadoop這個Open Source的軟體,給了想做大量資料分析的人一個很好的工具,也讓Hadoop在很多人心中變成了Big Data的同義字。
但事實上Hadoop只是一個平行分散式資料處理的工具,真正能為資料創造價值的是上層的智慧分析。這些工具是讓資料分析師(以後是叫做「資料科學家」?)能把時間用在真正重要的工作「資訊萃取」上,而不只是打造所需的工具。想要靠 Big Data 做一番事業的人,絕不是只要學會了這些工具就可以了。
1994年,商用的Internet開始成型,因為modem的速度和價格開始達到一般人可用的範圍。今天,儲存和處理資料的速度和價格也開始達到一般公司可以負擔得起初步的Big Data處理的程度。商用Internet起步的初期,業界很多人認為只要架個網站就會有生意上門。今天我們在Big Data這個領域也會有這麼一段混亂期,需要藉著更多好的介紹書籍和文章的引入,可以縮短這段過渡期。
很高興看到這本書並未落入坊間許多一窩蜂介紹工具的潮流,而能把主要的篇幅用在許多其他重要的面向。希望讀者在看完本書之後,能對如何萃取周遭的資訊並加以運用有更深一層的認識,並從Big Data進步到Big Intelligence的層級。
共勉之。【推薦序】當商業智慧隱藏在雲深不知處
◎文/楊千(國立交通大學經營管理研究所教授)
巨量資料是個必然趨勢。
巨量資料(亦稱為海量資料、大數據)指的是在以往一般技術不容易管理但現在已能有效儲存、分析的大量資料。
自從有了網際網路,資料的產生已不是各個組織的內部活動所產生的,而是包括了跨組織的各項活動記錄,更包括了數以億計的人類在網路上各自產生及互動的資料;在工具使用上除了傳統電腦、平板、智慧型手機、以及各項道路監視器、環境監控數據設備。
從中國的歷史上來看,資料的產生、儲存、傳遞,講的是「字」。我們的祖先結繩記事也好,用龜甲牛骨刻下所謂的甲骨文也好,都是費時費力的。到了用竹簡記事,也記不了太多的字。以前的人說「學富五車」是形容書讀很多的意思;然而,如果以尚未發明印刷術的眼光來看,「五車」的竹簡,大概指的是《論語》已經讀了好幾篇,快要讀《大學》《中庸》。
有了電腦之後,早年的資訊科技,不論是資料的產生、儲存、傳遞,講的是K (Kilo、 仟、十的三次方或二的十次方)。到了1990年代,講的是M(Mega、Million、百萬、十的六次方或二的二十次方 )。進入二十一世紀,2000年左右,講的是G (Giga、Billion、十億、十的九次方或二的三十次方)。現在,我們講的是T(Tera、Trillion、萬億、兆、十的十二次方或二的四十次方)。由此可見,資料的產生、 儲存、 傳遞真的進步太多了。
所以,我的博士班學生畢業的時候, 只要一片光碟,就能把他們所有讀過、寫過的文章全部備份起來,非常輕便(卻也很沒成就感)。
鑑往知來,如果資訊科技進步繼續下去,我們會從T(tera)一路走到P(petra、 十的十五次方)和 E(exa、十的十八次方)的世界(TPE也剛好是台北在國際航空的代號桃園國際機場)。
英國Centrica電力公司可以每三十分鐘透過網路讀取用戶智慧電錶一次,每天抄電錶四十八次,它能對用戶的用電行為觀察更多更瞭解,甚至分析之後能對客戶行為有更精準的預測,可以調節不同用電需求的輸配電電路。 每天抄錶四十八次,一年就產生1T的資料。
1970年代,10M的磁碟機要40萬台幣,可以買當時的豪宅一棟;2000年左右,2G隨身碟(200個10M)約2萬台幣,可買當時的小噸數窗型冷氣機一台;現在(2013年),128G(64個2G、12800個10M)的隨身碟,新台幣2,388元即可入手,這個價格可以讓一對情侶到五星級飯店的自助餐廳用餐一次。
在資訊科技進步的軌跡上,我們不只已看到巨量資料的應用,我們更確信它的普及是個必然趨勢。
在數學符號上就是一個國中生寫下「1020」不會有甚麼感覺,它就是1的後面跟上20個零。但是,在實體世界裡 全地球所有海灘的沙粒總數大約就是這麼多粒,是很多很多的,對我們個人來說就是無限大,在佛經中則稱為「恆河沙數」。
小孩子不容易忘記,是因為他的記憶內容少,比較容易找到記得的事物;大人容易忘記,是因為記憶內容較多,卻沒有用心建立索引目錄分類、缺少工具與方法,或是傳輸線老化接觸不良,不容易找到曾經記憶過的事物。
如果資料少,當然容易找到過去的紀錄;如果資料多,當然增加極大的困難;更何況,要分析巨量資料中的數不盡的關係與內涵,絕對不是單純的正比關係。
如果在一家企業內部進行資料探勘應用,我們稱之為商業智慧(BI,Business Intelligence),這是許多公司知識管理的範疇,也已經有二、三十年的歷史;台灣資訊管理相關科系都有在資料庫相關課程裡探討。許多像SAP、Oracle、IBM等公司都提供類似的軟體工具。
但是,到了巨量資料一路往TPE走,許多智識都隱藏在雲深不知處,確實是能夠探勘出有價值的資訊,變成更有必要卻更困難,因此需要更有競爭力。
本書提出許多實際成功應用的案例,列出相關互動隱私及安全的議題,是一本有相當廣度的巨量資料相關讀物,很適合關心未來的知識分子閱讀。
【推薦序】當巨量資料與社會脈絡交集
◎文/徐子涵 (Schee)(本文作者為英國開放知識基金會地區大使、Fertta Communications執行長、Code for Tomorrow共同發起;個人網站:https://blog.schee.info/)
近一年來,巨量資料的詞彙屢次出現在不同的媒體,似乎是一股海嘯襲來的態勢。在2013年的今日,除了網絡節點高速增長之外,你手中的行動運算裝置,也是資料廢氣(data exhaust,意指無法再次利用的資料)的大宗來源。
在PC產業的景氣低迷之際,不只資訊業界引頸期盼,連產業大老們深入了解Big Data之後,也興奮地呼喊著時髦用語「Eureka! 」(我找到了!),藉此表達他們心中如同發現新大陸般的欣喜。(註:阿基米德泡在浴缸時,突然領會「物體所受的浮力等於排開的水重量」時,欣喜地跳出浴缸裸身跑到街上大喊:「Eureka!」)
事實上,我們不可能再回到直立人(Homo erectus)的演化初期,力行資料節食(information diet)。因為在那個年頭,資料和社會脈絡的躉集,不只相當離散,更是無法捕捉聚合。
但是在今日,資料可說是唾手可得。不過,這些資料終究必須回到為人所用的範疇,而我們在消費資料的過程,則構成了多樣的社會、經濟行為的面貌。就跟當初內燃機的興起促成了工業革命一般的令人興奮,在兩、三百年的發展之後,人類的富裕程度普遍提高,也留下了更多有待共同智慧解決的問題。
然而,對於大多數人來說,別說是巨量資料,連微量資料 (small data) 都還不知如何捕捉,也可能毫無所知。
很幸運地,本書的付梓,提供了一個巨量資料生態圈比較完整的面貌,是非常好的出發點。
試想,人與城市之間的交流,是實實在在地日益頻繁。如果巨量資料的革新從城市開始,那麼總要先知道城市的現況是什麼?城市的脈動如何實時感測?微觀之細小變動,如何啟發巨觀的都會更新?龐大的數位原住民(digital natives),每天所勾勒出無法想像的數位都市面貌,算不算城市的一部分?
我們借用網路業者常用的服務績效指標來試試,例如:城市如何獲取用戶(user acquisition)?外來旅客在城市之間的跳離率(bounce rate)要如何定義?城市網絡鄰近度(network proximity),無論是道路本身、還是人與人之間,這密度要怎麼估算?如何在動態城市記錄有意義的數字(measure things that matter)?這跟巨量資料有什麼關係?這又跟製圖學(cartography)有什麼關係?
我們可以進一步運用巨量資料的概念、技術與應用的堆疊(stack),來針對城市、以及比城市更小社會組織元素,例如:大型公司、中小企業、社區、非營利組織,甚至是政府機構(尤其是開放資料〔open data〕的部分)的未來發展對策。現行的組織、文化和結構,是否能因應龐大的資料海嘯?組織是否願意學習如何記錄、發掘、分析,然後透過資料,進行資源的重新分配?這是相當有潛力,也是最令人困惑的巨量資料發展領域之一。
此外,台商在海內外具有規模的產業聚落,其服務對象多以 B2B(business to business) 為主。企業規模大到即使在供應鏈的任何環節能夠做出優化,然後具體落實到資源調度,這樣的想像,當然會提供業者部分的誘因,投入資料儲存和分析的資源。便利商店和流通業者等,就是如此脈絡的例子——明確定位本身優勢,進而透過巨量資料,優化商業的流程,甚至重新定義市場的藍圖。
隱私(privacy),是巨量資料衝擊的另一個重要面向。美國和歐盟對於隱私的做法相當的不同,甚至已經是高到處理態度的本質不同。在資料大量釋放後所進行關連比對的同時,隱私的失落和認知版圖的推移,更需要我們正視。隱私設計(Privacy by design)在實務上的落實不足,以及資料的隱私、安全(security)和自主權(data ownership)缺乏好的討論場域。巨量資料在這部分所產生的巨大衝擊,在本書我們可以看到更為完整的討論,以及甚少被提到檯面上的實務做法。
最後,本書最值得推薦閱讀的部分,在於日本企業小松(KOMATSU)、瑞可利(Recruit)、GREE等,如何運用巨量資料強化地域經濟的思維。在面臨全球產業布局和硬體利潤微薄化的今日,如何槓桿地域劣勢,轉化為全球區域發展的特色核心,日本政府和民間的過來經驗,不失為台灣各界的參考基準。【推薦序】Data, Data, Data:我們活在廣袤的資料流中
◎文/鄭緯筌(Vista)(本文作者為資深部落客、獨立媒體Tappier站長,網址:blog.vista.tw、tappier.com)
你曾經聽過「尿布和啤酒」的故事嗎?上個世紀末,曾有許多剛當上父親的美國人,被老婆大人指派去超市買嬰兒的尿布,通常也會順便購買啤酒犒賞自己。聰明的賣場人員觀察到這個現象之後,便把這兩樣商品放在相近的區域,不但提高了商品的銷售收入,也增加顧客上門的機率。
這是實際發生在美國沃爾瑪超市(Wal-Mart)的案例,也曾刊載於一九九八年出版的《哈佛商業評論》(Harvard Business Review)。尿布和啤酒看似風馬牛不相干,但兩者之間卻又隱隱有著微妙的關連。能夠從巨量資料中理出頭緒,自然有機會可以找到成功的關鍵,而不懂得與資料為伍的公司則可能錯失商機,甚至被時代所淘汰。
不只是商業發展,巨量資料也可以對社會公益有所貢獻。好比2003年發生SARS疫情時,有二位美國Google的工程師就從大眾所常搜尋的關鍵字中,預測出可能爆發疫情的地區,這也讓美國疾病控制預防中心大感意外。
原來只要有大量資料做佐證,經過一番抽絲剝繭也能找到蛛絲馬跡。難怪趨勢科技(Trend Micro)創辦人張明正看好巨量資訊的發展,更直言這是新經濟時代的金磚。
巨量資訊不但會改變人們的生活,更可能改變企業經營的模式。好比書上有提到美國社交遊戲巨擘Zynga的案例,這家遊戲公司不但擅長打造迷人的遊戲,更懂得透過大量資料來分析、臆測人性。有趣的是,他們自稱是一家「披著遊戲開發商外皮的資料分析企業」,也認為遊戲就是一種由資料驅動的生活服務。
因此,Zynga公司認真傾聽用戶的回饋,再據此進行微調和修正——不但精心設計每一款遊戲的關卡,連虛擬道具的顏色和尺寸都斤斤計較。而從巨量資料所獲得的回報,自然就是玩家與日俱增的向心力以及節節上升的營收了。
很高興有機會提早拜讀這本書,更從中獲得許多和巨量資料有關的啟示。不只是趨勢和數字,我更在這本書中覷見這個時代的發展前沿。日常生活中,一筆又一筆的資料驅動了我們的工作與生活,但未來該何去何從呢?從這本書裡面,可以找到許多線索。
我喜歡這本書的原因,不只是作者出身日本野村總合研究所,那個被喻為是日本最有影響力的民間智庫,更因為本書從Google、Facebook、Zynga、GREE、DeNA和麥當勞等傑出企業的營運歷程中,有條不紊的整理出巨量資料與成功之間的關連,再呈現出箇中的脈絡。
閱讀本書,最大的收穫不是了解巨量資料的重要性,而是知道巨量資料可以如何應用在商業上?巨量資料帶給我們的衝擊會愈來愈大,你最好從現在就開始習慣。
是的,我們活在廣袤的資料流中。而此刻,你無需驚慌,只需要有一本好書指引。帶著這本書,讓我們啟航吧!【推薦序】老大哥在看著你:Big Data? Big Brother?
◎文/劉奕成(本文作者為英商巴克萊銀行台北分行董事總經理、台灣金融分析專業人員協會〔CFA台灣分會〕理事長、《小日子享生活誌》創辦人)
幾次水淹台北城的磨難後,我失去了童年生活的真實紀錄,只剩下漫漶的孩提記憶偶然靈光乍現。少數依然時刻鮮明的往事,就是跟著從事工程的父親,隨著工地東搬西遷。當父親參與建設北迴鐵路,我隨家人在太平洋海濱卜居一段時日;四、五歲的年紀無所事事,每天看著雲、望著海,臆測目光遠處僅如沙粒大小的人影,到底在做些甚麼?有時散坐海岸終日看著海浪拍岸,彷彿爭先恐後向上;抬頭望著天空風動雲湧,有如一瞬之間向下。直到現在,還會被夢中海浪衝擊礁岩的聲勢驚醒;從童騃時我便體會到:無垠的天空,給人遼闊的想像;深邃的海洋,擁有世界上最巨大的力量。
後來搬回市區上小學,家中長輩俱皆忙碌且放任,因此我成天在外閒蕩,也偶爾在圖書館晃悠,看似有學問的人從書架上挑書;我也依樣畫葫蘆,找了本《一九八四》(Nineteen Eighty-Four)。原因無他,書名只有數字,內容似乎簡單。花了一個下午瀏覽,還是看不懂,只記得書中說「老大哥在看著你」(Big brother is watching you.)。從此鎮日疑神疑鬼,總以為有人看著我。三十年後才發現,這不是開玩笑的,史諾登(Edward Snowden)揭發的稜鏡計畫(Prism),說明了像你我這樣的無名小卒,也在美國政府的通訊監控下。
年歲漸長,我發現自己喜歡想像別人的生活方式,或者應該說,承認自己也很好奇別人的生活方式。所以我貪看電影,滿足對想像的猜測與印證,偶而也喜歡幫朋友和慈善團體對發票,從發票上的明細想像著人們的日常生活。翻閱城田真琴所寫的這本書時,桌上正散落著書稿及發票,才赫然想起,這不就是「老大哥在看著你」?
隨著所謂「巨量資料」的一時風行,或許不一定是現在進行式,但是很可能是未來完成式。不論是當你我走在社區巷道時,無數個鏡頭以治安為由居高臨下監視錄影,或是網站上按讚、留言、分享,不得不承認「凡走過必留下痕跡」。甚至,即使我們足夠謹慎,沒有暴露身分,但是,分析專家已經從周圍的人或同類型者的行為模式為線索,猜想到你我的生活方式。不只是詳細記錄分析你我踩著蹣跚步履、從過去走到當下的每一步,還能預測到未來幾步路——沒錯!「老大哥在看著你」。
翻攪過去的資料並不容易,但是隨著「巨量資料」的運用漸趨成熟,未來的影響難以想像。本書介紹的巨量資料,也稱為「大數據」或「海量資料」,是一種繼「資料採礦」(data mining;資料探勘)以及「雲端運算」(clouds computing)之後,最令人驚豔的時代趨勢;這本書雖短小輕薄,卻具體而微地描述了這些流行趨勢。
在很多人還不曾聽過「巨量資料」之時,這個趨勢卻已經引起關注,世界知名的沃爾瑪(Wal-Mart)早就利用平均每小時可處理100萬筆資料,儲存了2.5PB之多的資料,從而進行「資料採礦」,擬定產品庫存與定價,對於陳列及倉儲的擺放,也有巨大的貢獻。更在2011年4月收購分析社群媒體的公司Kosmix,進一步從資料中找出隱含的資訊、問題、價值與商機;比方說,從社群媒體的資料分析某一城市有許多人喜歡騎車,並且依此調整門市的貨物。
真正運用雲端及海量資料最嫻熟的公認是Amazon,即使沒有登入帳號,僅在Amazon站內搜尋,Amazon馬上以「經常一起購買的商品」和「購買此商品的顧客也同時購買……」的方式,推薦你我其他可能也會有興趣的商品或書籍,而且往往能精準命中、搔到癢處;Amazon對消費者行為的了解,實在令人咋舌不已。
這種「準確猜中你我在想甚麼」的準確度,很容易讓人以為是偶然的幸運(serendipity);然而,幸運並非偶然——其實,精準預測是由資料科學(data science)與商業智慧(BI,business intelligence)縝密運作的結果。當你我身處於強調「與其相信一個人的判斷,不如相信千萬人的巨量資料」的時代,身為決策者,已經不能只靠直覺或數字,更必須融合資料科學,從各種消費紀錄、社群網站的輿情觀測、打卡定位等資料中萃取價值,做為決策參考之用;也難怪,資料科學家(data scientist)成為「未來在等待的人才」。
行筆至此,我想起高中時期,由於對人類行為的好奇與執著,捨棄世間既定「男生就該念自然組」的傳統,選擇社會組就讀;卻在二十年後發現,原來,現在要了解人類行為,光是憑著五感觀察還不夠,必須從千萬人的資料中找出價值,還得要了解「礦」(資料採礦)、「雲」(雲端運算)、「海」(海量資料),這些都是屬於自然組領域的知識啊!當我看到這本書中提到「好奇心」的重要,覺得很有意思——原來,我對人類行為的好奇心,竟然就是當今資料科學家必備條件之一!也讓我對於當年的決定終能釋然。
話說回來,說也奇怪,每次談到巨量資料,腦海中便突然出現卜居太平洋岸的童年。這些冠以自然之名的行為科學分析,真的就有如當年看海的日子;最重要的就是下方的「海」——巨量資料,和上方的「雲」——雲端,就像自然界一樣,無邊的海洋水氣蒸發,上到雲端,累積轉換足夠的水分,便天降甘霖傾瀉而下,滋潤眾生。
然而,當所有人一呼百諾,簇擁著「巨量資料」招搖過市時,耳聰目明的先知早就知道:其實巨量資料仍有其侷限性,很多事情其實還是分析不出來的,甚至於有更多的情況下,巨量資料其實有其傷害性的。這本書的作者,便是先知之一;書中除了張揚巨量資料的可能好處,也對巨量資料提出質疑,有時也提出解答。以本書第六章為例,不但具體針砭巨量資料可能觸及的隱私問題,同時也明確指出使用巨量資料的原則,例如「引進刪除過去個人資料的權利」以及「尚未明確取得用戶同意的情況下,禁止處理個人資料」等做法。不過,可取但可惜的是:本書也介紹許多法令的要求,但是因為是日本法令,我們只能望洋興嘆。
本書也藉由2009年「Raw Data Now!」的呼喊,披露了政府機關只會窖藏資訊,卻不懂得分析、也不願意公開的窘境,其實,台灣的機關企業也有類似的狀況,許多組織買了最貴的資料庫系統,號稱進行資料採礦,其實只是把資料窖藏在資料庫中,說穿了就是「坐在黃金堆上的乞丐」。未來,從資料採礦再跨大步到巨量資料,除了本身的資料,還可以加上公開資料(open data),並且資料也將更即時,更有影響力。除了自以為是亂找一些資料配對,還需要對行為本身有更多的了解,才能讓巨量資料發揮效果。
真正令人激賞的,是作者開放的胸懷。他說:「誠心建議握有原始資料的企業或資料整合公司,不應只在所屬業種之中劃地自限,而應以廣闊的視野、不受業種設限的態度,制定資料運用策略。」唯有如此,才能讓巨量資料走上坦途。未來這段時間,所有從事行銷或商務的人,都將會遭到「巨量資料」淹沒,在載浮載沉之間,我推薦這本書當作你我的浮木,讓我們面對資訊洪流(data deluge),卻依然能一窺堂奧。
如今想來,童年時在太平洋岸看到海天一色、自然寫意的風景,就像是當今「雲端」與「巨量資料」的隱喻。雖然到目前為止,巨量資料並不是所有問題的解答,但是,設法找出資料中的價值進而預測未來的商業智慧,才是未來商戰致勝的關鍵。作者資料
城田真琴
野村綜合研究所IT基礎技術戰略室室長、高級研究員。自2001年進入野村綜合研究所以來,一直致力於調查和研究尖端IT對企業和社會造成的影響。曾經擔任總務省「智慧雲端研究組」的技術工作小組成員,經濟產業省「IT融合論壇」的個人資料工作小組成員,以及經產省和厚生勞働省、文部科學省部「IT人才供需調查」專家委員會的成員。曾經參加NHK E電視的 「IT white box」和BS電視的「日經 Plus 10」等多個電視節目。著作包括《金融科技的衝擊》、《雲端運算的衝擊》、《大數據的衝擊》(均由東洋經濟新報社出版)、《個人資料的衝擊》(Diamond社出版)、《亞馬遜死亡指數》(日本經濟新聞社出版)等。
注意事項
- 若有任何購書問題,請參考 FAQ