小洪隨筆:
提早做出預測,防患未然。~~都是與我們的生活息息相關。
~~~~~~~~~~~~~
從「因果」變「關聯」你我都需「海量資料」
~~~~~~~~~~~~~~
【2014/03/26/聯合報/AA1版/財經/彭慧明】
「海量資料」又被稱為鉅量資料、大資料(Big Data),它不但是資訊科技界最新的應用,也很普及運用在每個人的生活中。
也許你不知道,但就在你網路購物時,例如在Amazon.com,你選了一個健身的產品,過去,Amazon會告訴你「買過的人也買過什麼」,但現在它跳出一整排新的健康食品建議,原先可能沒打算買,但這些訊息出現的正是時候,於是你多買下新的產品。
對許多企業或是政府來說,過去面對大量收集回來的資訊,不知從何觀察分析,但現在,預測人們的行為不再瞎子摸象。
促成這樣的原因,軟硬體都有貢獻。存儲裝置在過去10年內下降到原本價格的1/10,但電腦等硬體運算卻快了好幾倍,網路速度加快數十倍。我們從過去推論因果關係、提供行銷,變成找出一個「關聯」,提供你可能沒想過、卻很貼近你需求的服務。從「因果」變成「關聯」,正是現在海量資料的迷人所在。
過去我們分析受限於必須是「0101」編碼的數位資料,現在則可以是各式各樣的形式。例如圖片、影像、錄音對話、文字等,也使得我們從過去有限資料的因果分析,變成可以找出兩個完全不同變項間的關聯性;更重要的是可以提早做出預測,防患未然。
例如以搜尋引擎起家的Google,曾做過一次實驗。Google首先挑出美國人最常使用的前5000萬個搜尋字,再與美國疾病管制局2003到2008年之間的流感傳播資料加以比對,用上了數千萬種數學模型去測試搜尋字眼,再與2007-2008年的實際流感案例比較,結果這套軟體找到了一組45個關鍵搜尋字,放進數學模型後,預測結果與官方公布真實資料十分吻合,有強烈的相關性。
Google與疾管局一樣可以掌握流感的疫情資訊,但Google比疾管局更早了幾周。這幾周時間,足以讓相關單位及早做好準備,提前防治疾病。
在海外,這種鉅量資料帶來的「資料科學」和分析能力,已經是一些大學基礎教育的必修項目。
海量資料與我們的生活息息相關,就在日常應用中,不妨觀察自己和身邊人的一些小動作,也許你也能推論出一些關鍵性的關聯。(陳愷新口述)