台灣

當我們看病、坐車、買零食的紀錄,都成了「大數據交易所」的商品……

法令、技術的到位,加上數據資源合理使用的前提下,「數據銀行」的理念終將成真,數據可以像個人資產一般的管理。


貴陽大數據交易所網站。
貴陽大數據交易所網站。擷取自官網

中國貴陽大數據交易所日前刷新了一個新紀錄,一家山東的生物科技公司買下了全球醫藥研發專利大數據分析資料,訂單成交金額為1600萬人民幣(約1818萬港幣 /235萬美元/ 7569萬台幣),立下了大數據交易單筆最高金額的里程碑。

在中國「十三五綱要」中將「大數據交易產業」明列為「省級研究議題」,它處於提升國家競爭力的戰略高地上。政策一出,各省紛紛群起效應,10餘個大數據交易所在政府力量介入下成立,光是北京就有6家大數據交易中心,但除了 2015年4月成立的「貴陽大數據交易所」外,其他大數據交易所目前實質的數據交易量大都屈指可數。

是什麼原因讓地處偏遠的貴陽大數據交易所一枝獨秀?除了中國國家資源的傾注以外,主要原因是它的股東包含了阿里巴巴、富士康等中國最具競爭力和影響力的企業。另外華為、海爾、泰康人壽、神州數碼等公司都名列企業會員。

這是一個「資料有價」的時代!貴陽大數據交易所裏販售30種類型的數據資料,包括金融、社群、教育、保險、氣象、物流、醫藥等類別,也包括海關、政府、法院和行政處罰等公部門數據,可以交易的數據商品超過4000個。截至今年9月的統計,貴陽大數據交易所累積交易金額已突破1億元人民幣(約1.1億港幣/1472萬美元/4.7億台幣),已經形成「框架協議」的交易量為3億元(約3.4億港幣/4417萬美元/ 14.1億台幣)。

開放共享的世界大同觀

大數據交易蔚為風氣,來自於觀念的改變。以往,企業將內部數據做為擁兵自固的籌碼,深怕資料外流,現在卻成為互通有無的交換籌碼,數據交易成為大數據產業的新亮點。這些看不見摸不着的數據,已經成為可計量,可供評估的資產,經由一定的標準,裁量出商品化的交易形式,連帶興起了大數據交易的經紀和代理、仲介公司成立,大數據交易儼然成為一個迸發的新興產業。

從國外大數據的發展來看,美國、英國、法國皆從政府公開資訊做起,進而將大數據研發列為國家發展策略。大數據交易僅在私人企業間活絡,如美國的Factual公司蒐集用戶的位置數據,透過資料分析,判斷消費者一天的通勤路線、身份、喜好興趣等資訊,將資料廣泛出售給地圖服務商、搜尋引擎、社交平台、廣告主使用。

實時交通數據公司INRIX透過蒐集用戶的行車路線、速度,提供最佳的交通路線指引,除了讓消費者獲得省時省油的好處,另一方面INRIX也將蒐集來的資料與房地產公司合作,因為他們發現73%的購屋者將通勤時間納入購屋地點的首要考量,幫助房仲業可以快速媒合購屋者的需求,提高成交率。

「開放共享」是大數據的世界大同觀,從知識開放,到推動產業升級的訴求,敲開了過往數據獨立封閉的大門,開啟了數據交易的新時代。但在沒有大數據交易所以前,這個產業市場處在一種矛盾情境裏:供需雙方的需求強烈,但就是無法促成市場活絡。

最大的原因是「數據變現,如何計價?」如同股市交易,買賣雙方必須對於同一個商品的價值產生共同的對價概念,成交才得以完成。目前在大數據交易所,不同類別的資料有着不同的交易機制,由於要順應24小時的交易制度,自動化定價系統從數據實時性、樣本覆蓋程度、完整性、數據種類、時間、深度等面向「計算」出一份資料的價值,訂出一個「公開牌價」。

缺點在於,同樣一份數據對A公司來說可能一文不值,對B公司卻是視為珍寶,時常造成賣方覺得數據被低估、買方覺得高估的情況,當買賣同一份商品有着不同的價差認定,就難以在公開市場建立公開透明的交易機制。

數據材料不同於一般商品,並不能「即拆即用」。企業從大數據交易所購買來的數據必須與資料庫,或是再與其他數據產生連結才有價值。

雖然一般多以「大數據」來統稱所有的數據資料,但可以被拿來作運用、分析的資料可以再細分為三種:

open data(開放數據,台灣稱開放資料):開放性資料,像是天氣、飛機航班、人口普查結果,任何能公開取得的數據都是open data。

big and messy data(大量混亂數據): 像是在社群平台Facebook、Instagram留下的各種紀錄,它的特色是數量無比龐大,必須透過電腦軟體演算清洗分析,才能產生應用價值。

small and accurate data(小量精確數據):包括帳戶出入紀錄、企業會員ERP,數據不大但相當精準,可以清楚知道單一消費者的行為模式。在數據應用上,綜合愈多資料源的匯入與交集,愈能產生更高的價值產出。

大數據應用的最大魅力在於「預測」。以零售業為例,消費者購買行為背後是一連串的驅動過程,並非倚靠「一個月買一次日用品」的量化數據就能斷定,必須加上「厚數據」(thick data)的小樣本質性研究,從消費者心理探索,從最終的行動,回推認知、態度,才能真正的得到零售業的解決方案。

但數據材料不同於一般商品,並不能「即拆即用」。企業從大數據交易所購買來的數據必須與資料庫,或是再與其他數據產生連結才有價值。

因此,對於企業來說,買來的數據是否有價值?還需要花費多少成本才能轉換成實質效益?如何與本業的數據產生交集、如何對接分析,往往受限於數據技術的門檻。就算有能力跨過門檻,這個類似「加工」的過程中,含有一定的「隱藏成本」,而「隱藏成本」可能很高。對於未知的成本付出與難以預期的成效,成為潛在買方的企業面對這項行銷利器卻步的原因。

此外,由於各家企業提供數據,從樣本蒐集方式、調查方法、資料清洗、建模系統、運算邏輯各不相同,讓資料難以界接轉換,「數據彼此無法對接」,也形成了「數據壁壘」。

數據交易有灰色地帶

縱使有上頭所述的種種好處,在台灣公共領域裏,一談到「大數據」,觀念上仍然有諸多待釐清之處。

例如,日前台北市教育局因與Google推出的免費線上教育版「G Suite for Education」簽約合作引發軒然大波,被媒體指出北市未經同意就洩漏學生個資,之後還影射Google有移作商業用途之嫌,後續證明此篇報導有誤,而Google官方也嚴正指出,「使用者才是資料的擁有者,而非Google。」這指出了原始資料的所有權人,應該歸於使用者本身。

數據來源是否穩定、合法,是「市場化」、「商品化」的必要條件,如何釐清數據所有權人、使用權限,以及源頭蒐集使用者數據的方法是否合乎道德規範,都是數據交易的灰色地帶。

「原始數據」指的是用戶產生的各種數位足跡,像是醫療紀錄、消費明細、帳戶資料等,但原始資料一旦經過「清洗」,以及統計模型的資料整理與分析的過程,也就是將原始資料轉換產生新價值後,最終的匯出成果就屬於大數據公司的資產,所有權者就成了企業方。

為了規避隱私權與所有權的疑慮,現行公開的大數據交易禁止販售原始資料,只能販售經過數據清洗、分析後的結果。舉例來說,某旅行社要將會員資料出售,在販售前必須轉換為格式化內容,人名轉換成編號,將原始數據與個人資料脫鉤,因此,買資料的保險公司可以知道,近年來旅平險的需求強度以及內容規畫方向,但無法直接投放廣告給特定消費者。

問題在於,即使大數據交易所可以擔任交易平台的把關任務,也難以一一清查上游數據蒐集的合法性,只能讓數據提供方用舉證的方式提供使用者的授權證明,審核機制相對薄弱。

以數據交易的產業鏈來看,上游的源頭蒐集、中游的資料處理、下游的資料應用,無一不涉及了國家安全、個人隱私、財產權與道德規範議題,法令未跟上趨勢,制約了大數據交易的進程發展。

數據共享與開放在未來是產業發展的重要趨勢,唯有多元數據資源的活用與配置,才能釋放大數據的真正價值,有效推動社會政策與各產業的革命與進步。

最後,檢視台灣,新上任的政務委員唐鳳日前在「國際設計政策論壇」中曾經提出「開放資料」的願景。她說目前台灣雖然已經逐步開放「公開資訊」,但指的是人可以讀的內容,但機器不能讀。而「開放資料」的差別在於,使用者不僅能讀、還能改,像是水電管線一般的基礎設施,只要有統一的格式,就能成為未來社會與經濟上的多面向應用。

然而從前頭「Google信箱」的例子可以發現,台灣公眾對於大數據的意識和了解只能說尚在萌芽階段。更重要的是台灣社會對於隱私權及個人資料擁有權利的意識遠遠高過中國大陸。例如日前針對高速公路電子收費系統累積產生的數據,究竟能不能移做其他用途而產生的諸多爭論,就使要在台灣推動大數據商品交易格外困難。

而展望未來,大數據環境的建立可以由政府開放資料帶頭,擔任主導與把關的角色。首先可以思考的是,數據可以建立一套分級制度,依照隱私權、擁有權分屬規範使用權限;在定價上,可以採用貨幣的浮動匯率制,依照自由市場的供需關係決定價值,由買賣雙方自行報價、或是競標方式取得數據;在格式上,數據能不能被各產業廣泛應用,格式統一是最基本的條件,像是擁有共同的溝通語言,彼此才能對話、互通經驗。

從法令、技術的到位,加上數據資源合理使用的前提下,「數據銀行」的理念終將成真,數據可以像是個人資產一般的管理,人們可以自由地存放、提領所需的數據,還能放到市場上做交易。數據共享與開放在未來是產業發展的重要趨勢,唯有多元數據資源的活用與配置,才能釋放大數據的真正價值,有效推動社會政策與各產業的革命與進步。

2017 年 7 月,端傳媒啟動了對深度內容付費的會員機制。在此之前刊發的深度原創報導,都會免費開放,歡迎轉發,也期待你付費支持我們

如果你喜歡,就分享給更多人吧