中国贵阳大数据交易所日前刷新了一个新纪录,一家山东的生物科技公司买下了全球医药研发专利大数据分析资料,订单成交金额为1600万人民币(约1818万港币 /235万美元/ 7569万台币),立下了大数据交易单笔最高金额的里程碑。
在中国“十三五纲要”中将“大数据交易产业”明列为“省级研究议题”,它处于提升国家竞争力的战略高地上。政策一出,各省纷纷群起效应,10余个大数据交易所在政府力量介入下成立,光是北京就有6家大数据交易中心,但除了 2015年4月成立的“贵阳大数据交易所”外,其他大数据交易所目前实质的数据交易量大都屈指可数。
是什么原因让地处偏远的贵阳大数据交易所一枝独秀?除了中国国家资源的倾注以外,主要原因是它的股东包含了阿里巴巴、富士康等中国最具竞争力和影响力的企业。另外华为、海尔、泰康人寿、神州数码等公司都名列企业会员。
这是一个“资料有价”的时代!贵阳大数据交易所里贩售30种类型的数据资料,包括金融、社群、教育、保险、气象、物流、医药等类别,也包括海关、政府、法院和行政处罚等公部门数据,可以交易的数据商品超过4000个。截至今年9月的统计,贵阳大数据交易所累积交易金额已突破1亿元人民币(约1.1亿港币/1472万美元/4.7亿台币),已经形成“框架协议”的交易量为3亿元(约3.4亿港币/4417万美元/ 14.1亿台币)。
开放共享的世界大同观
大数据交易蔚为风气,来自于观念的改变。以往,企业将内部数据做为拥兵自固的筹码,深怕资料外流,现在却成为互通有无的交换筹码,数据交易成为大数据产业的新亮点。这些看不见摸不着的数据,已经成为可计量,可供评估的资产,经由一定的标准,裁量出商品化的交易形式,连带兴起了大数据交易的经纪和代理、仲介公司成立,大数据交易俨然成为一个迸发的新兴产业。
从国外大数据的发展来看,美国、英国、法国皆从政府公开资讯做起,进而将大数据研发列为国家发展策略。大数据交易仅在私人企业间活络,如美国的Factual公司搜集用户的位置数据,透过资料分析,判断消费者一天的通勤路线、身份、喜好兴趣等资讯,将资料广泛出售给地图服务商、搜寻引擎、社交平台、广告主使用。
实时交通数据公司INRIX透过搜集用户的行车路线、速度,提供最佳的交通路线指引,除了让消费者获得省时省油的好处,另一方面INRIX也将搜集来的资料与房地产公司合作,因为他们发现73%的购屋者将通勤时间纳入购屋地点的首要考量,帮助房仲业可以快速媒合购屋者的需求,提高成交率。
“开放共享”是大数据的世界大同观,从知识开放,到推动产业升级的诉求,敲开了过往数据独立封闭的大门,开启了数据交易的新时代。但在没有大数据交易所以前,这个产业市场处在一种矛盾情境里:供需双方的需求强烈,但就是无法促成市场活络。
最大的原因是“数据变现,如何计价?”如同股市交易,买卖双方必须对于同一个商品的价值产生共同的对价概念,成交才得以完成。目前在大数据交易所,不同类别的资料有着不同的交易机制,由于要顺应24小时的交易制度,自动化定价系统从数据实时性、样本覆盖程度、完整性、数据种类、时间、深度等面向“计算”出一份资料的价值,订出一个“公开牌价”。
缺点在于,同样一份数据对A公司来说可能一文不值,对B公司却是视为珍宝,时常造成卖方觉得数据被低估、买方觉得高估的情况,当买卖同一份商品有着不同的价差认定,就难以在公开市场建立公开透明的交易机制。
数据材料不同于一般商品,并不能“即拆即用”。企业从大数据交易所购买来的数据必须与资料库,或是再与其他数据产生连结才有价值。
虽然一般多以“大数据”来统称所有的数据资料,但可以被拿来作运用、分析的资料可以再细分为三种:
open data(开放数据,台湾称开放资料):开放性资料,像是天气、飞机航班、人口普查结果,任何能公开取得的数据都是open data。
big and messy data(大量混乱数据): 像是在社群平台Facebook、Instagram留下的各种纪录,它的特色是数量无比庞大,必须透过电脑软体演算清洗分析,才能产生应用价值。
small and accurate data(小量精确数据):包括帐户出入纪录、企业会员ERP,数据不大但相当精准,可以清楚知道单一消费者的行为模式。在数据应用上,综合愈多资料源的汇入与交集,愈能产生更高的价值产出。
大数据应用的最大魅力在于“预测”。以零售业为例,消费者购买行为背后是一连串的驱动过程,并非倚靠“一个月买一次日用品”的量化数据就能断定,必须加上“厚数据”(thick data)的小样本质性研究,从消费者心理探索,从最终的行动,回推认知、态度,才能真正的得到零售业的解决方案。
但数据材料不同于一般商品,并不能“即拆即用”。企业从大数据交易所购买来的数据必须与资料库,或是再与其他数据产生连结才有价值。
因此,对于企业来说,买来的数据是否有价值?还需要花费多少成本才能转换成实质效益?如何与本业的数据产生交集、如何对接分析,往往受限于数据技术的门槛。就算有能力跨过门槛,这个类似“加工”的过程中,含有一定的“隐藏成本”,而“隐藏成本”可能很高。对于未知的成本付出与难以预期的成效,成为潜在买方的企业面对这项行销利器却步的原因。
此外,由于各家企业提供数据,从样本搜集方式、调查方法、资料清洗、建模系统、运算逻辑各不相同,让资料难以界接转换,“数据彼此无法对接”,也形成了“数据壁垒”。
数据交易有灰色地带
纵使有上头所述的种种好处,在台湾公共领域里,一谈到“大数据”,观念上仍然有诸多待厘清之处。
例如,日前台北市教育局因与Google推出的免费线上教育版“G Suite for Education”签约合作引发轩然大波,被媒体指出北市未经同意就泄漏学生个资,之后还影射Google有移作商业用途之嫌,后续证明此篇报导有误,而Google官方也严正指出,“使用者才是资料的拥有者,而非Google。”这指出了原始资料的所有权人,应该归于使用者本身。
数据来源是否稳定、合法,是“市场化”、“商品化”的必要条件,如何厘清数据所有权人、使用权限,以及源头搜集使用者数据的方法是否合乎道德规范,都是数据交易的灰色地带。
“原始数据”指的是用户产生的各种数位足迹,像是医疗纪录、消费明细、帐户资料等,但原始资料一旦经过“清洗”,以及统计模型的资料整理与分析的过程,也就是将原始资料转换产生新价值后,最终的汇出成果就属于大数据公司的资产,所有权者就成了企业方。
为了规避隐私权与所有权的疑虑,现行公开的大数据交易禁止贩售原始资料,只能贩售经过数据清洗、分析后的结果。举例来说,某旅行社要将会员资料出售,在贩售前必须转换为格式化内容,人名转换成编号,将原始数据与个人资料脱钩,因此,买资料的保险公司可以知道,近年来旅平险的需求强度以及内容规画方向,但无法直接投放广告给特定消费者。
问题在于,即使大数据交易所可以担任交易平台的把关任务,也难以一一清查上游数据搜集的合法性,只能让数据提供方用举证的方式提供使用者的授权证明,审核机制相对薄弱。
以数据交易的产业链来看,上游的源头搜集、中游的资料处理、下游的资料应用,无一不涉及了国家安全、个人隐私、财产权与道德规范议题,法令未跟上趋势,制约了大数据交易的进程发展。
数据共享与开放在未来是产业发展的重要趋势,唯有多元数据资源的活用与配置,才能释放大数据的真正价值,有效推动社会政策与各产业的革命与进步。
最后,检视台湾,新上任的政务委员唐凤日前在“国际设计政策论坛”中曾经提出“开放资料”的愿景。她说目前台湾虽然已经逐步开放“公开资讯”,但指的是人可以读的内容,但机器不能读。而“开放资料”的差别在于,使用者不仅能读、还能改,像是水电管线一般的基础设施,只要有统一的格式,就能成为未来社会与经济上的多面向应用。
然而从前头“Google信箱”的例子可以发现,台湾公众对于大数据的意识和了解只能说尚在萌芽阶段。更重要的是台湾社会对于隐私权及个人资料拥有权利的意识远远高过中国大陆。例如日前针对高速公路电子收费系统累积产生的数据,究竟能不能移做其他用途而产生的诸多争论,就使要在台湾推动大数据商品交易格外困难。
而展望未来,大数据环境的建立可以由政府开放资料带头,担任主导与把关的角色。首先可以思考的是,数据可以建立一套分级制度,依照隐私权、拥有权分属规范使用权限;在定价上,可以采用货币的浮动汇率制,依照自由市场的供需关系决定价值,由买卖双方自行报价、或是竞标方式取得数据;在格式上,数据能不能被各产业广泛应用,格式统一是最基本的条件,像是拥有共同的沟通语言,彼此才能对话、互通经验。
从法令、技术的到位,加上数据资源合理使用的前提下,“数据银行”的理念终将成真,数据可以像是个人资产一般的管理,人们可以自由地存放、提领所需的数据,还能放到市场上做交易。数据共享与开放在未来是产业发展的重要趋势,唯有多元数据资源的活用与配置,才能释放大数据的真正价值,有效推动社会政策与各产业的革命与进步。
在一个没有隐私保护法的国家,什么数据流出,个人信息盗用都不足为奇。