马云说:“数据不是在于挖掘,数据在于分享、数据在于交换,两个完全不同的数据合在一起,突然得到了一种新的产品和新的服务出来。“数据不同于普通的商品,数据交换后能够产生化学反应,产生1+1>2的效果。我们已经由IT(informationtechnology)时代进入了DT(datatechnology)时代,各行业不再是独自的发展,需要互相融合、共创,打破瓶颈,发现新的突破口,创造新的经济价值。“互联网+”的内含在于将互联网与传统行业结合,数据交换是其中重要的一个方面。
各行业之间的数据都可以进行交换和融合,包括:交通行业、金融行业、服务行业、医疗行业、传媒行业、电商行业等等。而各行业的数据交换后能够产生什么价值呢?
【数据交换的场景和价值】
1. 广告+互联网
传统的企业做广告是撒网式的,更注重品牌的曝光,而如今,广告费已经涨到天价,并且用户对泛滥的广告信息日渐抵触,所以,企业越来越意识到精准营销的重要性。
例如,某些汽车垂直网站或者社区有丰富的用户行为数据,某汽车广告代理公司手上有很多土豪汽车企业客户。汽车垂直网站苦于数据无法变现,汽车广告代理公司苦于没有数据支撑广告投放。
如果汽车垂直网站能够通过合理的方式,将对不同类型汽车感兴趣的人群数据提供给汽车广告代理公司做投放,既可以节省费用,又能为消费者提供实惠。广告与互联网数据的交换节省了广告资源,促进商业供需关系健康发展。
2. 气象+电商
2013年的冬天是个暖冬,优衣库预测到了气候的反常,在那年冬季主打了轻薄款羽绒服,所以火爆了一把,在2013年双11更是勇夺类目第一名。
其实天气预报的天气预测数据是经过模糊化的,之所以这样做是为了军事安全考虑。真实的天气预报数据还是很准的,例如2008奥运会期间的天气预测准确率很高。如果气象数据能够通过安全的方式开放出来交换给其他行业使用,将能够发挥很大的想象力,创造不可估量的价值。
3. 交通(地理位置)+互联网
我们在用滴滴和快的等打车软件的时候,效率越来越高,因为背后支撑的是一套智能的推荐算法。会通过地理位置数据、道路信息、人群画像匹配出最适合的供需关系,进行智能推单,提高司机的抢单率。
再如,商场可以获取客户的地理位置信息以及兴趣信息,为不同客户提供个性化的服务,提升客户的购物体验,从而增加收益。(我每次进杰克琼斯第一句话都是让服务员走开)
可以发现,数据交换已经改变了我们的生活方式。
【数据交换的难点】
以上的场景看起来并不复杂,但是实现起来却有很多难以解决的问题。
对于数据提供者来说:
1. 如何保证数据不可二次售卖?
数据的复制是0成本的,若购买了数据的人二次售卖,循环下去,数据的价值会变得越来越低。这样一来,就没有人会将自己的数据无偿的捐献了。
2. 数据不能随意导出
数据一旦随意导出,就被使用者据为己有了,就难免会被二次售卖。
3. 售卖数据使用权/所有权
有的数据提供者只想售卖数据的使用权:数据使用者只能用数据和其他的数据加工结果,并通过合理的方式完成自己的目的,而原始数据无法导出。
有的数据提供者愿意将数据的所有权售卖:大量粗糙的原始数据被数据提供者售卖,拥有数据挖掘能力的公司购买数据,产出了更有价值的数据,并将其二次售卖;数据采集代理公司将采集的数据完全售卖给客户。
4. 数据脱敏
很多数据很敏感,例如,手机号,消费者真实年龄。这些数据需要先被模糊化,加密等处理后才能售卖。
5. 三方授权数据
在阿里巴巴有很多数据的所有权很复杂,数据是在淘宝/天猫平台上产出的,经过阿里数据团队加工,按理来说,这些数据既属于阿里集团也属于平台上的卖家。那么将这些数据授权给第三方,就既需要阿里集团的授权也需要每一个卖家的授权。
6. 数据处理过程可监控
数据提供者不希望数据被用于非法的场合,例如,使用者收集某一个行业的大盘数据,推算整个行业的数据趋势,用于投机。
7. 隐私数据如何交换
消费者的数据是敏感度极高的数据,这些数据一旦被滥用,会导致网络安全问题,垃圾信息泛滥问题等等,后果非常严重。那么这类数据如何才能交换。
对于数据使用者来说:
“数据不能随意导出”那么产出的数据如何发挥价值?
【数据交换的方式】
1. 简单的购买、下载
2. 通过API的方式,实时的获取数据。按照调用API的次数计费。
3. 定制数据
以上三种交换方式均参考了数据堂
但是以上三种方式都没有解决数据交换的几个难题。大数据时代,数据的交换需要更安全、性能更强大的数据交换、开发平台。
【御膳房的解决方案】
御膳房是一个大数据开发和交换平台。
御膳房有三大模块:数据市场、数据中心、数据引擎。
数据市场:数据交换的场所,类似于数据淘宝,拥有商品、订单、支付系统。
数据中心:企业、组织、公司管理数据资产的场所。
数据引擎:是PaaS层,数据的交换、存储、计算、导出都依赖于数据引擎的支撑。
1. 数据引擎有两个环境:开发环境和生产环境。
开发环境用于开发者做数据开发,是写代码的地方,在开发环境调试程序的时候,显示的是抽样的数据,并且对于一些敏感的数据,开发环境查到的是脱敏后的数据。
生产环境是一个密闭的容器,在开发环境写的代码发布后会在生产环境自动运行,数据持续不断的产出。
开发环境和生产环境的隔离,既保证了开发者能方便的完成数据开发,又保证了数据不会泄露。
2. 数据安全交换区
把外部购买的数据和私有数据安全隔离开。如果要同时使用两部分数据,可以把私有区的数据授权到交换区,保障私有数据纯净不受干扰。同时,数据售卖者可以设置数据导出规则,通过交换区的导出安全监控以及血缘追踪机制,保障数据的安全。
私有区(用户的私有空间)
1、可以将私有数据上传到私有区项目
2、私有区项目可以相互授权数据
3、私有区内加工的数据可以授权到交换区或者上架到数据市场
4、从数据市场购买的数据不能授权到私有区
交换区(交换的数据和私有数据加工的空间,数据导出、处理会有严格的安全监控)
1、从数据市场购买的数据只能在交换区使用
2、交换区的数据不能授权给私有区的项目
3、交换区项目可以相互授权数据
4、交换区数据不能上架售卖
如图,客户1是数据售卖者,他将私有的数据同步到自己在御膳房的私有区,再将数据上架到数据市场去售卖。在上架的时候,客户1可以设置很多安全规则:
- 数据导出规则(不可导出、可以导出到TOP API、可以导出到DMP、可以导出到RDS等)
- 售卖数据使用权/所有权(使用权:数据只能在使用者的交换区使用;所有权:数据可以导出到使用者的私有区)
- 是否通过安全工具“御前卫”监控使用者对数据的某些操作(可自定义监控的操作,可以设置为只有数据提供者审批了后,使用者的代码才能运行)
- 数据授权方式(两方授权、三方授权)
设置了导出规则后,御膳房通过血缘追踪机制,保证任何数据表的血缘关系里只要有这个数据,在导出的时候均被限制住。
如图,客户2是数据使用者,如果他购买了只有使用权的数据,那么这个数据就只能在他的交换区使用。客户2再将自己私有区的数据授权到交换区,一起做计算。最终的结果导出的时候也会有严格的安全监控。
目前可提供的数据导出方式有:
这种机制解决了难点1-6的问题。既保证了数据提供者的数据安全,又能解决数据使用者的问题。
3. 消费者的数据是敏感度极高的数据,这些数据一旦被滥用,会导致网络安全问题,垃圾信息泛滥问题等等,后果非常严重。那么这类数据如何才能交换?
对消费者数据的需求场景主要是根据一些属性圈定出人群,或者根据已有的数据、用户行为,圈出人群,从而进行广告投放或个性化服务,而真正需要消费者详细个人信息的场景很少。
可以通过“数据服务”的方式来进行这类敏感数据的交换。
数据服务:类似于一个程序,使用者输入数据后,在一个密闭的环境中,通过与敏感数据的计算,只将最后的结果输出给使用者。
输入的可能是一个人群或者标签,输出的是经过复杂计算后得到的新的人群或者标签。
一个虚拟的场景:
1、 某汽车广告代理公司从汽车垂直网站购买了一批人群数据,这些人群数据可以是在汽车垂直网站的cookie、注册邮箱、手机号等等。
2、 通过人群ID转换服务,将这个人群匹配成为淘宝平台上的人群。
3、 匹配后的人群如果不够大,再通过人群放大服务,找到更多拥有相似特征的人群。
4、 将筛选到的人群投放到DMP,进行精准营销。
这个过程中,“人”的数据并没有暴露,却完成了客户要实现的目标。
【业务发展】
1、 从整体看,这种大数据的交换平台需要一个PaaS,需要复杂的安全体系的支持,目前有这种能力的公司不多。
2、 即使平台已经搭建好了,那么第三方凭什么要把数据放到平台上来售卖呢?目前有效的方法应该是利益驱动,还举汽车行业的例子。汽车垂直网站有丰富的用户行为数据,汽车广告代理公司或车企手握巨资。汽车垂直网站苦于数据无法变现,汽车广告代理公司苦于没有数据支撑广告投放。数据交换平台可以作为媒介,促成双方的交易。并且数据提供者可以在平台上将数据售卖给更多的使用者,可以让这种模式规模化,发挥数据在各个领域的价值。
3、 各行业,如,交通、气象、电力、金融、服务业都有丰富的数据,要想让他们把数据存储到公有云来交换,在目前的环境下还是一件比较困难的事情,虽然这是一个趋势,但是万事俱备,还欠一口东风。
4、 如果BAT都有一个大数据平台,那么数据提供者会考虑把数据放到哪个平台来交换呢?如果平台只是一个空壳子,那么就没什么诱惑力。
- 如果阿里能把电商的数据开放出来,就会吸引其他行业的数据也上来,与电商数据化学反应一下,反应出几桶金子;
- 如果百度能把搜索的数据、地图的数据以某种方式开放出来,价值能有更大的发挥;(国内互联网用户搜索大多数东西还是在百度的,如法律、医疗、汽车)
- 微信的个性化广告已经赚翻了,腾讯的用户数据更是一个巨大的钻石矿井。