杭州区块链国际周 | 清华大学交叉信息研究院助理院长徐葳:隐私计算助力数据成为生产要素
7月5日,杭州区块链国际周分论坛【“隐私计算:让数据安全有序流动起来”暨2020隐私计算产业30强榜单颁奖典礼】顺利开幕。此次论坛由算力智库联合巴比特、海南省大数据管理局、上海人工智能发展联盟、长三角大数据产业合作联席会议、新财富等共同举办,论坛汇聚了国内外近几年来在隐私数据与安全计算领域专注耕耘的大厂、金融机构与科技企业重磅嘉宾与专家首次云集,共享数据应用思辩饕餮盛宴,同时,还颁发了2020隐私计算产业30强榜单。
在分论坛中,来自清华大学交叉信息研究院助理院长、副教授,华控清交CTO徐葳发表了题为《隐私计算助力数据成为生产要素》的主题演讲,徐葳教授结合自身经历,从技术角度分享了隐私计算技术如何能够让数据成为生产要素,让生产要素的市场成为闭环的观点。
以下为巴比特整理的演讲全文:
数据是数字经济的核心生产要素
数据是数字经济的核心生产要素,这句话我在其它地方得花一些时间来解释,讲一讲生产要素是什么,但是我相信在这个论坛上我没有必要解释。我想解释的是数据从科学上来讲有什么用,因为有用的东西才是一个生产要素。大家认为数据就是各种信息,实际上是 数据蕴含了信息,数据和信息不太一样:你能够看得懂的东西才是信息,看不懂的东西肯定不是信息,而数据有的时候你可以看懂,有的时候却看不懂。十多年前大家上网都会留下访问日志,大家并没有有觉得这些访问日志有多少价值,因为那个时候分析手段不够高明,直到Google这些企业分析了这些日志,广告收入突然提升了,点击率提升了,单次点击费用也提升了,大家发现这个东西还可以这么做,所以才有了大数据这么一个行业,大数据和人工智能的算法帮助你挖掘数据、看懂数据,然后把数据转化成为信息,所以数据的信息是靠加工来的。
加工完成以后大家觉得数据可以挖掘出信息了。信息还有一个特色,它是从理论上衡量企业的一个重要指标。比如说虽然我们没有见过面,但是你到看我的照片,我说我是一个男的,这个不是废话么,因为这句话的信息量非常小,并没有让你惊讶。那什么会让你惊讶呢,就是造一个谣,虽然是虚假的信息,但是它让你惊讶,让你觉得信息量特别大,所以你就去点了,所以信息是让你感觉到惊讶的,当然如果是真实的信息让你惊讶,这个东西就有价值了。
大数据和人工智能能够帮助你把数据转化成为信息,但是这个信息你越不知道越好,比如别人的数据藏了什么你不知道的价值和信息,你就会认为它更加有价值,因为它隐藏了更多的信息。
因此,我们认为数据的价值会在流通中增加。数据的流通和信息流通是一样的,是在流通中体现越来越多的价值。数据是有使用价值的,因此数据流通也不是一个零和游戏。数据在流通当中才能够体现生产要素的真正价值,我们说到健全数据的生产要素由市场决定贡献,由贡献决定报酬的机制,什么叫做市场决定贡献,你得有供需,有供需才能够决定价格。但是大家也提到这么久了,数据怎样流通,数据怎样确权,但是数据本身和别的生产要素不一样:第一,它可以复制,复制的成本特别低,所以可以无线的复制。第二,可以重复使用,可以多方使用,劳动力还是土地还是钱都没有这个特性,第三个特性就是越用越多。所以,从这个角度来说,数据的物理性质和一般的生产要素不一样,我们没有办法从一般的生产要素考虑数据流通的问题。
数据的隐私问题
从最简单和最朴素的层面来讲,这个数据对我的成本是多少钱,高于这个成本才可以卖给你,这个东西成本怎么定价,如说你说你想买我所有的银行交易记录,我可以卖给你,但是问题是我肯定不卖,因为我卖给你以后,你和我说你只不过想帮助我申请一张信用卡而已,但是谁知道你拿去干什么用了,因为你帮我申请了信用卡,这个数据可以无限的复制,我哪知道你把我的数据又复制给谁了?以及你把这个复制给其他人以后会怎样伤害我。所以,对我来说我把数据给了你,我的成本就是所有可能看到数据的人所能够做出来的所有伤害到我的事情之和,这就是我把数据给你的成本,这个成本听起来就不可估量了,其实就相当于我就把命交给你了。但是买方可能不是这么想的,一个善意的买方觉得就是给你申请一个信用卡,你哪这么多的事儿,你怎么这么不放心,但是我就是不放心,因为数据的特性导致了你就是可以把它复制给无穷的人伤害我。所以,这个角度来说这笔买卖是没有希望谈成的,因为我的成本比你原本要付的高得多得多,从这个角度来说没有办法从市场供需进行定价,所以很难市场流通,这就是问题。这就直接导致了对社会产生的一些非常不好的副作用,社会上数据的生产者和数据的消费者往往不是同一个人,你得有一个To C的东西,比如有一个网站、一个博客等等,这样就有流量,有流量就有数据,但是这些人变不了现,但是数据的消费者肯定没有数据,因为它不是To C的,而且中间还有现在数据加工越来越复杂,数据加工的才有信息,你中间还有一堆人去替你整理数据、加工数据。
数据有一个社会化大生产的需求,但是现在因为对于数据交易价值和数据的泄露的担忧,就影响了它形成这么一个闭环,所以影响了整个社会对数据的效率。当然,一些公司就很牛,比如说阿里、腾讯,他们自己打通了闭环,内部就有这个闭环,也有算法的人,也可以变现,也可以放贷,也有To C的东西,但是不是社会化生产,是一家公司的垄断。
所以大家问,如何交易数据,这是本次论坛非常重要的主题,也是大家都在讨论的一个事儿,但是从我的角度来说,我认为如何交易数据这个问题本身就是一个伪命题,它无解,所以我们想到的是一个解决方案,就是我们能不能把数据具体承载的信息和计算价值区分开来,因为我拿到的数据真的不是为了拿眼睛看的,因为你看也看不出什么东西来,一定是用于计算的,用于一些算法来加工的。从大量的数据里提炼出来一点点信息,我们可能做到一个事情,就是数据可用不可见,我可以生成我想要的事情,但是我不让你看到我具体的每一笔银行交易的记录,这样可以避免因为被看见我的具体信息导致了各种各样的恐慌,把所有成本加在你的头上。
如果你没就看到原来的数据,只是提取了计算价值,我们可以说这是一个数据的特定的用法和用量,我把这个数据用于这个计算,用一次是允许的,但是因为你不能拷贝我的数据,所以你下次用别的计算的时候还得求我,所以数据还是我的,这样数据的责权利是分开的,我可以把数据的使用权给你,所有权不能给你,因为你不能复制。
我们认为数据交易如果你讨论我怎样把原始数据交易给别人,这个是来回纠缠,无解的,但是数据交易特定使用权,如果这个事情可以实现,那么它也许是解决了绝大多数的数据交易的需求,但是数据特定的使用权怎样实现,隐私计算我们认为是现在阶段看到的最现实的一些方案。
从目的上来看,数据保密技术为了让除了我想给谁用,这是特定的使用目标,除了这个人之外,其他人都没有看到,采取的手段就是把数据加密了,一定要藏起来,藏的好好的,用各种各样奇怪的技术把秘钥传递给数据的使用方,只有使用房能够把这个数据解开看见,其他人不能,这个解开和明文数据一样,但是确保别人有看见,目的是把数据藏起来,别给别人看见。但是隐私计算不一样,隐私计算的核心是不信目标使用者,重点防的是我想把数据给谁和我要数据的那个人,重点防的不是第三方,重点防的是我那个数据使用方,为了实现这个目标,从这个技术实现上,隐私计算需要把数据加密的状态下让它能够计算,不能用数据使用方解开,所以要加密计算,但是得出来的结果要和明文计算是一样的,最终实现的价值是把数据用起来,而不是把数据藏起来,这是隐私计算和数据保密的区别,数据保密更像是一个保险项,隐私计算更像是一个通风橱。
隐私计算一定是一个多技术的融合体
接下来给大家讲一讲技术上的事情,我是一个技术人员,最开始我们做隐私计算始于我在清华的一个研究项目,我是做大数据的,我认为大数据这个东西最难的是怎样别人把数据给我,密码学有非常巧妙和非常牛逼的理论叫做隐私计算,恰好解决了大数据的问题,但是这个理论早就有,七八十年代就有却没有人用,所以我们一定要做出来,我们一下子就跳到这个坑里,做了好几年,因为太慢了,算法的实现很麻烦,它不是正常实现程序的思路。所以,我们怎样能够让它提升效率,提升到我能够接受大数据计算这么做的效率,我怎样能够把它定义的加法、乘法之类非常简单的操作能够综合成一套完整的指令集和完整的函数库,这些事情我们尝试了很多种不同的隐私计算的协议。我们探索出来这样一条路,我们觉得这种方法可能是可行的,就是我们孵化了一家公司,这家公司希望能够把这一系列的成果变成可以用的技术。在做这个平台的时候,我们有一些新的体会,我们认为我们是从MPC开始考虑这个问题的,实际上隐私计算的种类有很多种,很多种MPC,MPC有不同的协议,隐私计算也有很多不同的技术,一定是融合的技术来解决问题导向的,不是技术驱动的,所以不是说我有这个技术一定要用这个技术解决什么问题,而是你有什么问题,它是一个综合的解决方案,这个方案就有点像我非常喜欢数据库的发展历程。SQL是我从80年代初开始做的,当时觉得它很慢,也没有太大用,但是SQL这么多年的发展,大家突然觉得发展速度快了,这是因为有用了各种各样不同的算法和数据结构在一个数据库中,每一种可以解决特定场景和特定技术的问题。
所以,到现在其实大家也不清晰数据库到底有多少种数据结构和算法,隐私计算是一样的,现在我们也开发了多种MPC的协议适合不同的数据,我们也开发了多种隐私计算的技术,包括联邦学习、MPC、TE等等,我们集成在一个平台上,我们希望的是一个程序、一个算法、一个接口适应了各种各样不同的技术,未来我们会自动的优化到底你的场景中适合使用哪种技术,这样是多种技术的有机结合的平台,而不是单一的技术,这是我们在开发和部署、落地这些项目的时候一个最大的感悟。
我们有不同的计算引擎、不同的技术,上面有面向客户的需求,需求是多种多样的,客户信任模型也是越来越不一样的,当然应用场景更加不一样,所以在不同的应用场景下,我们应该有什么样的模块,这些模块能够灵活的组合,适应不同的场景和不同的需求和客户不断变化的需求,这是我们认为这一类技术走向产品最核心的要点。
比如说给大家举个例子,我认为所有的东西越快越好,天下武功唯快不破,怎样能够算的更快、怎样算的更加有可扩展性,我们做了可扩展的计算平台,比如说左边这些都是不同的数据源,然后我们在上面联合做一个查询,这个查询用了很多的计算服务器,但是也是一个集群,这些集群我们是横向扩展的,你需要更多的算力,我们只需要添加服务器就可以了,最终暴露出密文数据结果,这些计算平台从来没有看到任何的明文数据。但是继承了大数据平台中的可扩展性,不光和明文对接,在密文上实现了可扩展的密文计算框架,所以我们可以跑任意吞吐量的计算,我们可以做大数据的共享开放,政府各个部门之间的数据不打通了,主要是责权利不明,当然政府数据开放肯定是好事情,我们通过这样的平台,大家可以在数据用法用量安全可靠的情况下进行这样的计算,类似的场景在金融、在医疗、在教育、在电子政务、在能源都有很多类似应用,我们认为平台是最重要的,一个可扩展、可模块化、可以定制化的平台是非常重要的,这个平台里可以集成多种技术。
总结来讲,没有一种单一的技术能解决了一切的问题,在现实中来看,隐私计算一定是一个多技术的融合体,它是一个完整的平台,这个平台可以丁志伟各种各样的事情,通过这样的平台,最大的价值是我们八通了数据这种生产要素,在社会化大生产中的闭环,能够让不同方消除对数据隐私的不必要的担忧,让数据真正的流通起来,让数据的定价变得更加明确,不是给原始的数据定价,而是给数据的使用权定价,因此我们认为隐私计算技术这一类的技术是能够让数据成为生产要素,让生产要素的市场成为闭环的目前最现实的道路。
今天我的汇报到这里,谢谢大家!