结论:算力、算法和数据——5G、AI和区块链融合之道
2023-09-28
随着智能手机和物联网智能终端的普及,在区块链、人工智能和5G的推动下,算力、算法和数据三个层面重构互联网商业模式。如今,人类社会活动从未如此依赖移动设备,算力由个人PC、服务器端向移动终端迁移,人工智能算法处理海量的数据,这些数据越来越多由用户移动端本地产生。人类数据的生产量和存储量呈指数级增长,过去5年里数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至于ZB (1024EB=1ZB)级别。过去20年互联网巨头们依靠享受大量数据的支配权(实际上用户一直强调数据是属于他们)和强大的网络效应掌控了互联网的主要资源和价值。在技术的快速发展过程中,互联网的商业经历了计算机的开源、软件的开源和数据的开源,曾经的巨头垄断被不断打破。如今,随着区块链、人工智能和5G等信息技术的崛起,整个互联网加速由巨头互联网公司中心走向分布式和去中心化,价值垄断正在被打破。
在5G通信技术和人工智能算法的驱动下,互联网大数据的价值潜力不断被挖掘,大数据的世界需要一个市场规则和经济激励制度——这真是区块链的价值所在。区块链完美地解决个人数据确权和授权交易,为大数据这列高速列车提供了规范的轨道。
我们认为,在区块链、AI和5G融合的推动下,互联网将呈现新商业模式。互联网公司对数据的控制力下降,出现算法模式供应商;区块链网络为数据隐私和数据市场治理提供基础协议,用户分享更多数据价值;5G边缘网络的算力平台将承载更多终端流量,改变先有网络构架;移动终端的硬件构架向GPU倾斜。
1. 算法:由中心封闭到开源化、模块化
移动端分布式人工智能机器人将是未来主流。人工智能的要素包括算力、算法和数据。它的发展需要算力的支撑,而数据是“喂养”人工智能机器学习的资料。作为基础资源的数据越来越多由移动端产生,伴随着数据隐私保护的呼声愈烈,掌握算法工具的互联网公司在挖掘“数据金矿”的时候只会越来越受到限制。产品级分布式机器学习的推广已经指日可待,互联网巨头们并不必要将移动终端的用户隐私数据上传至云中心,而终端只需输出学习模型结果。
区块链网络实现了数据市场治理,可以有效打破过去个人数据的“无主”垄断状态。个人的隐私数据实际上是被互联网公司掌控,泄漏的风险的危险下,个人数据资源被互联网公司的算法工具进行分析处理,而用户并不能分享数据产生的价值——当某家互联网公司根据你的行为数据给你推荐商品广告时,你有没有想过这个服务价值来自于本属于你的个人数据?区块链很好地解决了数据的隐私问题——数据的确权是属于用户的,其他人或公司若想使用这些数据或利用这些数据作为资料训练AI机器人的话,都将在区块链网络中申请得到用户本人的授权,在区块链账本中完成交易支付。
5G边缘网络和雾计算作为网络通信基础,催生新的商业模式。不久全球将进入5G网络的时代,广泛分布的移动端、云中心之间的数据交换方式产生着深刻的变革——更多的数据交换将在终端之间发生。5G的边缘网络和雾计算将为数据下次提供网络通信的基础,同时边缘网络的构架和数据通信模型催生新的产品和商业模式。
未来算法可以预想呈现模块化、产品化的趋势,互联网公司由数据和网络效应的垄断者逐渐蜕变为算法模块的产品商。未来,互联网巨头不必掌握用户的行为数据,只提供算法工具,通过区块链网络得到授权、完成数据使用权的费用支付,训练AI机器人。届时,互联网公司也许不再是数据和网络效应的垄断者,蜕变为算法产品化模块的供应商——别忘了,区块链网络重塑了数据市场的治理,互联网公司并不直接掌握数据。
2. 算力:从集中云算力走向终端分布式算力
移动端和物联网智能设备的迅猛发展,势必需要算力从集中向终端分布式部署,最终在中心化和分布式两者间取得平衡。人工智能在算法优化阶段需要投入大量的算力,Google的明星机器人AlphaGo在击败李世石之前,DeepMind团队使用了48颗TPU对AlphaGo进行了数个月的3000多万盘对弈训练。显然移动时代,大量的数据在本地存储的模式不在适合。因此,算力一定会随着移动设备和物联网智能设备的发展而向边缘倾斜,实现算力的分布式部署。服务端与客户端分离的结构,移动端的分布式机器学习就成为重要的方向,Google在这方面已经获得产品级突破——Google基于TensorFlow构建了全球首个产品级可扩展的大规模移动端联合学习系统,目前已在数千万台手机上运行。分布式算力的瓶颈还在于有效的经济激励机制的施行,而区块链的激励机制正好提供很好的市场激励制度。
3. 数据:由“无主”的垄断走向确权治理
互联网数据处于“无主”垄断的混乱状态,数据隐私将是未来的最“痛点”。据BM Security和Ponemon Institute此前发布的《2018数据泄露损失研究》评估显示,2018年全球数据泄露的平均成本为386万美元,比2017年的报告高出6.4%。该研究还首次计算了与“超大型泄露(超过100万条记录)行为相关”的成本。评估显示,大型数据泄露代价高昂,百万条记录可致损失4000万美元,5000万条记录可致损失3.5亿美元。互联网带来各种便利的同时人们不应该忘记自身数据处于泄露风险之中,同时数据还在“喂养”互联网公司的AI机器人。
数据隐私的真谛是确权和使用权的交付,区块链的机制提供了数据市场的治理规则。移动时代数据隐私的保护呼声愈烈,一方面是人们对数据作为一种潜力巨大的价值资源的认识越来越清晰,另一方面大量数据天然跟移动端的行为关联,用户越来越注意数据隐私的保护。过去的互联网模式,数据主要存储在互联网公司的云端,用户很难声明对数据的所有权;另外,互联网不断产生的庞杂数据的确权也是出于模糊的“无主”状态,但所有数据实际上都是掌控在互联网公司手中——无论他们如何声明不会泄露数据,不泄露数据不代表我们享有所有权。越来越多的智能服务背后都是来自于互联网公司AI机器人利用个人隐私数据进行机器学习的结果,这个过程中,用户是被动的,利益上存在受损的嫌疑。
我们认为,数据隐私的真谛是确权和授权——即用代码合约明确数据的所有权,通过代码合约完成数据使用权的授权和支付交易。区块链天然就是去中心化和分布式的账本机制,具有数据加密、不可篡改、来源可溯的特点。大量移动端的数据,将由过去“无主”垄断状态,被区块链网络确权给用户,而AI所需要的个人数据,可以由用户向使用方授权完成,相关费用用token完成支付。在数据领域,AI与区块链的结合,一方面是数据层,两者可以互相渗透,完全数据确权;另一方面是从应用层面入手,两者各司其职,AI负责自动化的业务处理和智能化的决策,区块链负责在数据层提供可信的授权。
移动端分布式学习技术的推广将成为打破数据垄断的关键一环。今年2月谷歌宣布实现了全球首个产品级的超大规模移动端分布式机器学习系统,目前已经能够在数千万部手机上运行。此产品利用联合学习(FL,Federated Learning)方法,可以对保存在移动电话等设备上的大量分散数据进行训练,是“将代码引入数据,而不是将数据引入代码”的更加通用化的一个实现。用户的设备会下载一个当前模型,这个模型会从手机数据中学习不断得到改善,然后将变化总结为一个小的关键更新。只有这个关键更新会以加密的方式被传到云端,之后这一更新会在云端迅速被其他用户对共享模型提交的更新平均化(averaged)。简单说,所有的训练数据都留在用户的设备上,而且上传到云端的个别更新也不会存储到云端。新方法将机器学习与云端存储数据的需求脱钩,让模型更聪明、延迟更低、更节能,而且保护用户隐私不受威胁。联合学习方法将使得移动终端数据的隐私得到充分的保护,互联网公司云端服务器并不需要上传用户本地数据,将成为打破数据垄断的关键一环。
4.市场激励:经济利益向用户倾斜
数据资源的价值分享,将向用户倾斜。在“无主”的垄断状态下,个人用户产生的数据被广泛用来训练AI机器人,又产生各类互联网服务推送给用户或其他客户。大数据是基础的资源,其挖掘出的价值用户往往得不到任何回报——同时还要承担隐私被侵犯和泄露的风险。未来,分布在网络中的数据将得在区块链账本中得到确权,数据的使用利用区块链Token授权和支付交易。互联网的价值分享将向用户倾斜。
接踵而来的问题是,如何构建合理的激励体系?区块链在TOKEN激励机制上的讨论一直不绝于耳,最初的btc构建了通缩模型,即总量一定,产量四年减半一次,用算力保证系统的运转及激励分配的公平性。此后很多与现实相关联的激励体系却遇到了很大的问题,比如迅雷的玩客币体系,抛开监管问题,但从系统本身的可持续性也有待商榷。
用过迅雷下载的朋友都知道,当电脑运行迅雷终端的时候,PC即成为网络中的存储节点,这个点对点系统非常契合区块链的去中心化理念,但用户在这其中贡献了硬件及带宽,为了鼓励在线,迅雷也有过积分奖励,而其本质增加推广费用去“获客”,直到玩客币的推出。假设为系统做出贡献可以获得玩客币(俗称“挖矿”),而玩客币既可以从生态中购买服务,也可以二级市场交易,用户自然有动力投入硬件和费用去挖矿,生态体系建设加速,且公司不需要投入费用,而当币价走高时,由于回本周期缩短,用户有更强的欲望加大投入,当然,其更倾向于将玩客币用于二级市场交易而非获得生态中的服务,相反,当币价下跌时,激励机制就会出现问题,毕竟生态中所能提供的服务不能实时地与币价相匹配。
目前,互联网巨头作为主体获得并使用大数据,不存在激励问题,而未来在5G时代,面向个人数据、版权的确权和使用,同样需要构建有效交易市场,激励体系的构建仍是关键。
热门