直击现场 | 2024年世界人工智能大会 隐私计算专场
由于针对这些问题综合阐述,笔者将演讲者的所讲的内容,糅合在一块阐述。
首先,关于智谱 AI 分享,主要聚焦于基底大模型。
隐私计算,安全方法算法于上世纪 80 年代提出,聚焦于密码学。主要是保证计算正确性,和控制数据的泄露情况。
智谱 AI 的一些工作,例如,千亿级别的模型部署,AI 对话平台,加强模型对图文的理解和生成。即我们现在所知的大模型,其对人的信任,本质上是对技术和算法的信任。这是建树 AI 算法的思路。另外一些工作,诸如代码模型,程序员的生产力,例如 CodeGeeX。
关于 GLM-4,基底大模型。
第一,上下文分析,可最大容纳 128K 上下文。第二,All Tool 完成模型自己的自我规划、自我推理、自我决策。第三,GLM-4,堪比 ChatGPT,提供用户个性化部分。
GLM-4,融合了 CogView3, Stable Diffusion。模型可以自行规划任务,创造信息源,自行进行搜索,查阅网页,点击获取信息。
用户定制工具,例如,可查询 API。
生成 Python 代码,进行代码解释。
可完成多层次代码,用于管理层的决策之用。
2000 多家合作方,模型涉及广。
这里只有日本的数据治理思路。其中,美国治理思路是高度自治的,甚至针对加州出台法律,规范互联网数据的用途。欧洲更多围绕“人权”展开。ShoelessCai 理解,在规定方面的细化功夫下得少,更多核定这件事要怎么思考,坚守怎样的原则,从什么逻辑出发。
无独有偶,2024 年 6月26日,中国国家互联网信息办公室主任庄荣文在京会见德国数字化和交通部部长维辛一行,双方共同签署《关于中德数据跨境流动合作的谅解备忘录》。
中国国家互联网信息办公室将与德国数字化和交通部在《关于中德数据跨境流动合作的谅解备忘录》框架下,建立“中德数据政策法规交流”对话机制,加强在数据跨境流动议题上的交流,为两国企业营造公平、公正、非歧视的营商环境。
数据治理重要性可见一斑。
其次,关于数据隐私的立法和技术融合,怎么开展。
法律法规是数据合理流通的底层支撑。合理形成数据跨境的内外双循环,甚是重要,这些宏观问题,归结到发展、统筹、数据一致等问题。
数据完整体系,和跨境管控如何开展工作?
所谓的体系和管控,无非从三个点入手:赋能、基础设施、网络。
(1)赋能。目前主要问题聚焦于确权、授权、评估定价、收益分配。这句的含义,合理的交易和流通不是被禁止的事情。落地的数据 20 条,也是确立了三权分治的基本结构。
数据流通时候的问题是很多的,不仅仅是来源不一致,加工方法不一致,数据价值随着 流通变动,和一般商品具有相当大的差异。因此,目前的解决方案,从隐私保护、区块链、透明化、责任保护边界的确认,将数据资产的流通,归结于统一的、不变的、一致的流通产品,也是为之后的数据资产化,奠定基础。
信通院目前的做法,即建立平台,使得流通方在平台落地数据要素,这些要素经过严格讨论,能够充分代表数据的统一性、不变性、一致性的;而数据使用方的职能,是在平台上确认这些要素,对于提供商的信息,再进行重新核验。
(2)基础设施。这个概念指的是面向流通的数据环境,目前已经在使用的方式,例如大模型,例如行业的数据交易。
(3)数据流通网络(TDN)。保证数据、算力、网络,在跨区域、跨节点的问题上,保证一致性。方法,包括但不限于隐私保护等等。模式方面,一是授权式,在数据流通的问题上,保证机密,以及完整的算法一致性。二是商议式。保证各个节点,多方的安全、交互模式,通过分布式计算,约定各个节点的协议。
ShoelessCai 评注,授权式是流通过程中,保证与用户授权时候一样合规。商议式,是规定数据过关“条件”,其隐私部分,可以事先规定。这部分内容由陈先生分享,因为是看的直播,名字暂时没反应过来怎么写。
所谓的隐私计算的适用场景,什么样的数据,组织起来的时候,要涉及“隐私计算”问题呢?
ShoelessCai 总结为“两跨两角色”,两跨指的是跨行业、跨区域;两角色指的是,具有数据供给方,和数据需求方,两个角色设定。这样的条件和场景中,存在数据隐私问题,甚至是隐患,需要用技术和法规的手段,去规避。
目前,行业内的做法,即产业参与、定标准、数据共治,建立法规。
同时,技术创新方面,提到数据沙箱,主要用于保持数据一致、算法一致。ShoelessCai 评注,按照业务说法,就是口径始终保持一直。那么,不同场景的加工,需要用沙箱的模式,保证数据一致性。
如果是城市数据价值的基础设施建设,一是供需双方需求,二是流通平台的服务、监管。
陈先生最后几分钟提到展望。
第一,公共数据,建立可信平台,充分市场化。提升数据治理,提升分级分类,提升授权便捷。市场方面,提升数据供给,例如,DCMM,DSMM,DataOps,保证场内外多层次的交易市场共存。
第二,生态培育,数据跨境流通。创新跨境制度,双向合作、国际合作、深度合作,突破行业壁垒。还要关注流通关键技术,当作难点突破,数据的互联互通,积极尝试区域性的实验。

演讲 15 分钟部分 PPT
再者,白皮书作用。
白皮书,简言之,是定义个人信息匿名计算的技术与法律,涵盖技术安全的范畴。
为什么要投入建立白皮书?
第一要义,有数据。
包括现有的《网络安全法》、《民法典》、《个人信息保护法》。
现有规则的弊端,是不清晰。白皮书有什么优势?
关键,供给方和使用方的理解是否一致?如果答案是否定,数据流通的价值,是值得质疑的。
这个时候,我们怎么定义问题?怎么定义目标?
匿名用数据吗?如果界定其中的责任义务,这是个法律问题,还是技术问题。
诸如此类,在白皮书中展开探讨。
继续,隐私计算的应用。
或许是下午分享的人很多,演讲者的语速也明显放慢了。
演讲者首先讲述案例,原某大行总行无法知晓其客户公积金信息,因此,他们通过匿名的方式,获取其他法人主体的数据,对于用户的征信情况,获得更好的认知。
其实,数据的价值挖掘比较少。那么,怎么解决分级分类的问题呢?
以下是 ShoelessCai 基于演讲者的内容,包含一定的主观理解。
第一,参与方是否可信?数据跨境、跨区域、跨行业的时候,各个数据的来源,所谓的参与方,我怎么信赖,有标准吗?有统一口径吗?
第二,针对某些行业认为的核心数据,要怎么进行处理、存储,和流通呢?
第三,数据各个属性(特征)验证,这些属性所发挥的作用是否真实如自己认知。
之后还有 2 - 3 个分享者,暂时就记着这些工作吧。
写在最后
看到这些大佬,我想到曾经在雇主那(也就是买单侠),看过一本书,叫做《为什么受伤的总是聪明人》,我自己买的。
我认为相较于我高中同学,我算是非常皮实耐打的,而除了骑车唱歌,偶尔管自己禁闭的时候时候会练练高音,会把自己的思路全线说出口,再自我审视(类似于自己和自己对话),以及像赫尔曼·海尔纳那样,肆意地在人群中挥洒泪水,或者唱唱跳跳,类似于寄情于景的,自觉没有任何出格的行为。