- 博客(101)
- 资源 (6)
- 收藏
- 关注
原创 隐私计算综述
一 背景❝时光荏苒,一晃从自己开始写公众号到今天,已经有十个月了,刚刚看了下,这十个月的时间里,原创文章写了84篇,结合自己的从事过的方向,写了五大专栏:隐私计算、机器学习框架、机器学习算法、高性能计算、数学等方向。熟悉我的朋友大抵都知道我最初是做纯工程的,做搜广推的架构工程,后续转到了算法领域(机器学习框架与算法都涉及),后来由于项目需要,临危受命负责了京东的联邦学习,又开始搞隐私计算,这一路走来可以说是颇为折腾,感觉自己没有几天是放松的时间,不是在学习就是在学习的路上,没办法,谁让自己爱折腾呢!高T
2022-08-04 20:42:02
2315
3
原创 隐私计算基础组件系列-混淆电路
一 背景隐私保护近年来,随着大数据与人工智能的盛行,针对个人的个性化的推荐技术的不断发展,人们在享受便利的同时,也深深的感觉到无处不在的监控与监视,比如刚刚浏览了一个网站的商品,当去其他网站访问的时候就会推荐类似的产品;刚刚搜索了某件商品,在很多其他的场景中都会给你推荐。❝这种体验,提供了一些便利,刚开始大家都感觉互联网非常智能化,但是如果仔细想想,就感觉自己的网上进行裸奔,你做了什么,别人都是一清二楚,个人信息毫无隐私可言,如果用这些信息进行诈骗等,会造成严重的损失,细思极恐。❞不过随着广
2022-07-26 16:45:41
1088
1
原创 横向联邦学习-梯度安全聚合(二)
一 背景最近总结自己的公众号的时候,发现一个问题:对于联邦学习的文章,基本都是在讲述纵向联邦学习,对于横向联邦学习的技术涉及较少,所以心血来潮之下,决定写几篇文章来压压箱子底。❝横向联邦:现代移动设备可以访问大量适合学习模型的数据,这些数据反过来可以大大提高设备上的用户体验。例如,语言模型可以提高语音识别和文本输入,图像模型可以自动选择好的照片。然而,这些丰富的数据通常是隐私敏感的、数量很大的,或者两者兼有,这可能会阻止记录到数据中心并使用常规方法在那里进行分析训练。❞所以针对于此研发人员设计了一
2022-07-12 06:16:55
1454
原创 白话机器学习-卷积神经网络CNN
一 背景在卷积神经网络CNN 出现之前,图像对于人工智能来说就是一个灾难,主要是有两个原因:图像需要处理的数据量太大,导致成本很高,效率很低;图像在数值化的过程中很难保留原有的特征,导致图像处理的准确率不高;1 参数共享机制假设我们使用全连接层进行图像特征的提取,即使使用最简单的数据集例如MNIST数据。每个图片的尺寸是28x28x1,其中28x28是图片的大小,1是表示图像是黑白的,即只有一个色彩通道。假设第一层的隐藏层的节点数量是600,那么这个全连接神经网络将有28x28x600+600=4
2022-07-12 06:14:11
988
3
原创 横向联邦学习-梯度安全聚合1
一 背景最近总结自己的公众号的时候,发现一个问题:对于联邦学习的文章,基本都是在讲述纵向联邦学习,对于横向联邦学习的技术涉及较少,所以心血来潮之下,决定写几篇文章来压压箱子底。❝横向联邦:现代移动设备可以访问大量适合学习模型的数据,这些数据反过来可以大大提高设备上的用户体验。例如,语言模型可以提高语音识别和文本输入,图像模型可以自动选择好的照片。然而,这些丰富的数据通常是隐私敏感的、数量很大的,或者两者兼有,这可能会阻止记录到数据中心并使用常规方法在那里进行分析训练。❞所以针对于此研发人员设计了一
2022-07-08 21:50:51
2283
2
原创 横向联邦学习-梯度安全聚合
一 背景最近总结自己的公众号的时候,发现一个问题:对于联邦学习的文章,基本都是在讲述纵向联邦学习,对于横向联邦学习的技术涉及较少,所以心血来潮之下,决定写几篇文章来压压箱子底。❝横向联邦:现代移动设备可以访问大量适合学习模型的数据,这些数据反过来可以大大提高设备上的用户体验。例如,语言模型可以提高语音识别和文本输入,图像模型可以自动选择好的照片。然而,这些丰富的数据通常是隐私敏感的、数量很大的,或者两者兼有,这可能会阻止记录到数据中心并使用常规方法在那里进行分析训练。❞所以针对于此研发人员设计了一
2022-07-08 21:47:41
1902
原创 白话机器学习-Transformer
前一阵打算写这方面的文章,不过发现一个问题,就是如果要介绍Transformer,则必须先介绍Self Attention,亦必须介绍下Attention,以及Encoder-Decoder框架,以及GRU、LSTM、RNN和CNN,所以开始漫长的写作之旅。截止本文终于完成这个漫长的过程,
2022-05-04 17:50:38
2769
1
原创 白话机器学习-Self Attention
一 背景大抵是去年底吧,收到了几个公众号读者的信息,希望能写几篇介绍下Attention以及Transformer相关的算法的文章,当时的我也是满口答应了,但是确实最后耽误到了现在也没有写。前一阵打算写这方面的文章,不过发现一个问题,就是如果要介绍Transformer,则必须先介绍Self Attention,亦必须介绍下Attention,以及Encoder-Decoder框架,以及GRU、LSTM、RNN和CNN,所以开始漫长的写作之旅。截止目前,已经完成几篇文章的输出《白话机器学习-卷积神
2022-05-02 14:52:20
1459
原创 白话机器学习-Attention
从计算性能和模型性能的综合考量,在工业界,Attention被大量使用,“Attention is all your need!”。
2022-05-01 14:28:21
1993
原创 白话机器学习-Encoder-Decoder框架
一 背景大抵是去年底吧,收到了几个公众号读者的信息,希望能写几篇介绍下Attention以及Transformer相关的算法的文章,当时的我也是满口答应了,但是确实最后耽误到了现在也没有写。前一阵打算写这方面的文章,不过发现一个问题,就是如果要介绍Transformer,则必须先介绍Self Attention,亦必须介绍下Attention,以及Encoder-Decoder框架,以及GRU、LSTM、RNN和CNN,所以开始漫长的写作之旅。截止目前,已经完成几篇文章的输出《白话机器学习-卷积神
2022-04-30 17:57:20
5178
1
原创 隐私计算加密技术基础系列-Diffie–Hellman key exchange
本系列文章将会重点描述下非对称加密即公钥加密的开山之作Diffie–Hellman key exchange。本文内容涉及到数学里面的数论相关知识,针对加密算法会用到的知识,本章会做些适当的介绍
2022-04-13 19:38:46
1038
原创 白话机器学习-循环神经网络RNN
一 背景本章将要介绍一种常用的神经网络结构 – 循环神经网络(recurrent neural network,RNN)。常规的神经网络比如全连接网络只能单独孤立的处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某种情况下,输入是有序列关系的,需要网络能够更好的处理序列的信息。这种需要处理「序列数据 – 一串相互依赖的数据流」的场景就需要使用 RNN 来解决了。典型的几种序列数据:文章里的文字内容语音里的音频内容股票市场中的价格走势……二 循环神经网络简介2.1 深
2022-04-10 22:02:27
1141
原创 白话机器学习-卷积神经网络CNN
在卷积神经网络CNN 出现之前,图像对于人工智能来说是就是一个灾难,主要是有两个原因:一 图像需要处理的数据量过多;二 图像的特征无法很好的保留。CNN通过平移不变原理和参数共享机制非常完美的解决了图像特征提取的难题,在业界大放异彩。
2022-04-08 10:38:06
3838
1
原创 白话机器学习-长短期记忆网络LSTM
长短时记忆网络(Long Short Term Memory Network)LSTM,是一种改进之后的循环神经网络,通过门控机制有选择的记忆重要的内容,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。LSTM结构(图右)和普通RNN的主要输入输出区别如下所示。
2022-04-04 22:05:11
2114
原创 白话机器学习-循环神经网络RNN
一 背景本章将要介绍一种常用的神经网络结构 – 循环神经网络(recurrent neural network,RNN)。常规的神经网络比如全连接网络只能单独孤立的处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某种情况下,输入是有序列关系的,需要网络能够更好的处理序列的信息。这种需要处理「序列数据 – 一串相互依赖的数据流」的场景就需要使用 RNN 来解决了。典型的几种序列数据:文章里的文字内容语音里的音频内容股票市场中的价格走势……二 循环神经网络简介2.1 深
2022-04-04 21:06:12
1478
1
原创 深度学习框架TensorFlow系列之(五)优化器3
1 背景梯度下降算法是目前最流行的优化算法之一,并且被用来优化神经网络的模型。业界知名的深度学习框架TensorFlow、Caffe等均包含了各种关于梯度下降优化算法的实现。然而这些优化算法(优化器)经常被用作黑盒优化器,造成对这些算法的优缺点以及适用场景没有一个全面而深刻的认知,可能造成无法在特定的场景使用最优解。梯度下降法的的目标是在梯度的相反方向进行模型参数的更新,从几何学来说,就是沿着斜率的方向(最快)由目标函数创建的曲面一直向下直到山谷,并且通过合理的步长设置加快与稳定算法模型的收敛,训
2022-03-06 20:19:17
1414
原创 vim配置
set numberset nocompatiblesyntax onset showmodeset showcmdset encoding=utf-8set t_Co=256filetype indent onset autoindentset tabstop=2set shiftwidth=4set expandtabset softtabstop=2set cursorlineset textwidth=80set wrapset showmatchset hlsea
2022-02-09 20:47:51
183
原创 隐私计算加密技术基础系列(下)对称与非对称加密的应用场景
本章是《隐私计算加密技术基础》系列文章的最后一篇,感慨下,终于写完了,这个春节假期除了陪家人就是写着三篇文章了。其实写之前并没有觉得是多么难的事情,感觉这些原理自己都比较清楚,但是随着写的过程中,却发现自己有些确实理解的不是非常到位,看来有些知识是需要通过花更多的时间来锤炼的
2022-02-09 09:27:57
1761
原创 隐私计算加密技术基础系列(中)-RSA加密解析
1 隐私计算基座-密码学1.1 隐私计算背景隐私计算(Privacy-preserving computation)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的**“可用不可见”。 Gartner发布的2021年前沿科技战略趋势中,将隐私计算(其称为隐私增强计算)列为未来几年科技发展的九大趋势**之一。 (数据流通需求推动隐私计算势头火热) 但仍存在诸多阻碍。2021年被称为隐私计算的元年,这门技术是门综合性非常强的领域,涉及到众多方向
2022-02-07 17:47:11
4389
原创 隐私计算加密技术基础系列(上)
1 密码学1.1 背景隐私计算(Privacy-preserving computation)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的**“可用不可见”。 Gartner发布的2021年前沿科技战略趋势中,将隐私计算(其称为隐私增强计算)列为未来几年科技发展的九大趋势**之一。 (数据流通需求推动隐私计算势头火热) 但仍存在诸多阻碍。2021年被称为隐私计算的元年,这门技术是门综合性非常强的领域,涉及到众多方向,比如密码学、数学、大
2022-02-04 11:28:27
6068
原创 深度学习框架TensorFlow系列之(五)优化器2
1 背景梯度下降算法是目前最流行的优化算法之一,并且被用来优化神经网络的模型。业界知名的深度学习框架TensorFlow、Caffe等均包含了各种关于梯度下降优化算法的实现。然而这些优化算法经常被用作黑盒优化器,造成对这些算法的优缺点以及适用场景没有一个全面而深刻的认知,可能造成无法在特定的场景使用最优解。这篇文章主要对各种梯度下降优化算法进行全面成体系的分析,帮助相关的算法开发人员在模型开发的过程中选取合适的算法。相对来说,这块内容较多会分成几个章节进行,以下是章节情况,本章会介绍模型训练的相关难题
2022-01-30 10:04:14
1725
原创 隐私计算秘密学-秘密分享
1 背景最近几年,基于法律法规对于用户隐私的立法以及用户对于隐私的认知增强,对于数据的“采 传 存 算的模式”都提出了巨大的考验与挑战,甚至以往的数据运作模式都存在被颠覆的可能,需要相应的前瞻性布局,因此这几年隐私计算技术的发展如火如荼,各大公司争相投入重兵。在欧洲,2016 年发布、2018 年开始强制执行的《通用数据保护条例》(General Data Protection Regulation, GDPR)涵盖范围广、保护要求严格,甫一推行就引发了科技公司的密切关注。美国统一法律委员会(UL
2022-01-29 09:29:24
1571
原创 精通C++之函数重载、隐藏与覆盖重写
1 函数重载、隐藏与覆盖重写对于C++函数而言,多个函数如果同名会有很多有意思的事情,从声明的作用域来看,在横向上同一个可访问作用域里面的同名函数可以进行重载;而纵向上作用域对于父子继承的派生类来说,同样的函数名称可以实现隐藏与覆盖。(如果基类成员函数是虚函数,可以基于虚函数实现多态,进行动态联编)下面就详细介绍下函数的重载、隐藏与覆盖重写。1 函数重载定义:C++规定在同一作用域中,例如一个类的成员函数之间,多个函数的名称相同,但是各个函数的形式参数(指参数的个数、类型或者顺序)不同时,构成.
2022-01-23 17:31:09
599
原创 深度学习框架TensorFlow系列之(五)优化器1
1 背景梯度下降算法是目前最流行的优化算法之一,并且被用来优化神经网络的模型。业界知名的深度学习框架TensorFlow、Caffe等均包含了各种关于梯度下降优化器的实现。然而这些优化器经常被用作黑盒使用,而无法对这些优化算法的优缺点以及适用场景没有一个全面而深刻的认知,可能造成无法在特定的场景使用最优解的情况。这篇文章主要对各种梯度下降优化算法进行全面成体系的分析,帮助相关的算法开发人员在模型开发的过程中选取合适的优化器。所以整个内容会比较多,将要分成几个章节进行分析,以下是初步的章节情况,本章会介绍
2022-01-23 00:38:51
1764
原创 深度学习框架TensorFlow之系列(三)张量相关操作
文章目录一 背景二 TensorFlow的数据载体1 Tensor2 SparseTensor三 Tensor与Embedding表1 tf.nn.embedding_lookup1.1 算子介绍1.2 算子应用1.2.1 代码真香1.2.2 计算机制2 tf.nn.embedding_lookup_sparse2.1 算子介绍2.2 算子应用2.2.1 代码真香2.2.2 计算机制四 其他一 背景水无常形,人无常势,事事如棋,一世如梦!猛然发现,最近好久没对深度学习框架方面的专栏进行更新了,既然立了
2022-01-23 00:38:12
902
原创 深度学习概述-非线性
文章目录一 背景二 线性与非线性模型1 线性模型2 非线性模型三 深度学习的非线性表达一 背景 近年来,伴随着大数据与大算力的突破性进展,基于深度学习的突破层出不穷,基于卷积的网络结构在图像领域大放异彩、基于时序的网络模型在搜广推被广泛使用,并且产生了巨大的经济与体验效益,深受广大算法从业者的偏爱。 那么什么是深度学习呢?深度学习为何会如此强悍呢? 引用维基百科对于深度学习的定义:通过多层非线性变换对高复杂性数据建模算法的合集。并且因为深层神经网络是实现“多层非线性变换”最常用的一种方法,所
2022-01-23 00:37:21
2586
原创 隐私计算之差分隐私-Laplace机制
1 背景在这个信息膨胀的大数据智能时代,如何安全获取与使用个人的相关数据,渐渐成为迫切需要解决的问题。基于大数据的人工智能应用层出不穷,每个人都感觉自己在被时刻的跟踪,感觉在整个网络面前没有丝毫的隐私。没有人希望自己连生个病、上个网或者买件衣服都会被人随意知晓,更别提手机里的若干自拍了。最开始的时候,人们对个人信息数据采用“匿名化“的方式进行使用,并且认为这样是安全与可靠的,很不幸,发生了几件重大的事件,给数据的安全使用敲响了警钟。20世纪最著名的用户隐私泄漏事件发生在美国马萨诸塞州。该州集团保险委
2022-01-23 00:35:09
2832
6
原创 图神经网络概述
文章目录一 什么是图神经网络1 神经网络的兴盛2 数据的异构性二 图神经网络1 图2 图神经网络综述2.1 图存储2.2 图嵌入2.3 图神经网络模型三 图卷积神经网络GCN参考文章一 什么是图神经网络我是蓝色1 神经网络的兴盛[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yEi1eJgt-1642334328286)(/Users/dubaokun/Desktop/1 work/1.历练成长/进步成长/图片/image-20220116180512436.png)]
2022-01-16 20:32:45
1527
原创 GRPC源码编译
一 GRPCGRPC 是一个高性能、开源、通用的RPC框架,由Google推出,基于HTTP2协议标准设计开发,默认采用Protocol Buffers数据序列化协议,支持多种开发语言。 gRPC提供了一种简单的方法来精确的定义服务,并且为客户端和服务端自动生成可靠的功能库。项目中需要使用GRPC,所以决定使用源码形式cmake进行安装,本来以为是挺简单的事情,结果忙活了半天,所以记录下相关的安装过程,防止以后再次编译的时候踩坑。二、GRPC源码和相关子模块首先,我们从github下载GRPC的源代
2022-01-05 21:24:26
2524
原创 联邦学习概要
蓦然回首,发现写了很多联邦学习方面的文章,但是没有写一篇联邦学习方面的介绍性的综述,所以写了这篇文章,从整体介绍下联邦学习的背景、联邦学习的简介、隐私保护技术与营销应用场景。▌联邦学习背景数据是AI的石油,加速了AI的高速发展,但是同时多维度高质量的数据是制约其进一步发展的瓶颈。由于用户隐私、商业机密、法律法规监管等原因,造成大量信息孤岛,导致各个组织与机构无法将原始数据整合在一起,进而联合训练训练一个效果更好的信息密度更大、能力更强的大模型,严重制约了AI的发展。 图1 数据孤岛▌.
2022-01-02 20:31:47
2070
原创 最优化原理与方法之(一)开篇
文章目录1 引言2 定义3 划分1 引言最优化理论与方法是一门应用性很强的年轻学科,本质上它是研究某些数学上定义的问题的最优解,即对于给出的实际问题,从众多的方案中选出最优方案。虽然最优化可以追溯到十分古老的求极值的问题。但是,它称为一门独立的学科是在十九世纪的40年代末,即在1947年Dantzig提出求解一般线性规划问题的单纯形法之后。现在,解线性规划、非线性规划、随机规划、非光滑规划、多目标规划等最优化问题的理论研究发展迅猛,新的方法不断出现,并且实际应用日新月异。尤其是在互联网软件技术的推动下
2021-12-11 10:08:39
2545
原创 隐私计算-密码学-同态加密
文章目录1 隐私计算综述2 隐私计算发展史3 加密技术概述4 同态加密的历史5 什么是同态加密6 同态加密的定义6.1 场景定义6.2 核心流程6.3 HE的分类7 同态加密库Paillier7.1 Paillier算法7.2 秘钥生成7.3 明文加密7.4 密文解密7.5 相关代码8 参考资料9 番外篇1 隐私计算综述近年来,随着大数据与人工智能的盛行,针对个人的个性化的推荐技术的不断发展,人们在享受便利的同时,也深深的感觉到无处不在的监控与监事,比如刚刚浏览了一个网站的商品,当去其他网站访问的时候
2021-12-08 08:41:23
3066
原创 联邦学习-安全树模型 SecureBoost之终章
文章目录1 联邦学习背景2 联邦学习的树模型方案3 认知方法论4 界定问题4.1 XGB推导回顾4.2 本质分析5 整体分析5.1 隐私加密5.2 哪里需要加密,如何加密6 全面分析6.1 全链路流程7 归纳推演8 参考资料9 番外篇1 联邦学习背景鉴于数据隐私的重要性,国内外对于数据的保护意识逐步加强。2018年欧盟发布了《通用数据保护条例》(GDPR),我国国家互联网信息办公室起草的《数据安全管理办法(征求意见稿)》因此数据在安全合规的前提下自由流动,成了大势所趋。这些法律法规的出台,不同程度的对人
2021-11-27 09:56:41
2991
3
原创 联邦学习-安全树模型 SecureBoost之XGBoost
文章目录1 联邦学习背景2 联邦学习树模型方案3 Ensemble Learning3.1 集成学习3.2 Bagging & Boosting3.2.1 Bagging (bootstrap aggregating)3.2.2 Boosting3.2.3 Bagging,Boosting二者之间的区别4 GBDT5 Xgboost7 参考资料9 精彩分享1 联邦学习背景鉴于数据隐私的重要性,国内外对于数据的保护意识逐步加强。2018年欧盟发布了《通用数据保护条例》(GDPR),我国国家互联网信
2021-11-24 20:14:03
2561
原创 # 联邦学习-安全树模型 SecureBoost之集成学习
文章目录1 联邦学习背景2 联邦学习树模型方案3 Ensemble Learning3.1 集成学习3.2 Bagging & Boosting3.2.1 Bagging (bootstrap aggregating)3.2.2 Boosting3.2.3 Bagging,Boosting二者之间的区别4 GBDT4.1 GDBT定义4.2 GBDT推导过程6 参考资料9 精彩分享1 联邦学习背景鉴于数据隐私的重要性,国内外对于数据的保护意识逐步加强。2018年欧盟发布了《通用数据保护条例》(G
2021-11-21 21:50:54
6608
原创 概率论与数理统计基础
@(概率论)文章目录前言数学期望定义离散型的定义连续型的定义例题定理推广例题性质例题方差定义离散型的方差公式连续型的方差公式公式及其证明定理标准化变量例题标准化变量(0-1)分布泊松分布均匀分布指数分布二项分布正态分布(高斯分布)切比雪夫不等式性质协方差及相关系数定义矩、协方差矩阵番外篇前言本文是概率论与数理统计的相关基础知识。正所谓万丈高楼平地起,所谓复杂皆出自简单,万事万物都是由最基础的原子构成。上一章介绍了随机变量的分布函数、分布律和概率密度,他们都能完整的描述随机变量,但在某些实际或理论
2021-11-20 11:57:23
5105
原创 差分隐私-Laplace实现
从差分隐私到联邦学习在计算性能与效果性能进行了一些平衡,所以很好的应用到了现实中的场景中。并且在近年内大放异彩。本文主要介绍差分隐私。
2021-11-19 10:28:03
4541
原创 梯度下降优化算法(一)
一 背景对于机器学习和深度学习较为熟悉的同学,应该大抵都听过这句话,机器学习=模型+策略+算法。其实笔者最开始学习的时候就基础过这个概念,但是这三个东西具体都是什么呢,也是经过一段时间才真正的领悟。模型:就是想要学习的函数、表达式或者是网络结构。策略:本质就是如何减少探索模型的推理值与实际值的Gap,包括训练数据、测试数据乃至未知数据。算法:本质就是通过优化算法减少上面介绍的推理值与实际值的Gap,通常是通过迭代式的渐进算法进行。梯度下降是优化神经网络和许多其他机器学习算法的首选方法,但是在
2021-11-07 17:42:46
1606
1
程序员的自我修炼
2017-09-06
hadoop实战
2016-05-11
mongodb权威指南
2015-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人