自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Python领域优质萌新学习笔记

技术小白的自我修养

  • 博客(472)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 一文搞懂:如何在深度学习中使用GPU和cuda加速

接下来,我们使用 x.tolist() 方法将 x 转换为Python列表并将其添加到 result 中,或者使用 x.cpu().numpy() 方法将 x 转换为CPU上的NumPy数组,然后将该数组添加到 result 中。不是的,len(Xdata)并不在GPU上。要在GPU上创建一个列表,并将张量对象添加到该列表中,可以使用PyTorch的torch.Tensor.tolist()方法或者torch.Tensor.cpu().numpy()方法先将张量转换为NumPy数组,再将数组添加到列表中。

2023-12-02 10:17:42 8436 2

原创 菜鸟学Java public static void main(String[] args) 是什么意思?

包名的层数没有硬性的限制要求,你可以根据需要组织包的层次结构。一般来说,官方网站或文档会提供相应的版本兼容性信息,你可以参考这些信息选择适合你的项目的版本。而对于第三方库和框架包,你需要下载相应的库文件,并在项目中进行配置和引用,以便使用其功能。方法中使用其他类型的参数,你可以将命令行传入的字符串参数解析为你需要的类型。),包含了方法要执行的代码块。在这个例子中,方法体内部没有给出具体的代码,你可以在这个代码块中添加你要执行的操作。对于包的层数并没有硬性的限制要求,你可以根据自己的需要来组织包的层次结构。

2023-06-25 17:16:31 28153 7

原创 联邦学习算法介绍-FedAvg详细案例-Python代码获取

在DP-FedSGD中,被选中的参与方使用全局模型参数对局部模型进行初始化,通过批梯度下降法进行多轮梯度下降,计算梯度更新量。而在DP-FedAVG中,是利用一个批次的数据进行一次梯度下降,计算梯度更新量。由服务端收集各客户端的梯度信息,通过聚合计算后再分发给各客户端,从而实现多个客户端联合训练模型,且“原始数据不出岛”,从而保护了客户端数据隐私。假设中心方是好奇的,那么客户端通过某种规则向其他客户端广播梯度信息,收到梯度信息的客户端聚合参数并训练,将新的梯度信息广播。面向神经网络模型, 假设网络总共有。

2023-03-12 10:36:34 24791 173

原创 MySQL 案例-教学管理信息系统

MySQL简单案例,通过构建数据库、建立表格,以及约束。向表格中插入值等操作。

2023-03-11 20:04:16 8079 4

原创 知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

你好!这是一款实体关系联合标注的本地小程序,以Python3Python3Python3实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用PythonPythonPython编程实现可视化界面和主要功能,利用HTMLHTMLHTML和CSSCSSCSS提示标注教程与规范(无需关心它们如何实现)。利用本系统进行文本标注将原始段落文本更新为带有事先定义的命名实体、关系或属性的文本标签数据。

2022-10-31 15:44:50 8248 98

原创 python爬虫技术实例详解及数据可视化库

前言在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。面对大量数据,人工获取信息的成本高、耗时长、效率低,是否能用代码去完成大量复杂的工作,从而从网络上获取到目标信息?由此,网络爬虫技术应运而生。网络爬虫简介网络爬虫(web crawler,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证...

2020-02-24 11:58:56 7817 8

原创 【差分隐私相关概念】采样与聚合框架

采样与聚合的核心逻辑通过随机采样稀释个体影响,聚合函数提升结果鲁棒性,平滑敏感度减少噪声。关键优势实例特定性:仅需当前数据库满足条件。算法通用性:适用于黑盒函数,无需预分解。应用场景数据分离性好的聚类、参数学习任务(如高斯混合模型)。对比前人工作比 Dwork 的方法更灵活,比 Blum 的框架更通用且提供近似保证。示例思考如果数据分布不满足良好分离性(如簇重叠严重),采样与聚合框架是否仍然有效?此时子样本的局部结果可能不一致,聚合后噪声需增大以掩盖不确定性,导致实用性下降。

2025-03-31 15:51:32 598

原创 【差分隐私相关概念】为什么平滑敏感度的计算需要考虑 y ≠ x 的情况?

平滑敏感度必须通过 max 形式计算,因为某些远距离数据集 y 的局部敏感度可能极高,其加权后的贡献会超过 y = x 的情况。实际中 y = x 通常是最大贡献者,但数学定义需覆盖所有可能性以确保隐私保护。核心逻辑:差分隐私要求防御最坏情况,而 max 形式是达到这一目标的必要工具。

2025-03-31 15:41:58 361

原创 【差分隐私相关概念】什么是局部差分隐私中的“当前实际数据集”?

针对函数。

2025-03-31 14:51:53 592

原创 【差分隐私相关概念】瓦瑟斯坦距离(Wasserstein Distance)

设两个概率分布。

2025-03-31 12:03:19 502

原创 【差分隐私相关概念】结合平滑技术的局部敏感度与全局敏感度的关系

定义:所有相邻数据集对中,函数输出的最大差异。

2025-03-31 11:53:59 568

原创 【差分隐私相关概念】局部敏感度和平滑敏感度

对于任意函数fD→RdfD→RdΔfmax⁡DD′相邻∥fD−fD′∥1\Delta f = \max_{D, D' \text{相邻}} \| f(D) - f(D') \|_1ΔfDD′相邻max​∥fD−fD′∥1​其中,“相邻数据集”DDD和D′D'D′相差一条记录。特点与具体数据集无关,仅取决于函数fff的性质。用于校准拉普拉斯噪声(如LaplaceΔfϵLaplaceΔ。

2025-03-31 10:43:07 945

原创 【差分隐私相关概念】0均值噪声扰动真值,那么多次重复查询是否得到真值的无偏估计?

从统计角度,多次查询取均值是对真实值的无偏估计,但实际应用中需谨慎管理隐私预算,避免过度消耗。那么既然多次查询能得到一个问题的“无偏结果”,那我对多个问题进行多次问询,是不是就可以得到多个问题的无偏结果,那这样是不是就可以进行差分攻击了?尽管多次查询的均值是无偏的,但隐私预算的限制和噪声方差的增长会使得攻击者无法有效利用无偏性进行差分攻击。对每个问题的多次查询取均值确实会得到真实值的无偏估计,但这仅从统计学角度成立,与隐私保护无关。),这会增大单次噪声的方差,导致均值的总方差上升(尽管仍保持无偏性)。

2025-03-31 10:37:43 994

原创 【差分隐私相关概念】差分隐私中的稀疏向量技术

稀疏向量技术通过选择性加噪,在保护隐私的同时高效处理稀疏高影响查询。其核心在于噪声阈值和查询结果的联合优化,适用于大规模数据分析中需要筛选关键信号的场景。实际应用中需谨慎选择阈值和隐私预算分配,并结合后处理技术提升数据效用。

2025-03-30 20:33:08 754

原创 【差分隐私相关概念】数据立方体(Data Cube)

如何在保护隐私的前提下,安全地发布数据立方体(Data Cube)中的多维聚合信息。通过引入差分隐私(Differential Privacy, DP),作者提出了一种优化方法,以在保证隐私的同时最大化数据效用。数据立方体是支持多维分析的核心工具,但直接发布其聚合结果会导致隐私泄露。差分隐私通过噪声注入提供可证明的隐私保护,但需优化噪声分配策略。本文贡献:提出高效的初始方体选择算法,平衡隐私、效用和计算复杂度,并通过一致性后处理提升数据质量。实际意义。

2025-03-30 17:05:37 854

原创 【差分隐私相关概念】交叉分箱(与列联表类似)

但需要将多个维度的组合视为独立的“交叉分箱”(Cross Bins)。然而,随着维度增加,分箱数量会指数级增长(称为“维度灾难”),这会带来噪声累积和数据稀疏性问题。通过合理的设计,即使在高维场景下,也能生成既满足差分隐私又具备分析价值的合成数据。直方图不仅限于单一维度,

2025-03-30 14:33:11 903

原创 【差分隐私相关概念】单纯形与格点

在差分隐私中,理解“单纯形”(simplex)和“格点”(lattice points)的数学概念对掌握直方图发布机制至关重要。

2025-03-30 14:12:55 338

原创 【差分隐私相关概念】非交互式差分隐私(Noninteractive Differential Privacy)

非交互式差分隐私通过一次性发布处理后的数据(直方图或合成数据集),解决了交互式方法中多次查询导致隐私预算耗尽的问题。其核心发布内容是经过噪声处理的统计信息或虚拟数据,既保护了个体隐私,又保留了数据的宏观分析价值。尽管面临高维数据下的效用挑战,但在低维或结构化场景中,它仍是高效且安全的解决方案。

2025-03-30 14:04:41 320

原创 【答案】第1到6章练习题答案-High-Dimensional Probability An Introduction with Applications in Data Science

学习笔记:https://warwick.ac.uk/fac/sci/maths/people/staff/stefan_adams/high-dimensional_probability_ma3k0-notes.pdf。书名:High-Dimensional Probability An Introduction with Applications in Data Science(高维概率及其在数据科学中的应用)作者:Roman Vershynin。:第1到6章练习题答案-

2025-03-28 21:26:31 208

原创 【差分隐私相关概念】如果没有引入对偶变量?

对偶变量是增广拉格朗日方法和ADMM算法的核心组成部分,其动态调整机制确保了约束的有效满足和问题的高效分解。若省略对偶变量,无法保证目标函数下降和约束满足之间的平衡,可能导致震荡或发散。在增广拉格朗日方法(尤其是ADMM框架)中,对偶变量是协调约束与目标函数的核心机制。ADMM的优势之一是许多子问题有闭式解(如软阈值、投影操作),计算高效。对偶变量通过迭代更新,动态调整惩罚项的“拉力”,强制解逐步满足约束。对偶变量通过独立调整各约束的惩罚权重,协调冲突。固定时,解无法收敛到1。的约束,无法独立求解。

2025-03-25 15:05:18 629

原创 【差分隐私相关概念】增广拉格朗日方法中对偶变量更新的原理

KKT条件是一组。

2025-03-25 15:04:26 552

原创 【差分隐私相关概念】增广拉格朗日方法中对偶变量更新的原理

KKT条件是一组。

2025-03-25 14:40:30 661

原创 【差分隐私相关概念】拉格朗日与增广拉格朗日的区别

增广拉格朗日方法通过结合拉格朗日乘子和二次惩罚项,有效平衡了约束满足和优化目标的权衡。

2025-03-25 14:27:59 933

原创 【差分隐私相关概念】一个问题的对偶转换

ADMM(交替方向乘子法)适用于可分解的优化问题,通过引入辅助变量将复杂约束拆解为多个简单子问题。原始问题(7)包含L1目标函数、线性等式约束和非负约束,直接求解可能困难。通过变量分裂和约束重写,将其转化为ADMM友好的形式(8)。

2025-03-24 22:16:03 902

原创 【差分隐私相关概念】最大化似然函数就是最小化L1范数

需通过优化问题修正。结果非负,可直接接受。仍为非负,无需优化。

2025-03-24 21:41:55 978

原创 【差分隐私相关概念】约束下的矩阵机制

对线性查询进行组合,优化噪声添加和结果重构的准确性。以下分步骤解释其原理及示例。矩阵机制是差分隐私中一种高效的数据发布方法,通过设计策略矩阵。:通过矩阵设计平衡隐私与准确性,适用于复杂查询和高维数据发布。:策略矩阵的敏感度计算、噪声分布分析及带约束优化求解。

2025-03-24 21:19:53 976

原创 【差分隐私相关概念】约束下的列联表边缘分布计算方法

是通过对某些属性求和得到的简化分布。其目的是观察部分属性的联合频次。其核心是通过多维数组记录不同属性组合的频次。,后处理的目标是找到一个修正后的表。的所有单元格的频次相加。可以表示为列联表向量。时,对所有其他属性(

2025-03-24 21:07:52 817

原创 【差分隐私相关概念】约束下的直方图的树结构表示及具体案例解释

直方图的树结构表示通过层次化组织数据,将基本单位区间聚合为更大的区间,并通过约束条件保证数据一致性。这种表示在差分隐私、数据发布等领域具有重要应用,能够有效处理噪声数据,同时保持自然的数据层次关系。,将直方图的原始区间(叶节点)逐步聚合为更大的区间(父节点),形成一棵完整的。将树节点存储为向量,便于线性约束的表示和计算。找到满足约束且接近噪声数据的新向量。直方图的树结构表示是一种。

2025-03-24 20:57:33 1022

原创 【中文翻译】第13章(含附录)-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf差分隐私的设计初衷是针对互联网规模的数据集。类似于第8节中的重建攻击可以由一个多项式时间有界的对手在大小为nnn的数据库上仅询问O(n)O\left( n\right)O(n)个查询来实施。当nnn达到数亿级别,并且每个查询需要线性量级的计算时,即使查询可以并行化,这样的攻击也是不现实的。这一观察促成了差分隐私的早期发展:如果对手被限制在亚线性数量的计数查询范围内,那么每个查询添加o

2025-03-24 11:32:45 951

原创 动手学差分隐私-Programming Differential Privacy(包含 中文、英文、代码下载地址)

动手学差分隐私(Programming Differential Privacy)一本面向开发者的差分隐私书籍。

2025-03-24 11:32:31 460

原创 【中文翻译】第12章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf到目前为止,我们对私有数据分析模型做了一些隐含的假设。例如,我们假设存在某个可信的数据管理者可以直接访问私有数据集,并且我们假设攻击者只能访问算法的输出,而无法访问算法执行过程中的任何内部状态。但如果情况并非如此呢?如果我们不信任任何人查看我们的数据,甚至不信任他们进行隐私保护的数据分析呢?如果某个黑客可能在私有算法运行时访问其内部状态呢?在本节中,我们放宽之前的一些假设并考虑这些问

2025-03-23 16:07:31 670

原创 【中文翻译】第11章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf数据分析中最有用的任务之一是机器学习:自动找到一个简单规则以准确预测从未见过的数据的某些未知特征的问题。许多机器学习任务可以在差分隐私的约束下执行。事实上,隐私约束不一定与机器学习的目标相冲突,两者都旨在从数据所来自的分布中提取信息,而不是从单个数据点中提取。在本节中,我们将概述一些关于隐私机器学习的最基本结果,而不试图全面涵盖这个广阔的领域。机器学习的目标通常与隐私数据分析的目标相

2025-03-23 16:02:04 861

原创 【中文翻译】第10章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf博弈论中最引人入胜的领域之一是机制设计(mechanism design),它是一门设计激励措施以促使人们按你期望的方式行事的科学。差分隐私已被证明在几个意想不到的方面与机制设计有着有趣的联系。它提供了一种量化和控制隐私损失的工具,如果机制设计者试图操纵的人关心隐私,这一点很重要。然而,它还提供了一种限制机制结果对任何单个个体选择的敏感性的方法,事实证明,即使在没有隐私问题的情况下,

2025-03-23 15:58:33 815

原创 【中文翻译】第9章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf到目前为止,我们对差分隐私的讨论忽略了计算复杂度问题,允许数据管理者和攻击者的计算能力不受限制。实际上,数据管理者和攻击者的计算能力可能都是受限的。将我们自己限制在计算能力受限的数据管理者范围内,会限制数据管理者的操作,使得实现差分隐私变得更加困难。实际上,我们将展示一类计数查询的示例,在标准的复杂度理论假设下,即使已知低效算法,如SmallDB和私有乘法权重算法,也无法高效生成合成

2025-03-23 15:52:55 689

原创 【中文翻译】第8章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf在本节中,我们将研究各种下界和权衡问题:为了不完全破坏任何合理的隐私概念,响应必须达到多大的不准确性?前一个问题的答案如何依赖于查询的数量?我们能否在每种差分隐私所允许的准确性方面,将 (ε,0)\left( {\varepsilon ,0}\right)(ε,0) -差分隐私与 (ε,δ)\left( {\varepsilon ,\delta }\right)(ε,δ) -差分隐私

2025-03-23 15:48:44 812

原创 【中文翻译】第7章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf在本节中,我们简要描述两种通用技术,它们都能提供无条件的隐私保证,通常可以让数据分析师的工作更轻松,尤其是在处理具有任意或难以分析的最坏情况敏感度的函数时。当分析师由于某些外部原因有理由相信某些函数在实际应用中“通常”不敏感时,这些算法在计算这些函数时最为有用。子采样与聚合(Subsample and Aggregate)技术产生了一种“强制”计算函数f(x)f\left( x\ri

2025-03-23 15:45:05 742

原创 【中文翻译】第6章(1/2)-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf在前面的章节中,我们专注于私有查询发布问题,在该问题中,我们坚持对所有查询的最坏情况误差进行界定。如果我们改为仅要求在给定查询的某种分布下平均误差较低,我们的问题会更容易解决吗?在本节中,我们会发现答案是否定的:给定一个能够在查询的任何分布下以较低平均误差解决查询发布问题的机制,我们可以将其“提升”为一个能够解决查询发布问题并达到最坏情况误差的机制。这既揭示了私有查询发布的难度,也为

2025-03-23 15:37:34 611

原创 【中文翻译】第6章(2/2)-The Algorithmic Foundations of Differential Privacy

由于GitHub项目仅翻译到前5章,我们从第6章开始通过大语言模型翻译,并导出markdown格式。大模型难免存在错漏,请读者指正。教材。

2025-03-23 15:37:09 541

原创 【中文翻译】第5章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf中文翻译版 Github 项目地址1:https://github.com/guoJohnny/algorithmic-foundation-of-dp-zh-cn中文翻译版 Github 项目地址2:https://github.com/doubleheiker/algorithmic-foundation-of-dp-zh-cn在本章中,我们泛化了上一节的查询发布算法。结果,我们

2025-03-23 14:59:08 1426

原创 【中文翻译】第4章-The Algorithmic Foundations of Differential Privacy

教材原文地址:https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf中文翻译版 Github 项目地址1:https://github.com/guoJohnny/algorithmic-foundation-of-dp-zh-cn中文翻译版 Github 项目地址2:https://github.com/doubleheiker/algorithmic-foundation-of-dp-zh-cn隐私数据分析中最基本的原语之一就是能够回答对数据集的

2025-03-23 14:41:49 978

好好画词云图,完整项目数据和代码

博主拿出压箱底的优质代码,和小伙伴们一起品鉴! - 画出词云图 - 指定词云图形状 - 多个文本批量生成多张词云图 - 加词库,添加所有感兴趣的词语 - 停词库,筛选掉所有不感兴趣的词语,融合了四个国内主流停词库(`7352个停词`) - 忽略单个字符 - 控制图片大小、颜色、字体与频率大小 - 自动保存高分辨率词云图到本地

2023-04-07

亚马逊的评论数据集(3.6M的文本评论内容及其标签)

亚马逊的评论数据集(3.6M的文本评论内容及其标签)

2023-03-26

知识图谱-命名实体-关系-免费标注工具-快速打标签-Python3

这是一款实体关系联合标注的本地小程序,以Python3实现。本系统是一种标注文本语料中命名实体与关系或属性的半自动化软件系统,应用Python编程实现可视化界面和主要功能.

2022-10-31

方差分析chenyi.py

博主课程作业,自定义模块,实现多种情况方差分析

2021-12-12

采集到的重庆二手房重庆房地产数据.xlsx

重庆市各个区县房价户型等原始数据xlsx表格

2021-04-09

深圳二手房交易信息.csv

网络爬虫采集

2021-04-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除