Chef_Chen-优快云博客

原创数据科学每日总结--Day26--数据挖掘

定义：在遗传算法中，交叉是用来模拟生物遗传过程中染色体之间基因组合的操作，目的是产生新的个体（下一代）。而一点交叉的具体做法是，在两个父代染色体的同一位置（交叉点）切开，然后交换切点后的基因段，从而生成两个新的子代。启发式与元启发式：GA/DE/PSO/SA/ACO 等，通过选择、交叉/变异、信息素、速度更新等逐步偏向更优区域。风险：过大像随机搜索，过小难以逃离局部最优风险：过大像随机搜索，过小难以逃离局部最优。并行化：批评估、种群算法天然并行（异步/岛模型），利用多核/GPU/集群。

2025-11-22 01:18:49 354

原创数据科学每日总结--Day25--区块链

在这个定义中，“最长链”指的是区块链中当前最长的、包含最多区块的链，而“诚实区块”则是指那些没有被篡改或非法创建的区块，它们遵循了区块链网络的规则和共识机制。在这个定义中，“最长链”指的是区块链中当前最长的、包含最多区块的链，而“诚实区块”则是指那些没有被篡改或非法创建的区块，它们遵循了区块链网络的规则和共识机制。定义：双重支付攻击指的是在一个去中心化的支付系统中，某一方在没有被发现的情况下，花费相同的数额的一笔支付，即从一个账户中多次支付出同一笔数字货币。如果有，就再次调用withdraw函数。

2025-11-21 02:32:40 524

原创数据科学每日总结--Day24--区块链

区块链的链增长指的是区块链网络中新区块产生的速度。这个过程是区块链技术中的核心机制之一，确保了网络的安全性和去中心化特性，也就意味着，区块链系统以大约每10分钟一个的速度不断生成新的区块，并将这些新区块按照时间顺序添加到区块链的末尾。定义：最长链协议是指在网络中的所有区块链中，节点始终将最长的链条视为有效的区块链，并在其上继续工作以延长该链条。增强区块链安全性：由于攻击者需要控制网络中超过50%的算力才能成功实施51%攻击等恶意行为，而最长链协议通过确保最长的区块链是安全的，从而增强了区块链的整体安全性。

2025-11-21 02:07:36 356

原创数据科学每日总结--Day23--数据结构

假设我们有一个任务：计算某个目录下所有文件的总大小。亦或者，任务是当一个函数执行中抛出异常时，系统需要找到最近的异常处理器来处理它。定义：是一种数据结构，遵循先进后出的原则，先进：最先进入的数据，位于底部；后出：最后进入的数据，最先被移除。异常抛出时，系统依次从栈顶“回退”到之前的调用位置（pop），直到找到匹配的 catch 处理块。如果遇到子目录，则将“子目录计算任务”压入调用栈，等它计算完成后再回到上一级。第一层任务只有在所有对应的子任务完成之后，才会继续执行。最后调用的子任务，最先执行完成并返回。

2025-11-19 00:42:49 245

原创数据科学每日总结--Day22--统计学

不直接依赖于单次划分（如一次训练集-测试集切分），而是多次抽样，避免评估结果过于依赖某个特定划分的偶然性。相比AIC，惩罚项由2k替换为kln(n)，当样本量较大时，惩罚力度要大得多。依次将其中一个折作为验证集，其余K-1折作为训练集，训练并评估模型。，，RSS是残差平方和，TSS是总平方和，但问题是增加自变量时，与一般的K折交叉验证一样分成K个折，特殊的是K = 样本量 N。用途：类似于AIC，但惩罚力度更大，更倾向于选择简单模型。是模型的最大似然估计值，k是模型的参数总数（包含截距）

2025-11-17 23:52:08 612

原创数据科学每日总结--Day21--统计学

定义：多元线性回归是一种统计方法，用来分析一个因变量与多个自变量之间的线性关系。one-hot Encoding：为每个类别生成一个新变量，类别取值为 0/1（类似虚拟变量）编码时必须避免虚拟变量陷阱，即避免完全多重共线性，通常会删除一个虚拟变量作为参照组。基础的多元线性回归并不总是适合问题，可以扩展为更灵活的模型来应对不同数据结构和问题。同方差性（Homoscedasticity）误差项的方差恒定，不随自变量变化。效果编码：用 -1/0/1 表示类别，便于系数解释为相对基准的偏差。

2025-11-16 21:32:42 308

原创数据科学每日总结--Day20--区块链

诚实的leader：在Streamlet中，一个诚实的leader是指在其负责的epoch内，它会按照协议规则提出一个新的区块，并诚实地与其他replica节点交互，以确保该区块能够被正确地公证和确认。区块提议与验证：领导者提出的区块需要满足一定的条件，即该区块必须是由具有提议权的领导者签名的，并且是在当前round中提出的。网络条件良好：良好的网络条件意味着这些诚实的leader提出的区块能够迅速地被其他replica节点接收到，并且这些节点之间的通信是可靠的，没有过多的延迟或丢包。

2025-11-15 23:34:58 1131

原创数据科学每日总结--Day19--数据库

在统计数据库中，即使用户访问的都是非敏感数据，也可能通过组合查询结果推断出敏感数据，例如：查询某部门平均工资，再查询该部门去掉某人后的平均工资，可能推断出某人的工资。定义：是负责数据库系统的规划、安装、配置、维护、优化和安全的专业人员，例如管理数据库系统的中央机构，超级用户或系统账户等，主要负责数据库安全，数据库设计、存储和兼容性组织，备份和恢复，性能调优和支持等。定义：是指保护数据库中数据，防止其被未经授权访问、泄露、篡改或破坏，从而保障数据的机密性、完整性和可用性。

2025-11-15 00:07:33 400

原创数据科学每日总结--Day18--数据库

规则描述：如果一个老事务（TS 小）请求资源，且该资源被一个更年轻事务（TS 大）占有，那么老事务可以等待；SQL Server：定期检测，回滚“死锁牺牲者”事务（在数据库中，如果检测到事务出现死锁，那么必须通过终止至少一个事务来打破循环等待，让其他事务继续执行，被选择回滚的事务就叫做“死锁牺牲者”）。总结下来，等待-死亡规则是让老事务等待，让年轻事务频繁回滚或中断，而伤口等待规则则是老事务强势，让年轻事务被迫等待。如果一个年轻事务请求资源，且该资源被一个更老事务占有，年轻事务等待。

2025-11-13 22:25:42 567

原创数据科学每日总结--Day17--区块链

虽然Safety是一种概率性的保证，并且依赖于网络的同步性，但这两个概念共同确保了区块链网络的稳定性和安全性。Streamlet和HotStuff是与BFT紧密相关的两种协议，而设置通常涉及到一个固定数量的参与者，这些参与者的身份对于所有节点来说都是已知的，并且它们之间通过签名进行身份验证。固定数量的参与者：在BFT协议中，参与者的数量是固定的。当一个新块获得了足够的投票（即达到了某个预定的阈值，这个阈值通常是根据网络中节点的总数和拜占庭容错能力来确定的），它就被认为是“公证”的或“确认”的。

2025-11-12 23:05:08 683

原创数据科学每日总结--Day16--数据库

通用性 Key-Value 存取性能不错（因为可以直接用 _id 做主键索引，查找相当快），在一定程度上能替代键值数据库做缓存或快速检索；支持图查询插件，也能做简单的图遍历（但肯定不如真正的图数据库 Neo4j 专业）文档存储数据以 BSON（二进制 JSON）格式保存，可以支持更复杂的数据结构，例如嵌套对象和数组。查询能力强虽然是 NoSQL，但它的查询表达式功能很强大，甚至有聚合管道实现复杂的数据处理。概念：是一种NOSQL数据库，以JSON类似的文档来存储数据，而不是表和行。

2025-11-11 23:20:41 170

原创数据科学每日总结--Day15--统计学

是配对样本 t 检验的非参数替代方案，适用于数据不满足正态分布假设，或者样本量较小的情况。它不要求数据满足正态分布，也不要求方差相等，比传统的独立样本 t 检验更适用于偏态分布或含有异常值的场景。,其中n1,n2分别是样本1和样本2的大小，R1、R2分别是两个样本的秩和 5.选择较小的U值作为检验统计量 6.根据 U 值查表或计算 p 值，判断是否拒绝零假设。，其中k是组数，ni是第i组的样本数，Ri是第i组的秩和，N是总样本数。计算秩和分别求正差的秩和 T+ 和负差的秩和 T−。

2025-11-11 00:44:35 395

原创数据科学每日总结--Day14--数据挖掘

近似与启发式：首次适应（First Fit）、最佳适应（Best Fit）、最差适应（Worst Fit）、递归分组（Next Fit）、贪心法、遗传算法（GA）、模拟退火（SA）、蚁群算法（ACO）、粒子群优化（PSO）、禁忌搜索（TabuSearch）、局部搜索等。近似与启发式：贪心法（适用于分数背包）、遗传算法（GA）、模拟退火（SA）、蚁群算法（ACO）、粒子群优化（PSO）、禁忌搜索（TabuSearch）、局部搜索等。精确算法：动态规划（0-1背包、完全背包）、分支定界、整数规划。

2025-11-10 00:54:20 511 1

原创数据科学每日总结--Day13--数据挖掘

作用：将回归问题转化为分类问题（通过离散化目标变量），再用分类器预测，最后将分类结果映射回数值。作用：集成方法，通过对数据多次有放回采样，训练多个模型，最终结果取平均（回归）或投票（分类）。作用：集成和预处理结合，先对数据做过滤（如特征选择、变换），再用可随机化的分类器训练。作用：K近邻算法（KNN），预测时查找最近的K个样本，取平均（回归）或投票（分类）。作用：局部加权学习，每次预测时在邻域内训练一个模型（如线性回归），用加权方式预测。作用：集成方法，训练多个基础模型（通常是随机树），结果取平均。

2025-11-07 23:28:13 1021 1

原创数据科学每日总结--Day12--数据库

定义：指在并发事务执行过程中，如果一个事务因为某种原因（如违反约束、死锁等）被回滚，而该事务所做的修改已经被其他未提交的事务读取或依赖，那么这些依赖的事务也必须回滚，以保证数据库的一致性。概念：指在事务执行过程中，由于某些原因（如操作失败、违反约束、系统异常或人为干预），撤销当前事务已执行的所有操作，使数据库恢复到事务开始之前的状态。并发控制执行：并发控制方法可能会决定中止事务，稍后重新启动，因为它违反了可序列化性，或者因为多个事务处于死锁状态。定义：指允许事务读取其他未提交事务的数据的调度方式。

2025-11-07 00:59:21 237

原创数据科学每日总结--Day11--区块链

共识流程： HotStuff的基础共识流程围绕一个核心的三轮共识投票展开，且在每个视图内，都有一个唯一的主节点负责打包区块、收集和转发消息并生成仲裁证书（Quorum Certificate, QC）。例如，如果系统对安全性要求较高，可能需要设置较小的𝑚值和较大的𝑘值，以确保在较少恶意节点存在时也能提供强有力的责任证明。概念：HotStuff是一个建立在部分同步模型（partial synchrony model）上的BFT协议，它以其线性的通信复杂度和响应性而著称，并被用作多个区块链的共识引擎。

2025-11-05 23:43:13 1032

原创数据科学每日总结--Day10--数据库

一个调度是冲突可串行化的，指的就是它可以通过交换非冲突操作的顺序，变换成某个串行调度（即所有事务一个一个顺序执行），且结果一致。一般来说，判断的依据是将所有的冲突指出来，并且写下事务之间的依赖关系，如果事务的依赖关系形成了一个环，即A依赖于B，C依赖于A，B依赖于C，则证明不是冲突可串行化的。比如，事务T1的某个操作必须在事务T2的某个操作之前执行，否则会影响结果，这就是依赖关系。在事务调度中，冲突指的是两个操作（通常属于不同事务）在同一个数据项上，且至少有一个是写操作时，它们的执行顺序会影响最终结果。

2025-11-04 23:17:00 230

原创数据科学每日总结--Day9--数据库

想象一下我们的NOSQL是病人的病历数据，有一个检查结果，以列表的形式存储数据，而每个存储的元素又是一个字典，包括检查类型、时间、结果等；在学习开发NOSQL的过程中，相比传统关系型数据库有多表关系和复杂的事务需要梳理，这类要存储各种各样复杂的信息的场景，就需要用一个好的工具，而MongoDB数据库就能很好地满足这个需求。更重要的是，MongoDB还有compass这类gui工具，能够更方便操作插入的各种表，尤其是在嵌套了各种子结构的情况下，能够很好地管理数据。支持丰富的查询和聚合功能。

2025-11-04 00:25:22 323

原创数据科学每日总结--Day8--数据挖掘

随着时间推移，优秀路径上的信息素不断增强，劣质路径上的信息素逐渐挥发，最终蚂蚁群体能够找到最优或近似最优的路径。核心原理是维护一个由多个候选解组成的种群，通过选择、变异、交叉等操作不断产生新一代候选解，通过评估优劣，逐代保留更优的，最终找到或逼近最优解。增强（蚂蚁完成路径后，根据路径优劣（如路径长度），在所经过的路径上增加信息素，优秀路径信息素增加更多）它通过种群进化的方式，逐步寻找问题的最优解。迭代：重复上述过程，经过多代蚂蚁的协作，信息素分布逐渐集中在最优或近似最优路径上。

2025-11-02 23:17:05 517

原创数据科学每日总结--Day7--数据库

种类：强实体集（具有主键，可以独立存在，比如学生、教师、课程等），弱实体集（没有足够的属性来唯一标识自身，必须依赖其他实体集（拥有实体集）来做唯一标识，比如订单明细，部门中的种类）二元、三元、四元：代表着两个、三个、四个实体集之间的关系，比如学生与课程之间的选修关系（一个学生选修一门课程）、医生、病人、药品之间的“开药”关系（某医生给某病人开某种药）、项目、员工、角色、时间之间的“参与”关系（某员工以某角色在某时间参与某项目）影响数据库的性能和存储效率。主要关注数据的实体、属性、实体之间的关系等。

2025-10-30 18:13:34 395

原创数据科学每日总结--Day6--智能体开发入门

在现在这个时代，在有关智能体模块，对于开发人员的代码能力要求越来越低，相反，只要我们了解了智能体的有关概念以及创建流程，我们就能通过一些平台的工具来进行智能体的开发与管理。添加工作流（把多个功能节点（如获取数据、调用智能体、发送消息等）按照一定逻辑串联起来，让系统自动完成一系列动作，无需人工干预），设置好功能，并按需添加大模型，插件等。coze是一个低代码要求，甚至可以无代码要求的智能体平台，能够帮助用户快速搭建、部署和运营各种类型的智能体。根据需求设置智能体的提示词，描述智能体的角色、语气、服务范围等。

2025-10-29 01:02:04 310

原创数据科学每日总结--Day5--统计学

在现实生活中，估算样本集的均值和方差的问题经常能看到，例如教学评估，产品抽样，医学研究等。用途：统计推断（在实际问题中，很多总体分布未知，但可以通过样本均值近似为正态分布，进行参数估计和假设检验）；t是随机变量，代表样本均值与总体均值之间的标准化距离，是为了衡量样本均值与总体均值的偏离程度，用于查找概率或临界值，决定是否拒绝原假设。原理：假设有一个总体，其均值为μ，方差为σ²，从中随机抽取n个样本，计算样本均值。原理：描述了当总体方差未知，用样本方差估计总体方差时，样本均值的标准化分布，计算公式是。

2025-10-28 01:45:28 523

原创数据科学每日总结--Day4--数据挖掘

原理：集成大量决策树，每棵树都在不同的自助采样子集上训练，并且在每个节点分裂时，随机选择部分特征进行分裂（增加多样性），最终通过投票（分类）或平均（回归）融合所有树的结果。计算弱分类器的错误率：用弱分类器对所有样本进行预测，统计哪些样本被分错了，错误率是“被分错的样本权重之和”，因为要让难分的样本权重变大，让下一个分类器更关注这些样本。原理：通过串行训练（每一轮训练都关注前一轮模型预测错误的样本，提升这些样本的权重），从而让后续模型更关注难以预测的样本，最终将所有模型加权融合，形成强学习器。

2025-10-25 00:23:07 323

原创数据科学每日总结--Day3--数据库与模型应用

假如表里是学号，班级号，班主任，班主任依赖于班级号，班级号依赖于学号，班主任对学号是传递依赖，那就不符合3NF，拆分为学号和班级号，班级号和班主任，就符合3NF了，关键就在于消除非主属性的依赖关系。假设主键是（学号，课程号），成绩依赖于主键，但学生姓名只依赖于学号，不依赖于课程号，就不是2NF，如果要符合2NF，就要把表拆开，即学号和学生姓名一张表，主要就是消除对主键部分依赖的非主属性。BCNF:在满足3NF的基础上，任何非平凡的函数依赖X→Y中，X都必须是超键（即唯一标识一行的属性组）。

2025-10-24 01:10:29 373

原创数据科学每日总结--Day2--区块链与模型了解

核心：中继链/中继桥（如Polkadot的中继链、Cosmos的IBC协议）；分离网络：通常采用深度卷积堆叠的时序卷积网络（TCN），对编码后的特征进行处理，输出每个声源的掩码（mask），TCN结构能有效建模长距离时序依赖，适合音频信号。与传统方法在频域操作（先将音频信号变换到频谱，再做分离）不同，该模型直接在时域（原始波形）上进行分离，避免了频域变换带来的信息损失和延迟。概念：将区块链的不同功能（如执行、共识、数据可用性、结算等）分离到不同模块或层级的架构设计，通过分工协作提升整体性能和灵活性。

2025-10-22 23:42:55 595 1

空空如也

空空如也