- 博客(151)
- 收藏
- 关注
原创 数据科学每日总结--Day26--数据挖掘
定义:在遗传算法中,交叉是用来模拟生物遗传过程中染色体之间基因组合的操作,目的是产生新的个体(下一代)。而一点交叉的具体做法是,在两个父代染色体的同一位置(交叉点)切开,然后交换切点后的基因段,从而生成两个新的子代。启发式与元启发式:GA/DE/PSO/SA/ACO 等,通过选择、交叉/变异、信息素、速度更新等逐步偏向更优区域。风险:过大像随机搜索,过小难以逃离局部最优风险:过大像随机搜索,过小难以逃离局部最优。并行化:批评估、种群算法天然并行(异步/岛模型),利用多核/GPU/集群。
2025-11-22 01:18:49
354
原创 数据科学每日总结--Day25--区块链
在这个定义中,“最长链”指的是区块链中当前最长的、包含最多区块的链,而“诚实区块”则是指那些没有被篡改或非法创建的区块,它们遵循了区块链网络的规则和共识机制。在这个定义中,“最长链”指的是区块链中当前最长的、包含最多区块的链,而“诚实区块”则是指那些没有被篡改或非法创建的区块,它们遵循了区块链网络的规则和共识机制。定义:双重支付攻击指的是在一个去中心化的支付系统中,某一方在没有被发现的情况下,花费相同的数额的一笔支付,即从一个账户中多次支付出同一笔数字货币。如果有,就再次调用withdraw函数。
2025-11-21 02:32:40
524
原创 数据科学每日总结--Day24--区块链
区块链的链增长指的是区块链网络中新区块产生的速度。这个过程是区块链技术中的核心机制之一,确保了网络的安全性和去中心化特性,也就意味着,区块链系统以大约每10分钟一个的速度不断生成新的区块,并将这些新区块按照时间顺序添加到区块链的末尾。定义:最长链协议是指在网络中的所有区块链中,节点始终将最长的链条视为有效的区块链,并在其上继续工作以延长该链条。增强区块链安全性:由于攻击者需要控制网络中超过50%的算力才能成功实施51%攻击等恶意行为,而最长链协议通过确保最长的区块链是安全的,从而增强了区块链的整体安全性。
2025-11-21 02:07:36
356
原创 数据科学每日总结--Day23--数据结构
假设我们有一个任务:计算某个目录下所有文件的总大小。亦或者,任务是当一个函数执行中抛出异常时,系统需要找到最近的异常处理器来处理它。定义:是一种数据结构,遵循先进后出的原则,先进:最先进入的数据,位于底部;后出:最后进入的数据,最先被移除。异常抛出时,系统依次从栈顶“回退”到之前的调用位置(pop),直到找到匹配的 catch 处理块。如果遇到子目录,则将“子目录计算任务”压入调用栈,等它计算完成后再回到上一级。第一层任务只有在所有对应的子任务完成之后,才会继续执行。最后调用的子任务,最先执行完成并返回。
2025-11-19 00:42:49
245
原创 数据科学每日总结--Day22--统计学
不直接依赖于单次划分(如一次训练集-测试集切分),而是多次抽样,避免评估结果过于依赖某个特定划分的偶然性。相比AIC,惩罚项由2k替换为kln(n),当样本量较大时,惩罚力度要大得多。依次将其中一个折作为验证集,其余K-1折作为训练集,训练并评估模型。,,RSS是残差平方和,TSS是总平方和,但问题是增加自变量时,与一般的K折交叉验证一样分成K个折,特殊的是K = 样本量 N。用途:类似于AIC,但惩罚力度更大,更倾向于选择简单模型。是模型的最大似然估计值,k是模型的参数总数(包含截距)
2025-11-17 23:52:08
612
原创 数据科学每日总结--Day21--统计学
定义:多元线性回归是一种统计方法,用来分析一个因变量与多个自变量之间的线性关系。one-hot Encoding:为每个类别生成一个新变量,类别取值为 0/1(类似虚拟变量)编码时必须避免虚拟变量陷阱,即避免完全多重共线性,通常会删除一个虚拟变量作为参照组。基础的多元线性回归并不总是适合问题,可以扩展为更灵活的模型来应对不同数据结构和问题。同方差性(Homoscedasticity) 误差项的方差恒定,不随自变量变化。效果编码:用 -1/0/1 表示类别,便于系数解释为相对基准的偏差。
2025-11-16 21:32:42
308
原创 数据科学每日总结--Day20--区块链
诚实的leader:在Streamlet中,一个诚实的leader是指在其负责的epoch内,它会按照协议规则提出一个新的区块,并诚实地与其他replica节点交互,以确保该区块能够被正确地公证和确认。区块提议与验证:领导者提出的区块需要满足一定的条件,即该区块必须是由具有提议权的领导者签名的,并且是在当前round中提出的。网络条件良好:良好的网络条件意味着这些诚实的leader提出的区块能够迅速地被其他replica节点接收到,并且这些节点之间的通信是可靠的,没有过多的延迟或丢包。
2025-11-15 23:34:58
1131
原创 数据科学每日总结--Day19--数据库
在统计数据库中,即使用户访问的都是非敏感数据,也可能通过组合查询结果推断出敏感数据,例如:查询某部门平均工资,再查询该部门去掉某人后的平均工资,可能推断出某人的工资。定义:是负责数据库系统的规划、安装、配置、维护、优化和安全的专业人员,例如管理数据库系统的中央机构,超级用户或系统账户等,主要负责数据库安全,数据库设计、存储和兼容性组织,备份和恢复,性能调优和支持等。定义:是指保护数据库中数据,防止其被未经授权访问、泄露、篡改或破坏,从而保障数据的机密性、完整性和可用性。
2025-11-15 00:07:33
400
原创 数据科学每日总结--Day18--数据库
规则描述:如果一个 老事务(TS 小)请求资源,且该资源被一个 更年轻事务(TS 大)占有,那么老事务 可以等待;SQL Server:定期检测,回滚“死锁牺牲者”事务(在数据库中,如果检测到事务出现死锁,那么必须通过终止至少一个事务来打破循环等待,让其他事务继续执行,被选择回滚的事务就叫做“死锁牺牲者”)。总结下来,等待-死亡规则是让老事务等待,让年轻事务频繁回滚或中断,而伤口等待规则则是老事务强势,让年轻事务被迫等待。如果一个年轻事务请求资源,且该资源被一个更老事务占有,年轻事务等待。
2025-11-13 22:25:42
567
原创 数据科学每日总结--Day17--区块链
虽然Safety是一种概率性的保证,并且依赖于网络的同步性,但这两个概念共同确保了区块链网络的稳定性和安全性。Streamlet和HotStuff是与BFT紧密相关的两种协议,而设置通常涉及到一个固定数量的参与者,这些参与者的身份对于所有节点来说都是已知的,并且它们之间通过签名进行身份验证。固定数量的参与者:在BFT协议中,参与者的数量是固定的。当一个新块获得了足够的投票(即达到了某个预定的阈值,这个阈值通常是根据网络中节点的总数和拜占庭容错能力来确定的),它就被认为是“公证”的或“确认”的。
2025-11-12 23:05:08
682
原创 数据科学每日总结--Day16--数据库
通用性 Key-Value 存取性能不错(因为可以直接用 _id 做主键索引,查找相当快),在一 定程度上能替代键值数据库做缓存或快速检索;支持图查询插件,也能做简单的 图遍历(但肯定不如真正的图数据库 Neo4j 专业)文档存储 数据以 BSON(二进制 JSON)格式保存,可以支持更复杂的数据结构,例如嵌套对象 和数组。查询能力强 虽然是 NoSQL,但它的查询表达式功能很强大,甚至有聚合管道实现复杂的数据处 理。概念:是一种NOSQL数据库,以JSON类似的文档来存储数据,而不是表和行。
2025-11-11 23:20:41
170
原创 数据科学每日总结--Day15--统计学
是配对样本 t 检验的非参数替代方案,适用于数据不满足正态分布假设,或者样本量较小的情况。它不要求数据满足正态分布,也不要求方差相等,比传统的独立样本 t 检验更适用于偏态分布或含有异常值的场景。,其中n1,n2分别是样本1和样本2的大小,R1、R2分别是两个样本的秩和 5.选择较小的U值作为检验统计量 6.根据 U 值查表或计算 p 值,判断是否拒绝零假设。,其中k是组数,ni是第i组的样本数,Ri是第i组的秩和,N是总样本数。计算秩和 分别求正差的秩和 T+ 和负差的秩和 T−。
2025-11-11 00:44:35
395
原创 数据科学每日总结--Day14--数据挖掘
近似与启发式:首次适应(First Fit)、最佳适应(Best Fit)、最差适应(Worst Fit)、递归分组(Next Fit)、贪心法、遗传算法(GA)、模拟退火(SA)、蚁群算法(ACO)、粒子群优化(PSO)、禁忌搜索(TabuSearch)、局部搜索等。近似与启发式:贪心法(适用于分数背包)、遗传算法(GA)、模拟退火(SA)、蚁群算法(ACO)、粒子群优化(PSO)、禁忌搜索(TabuSearch)、局部搜索等。精确算法:动态规划(0-1背包、完全背包)、分支定界、整数规划。
2025-11-10 00:54:20
511
1
原创 数据科学每日总结--Day13--数据挖掘
作用:将回归问题转化为分类问题(通过离散化目标变量),再用分类器预测,最后将分类结果映射回数值。作用:集成方法,通过对数据多次有放回采样,训练多个模型,最终结果取平均(回归)或投票(分类)。作用:集成和预处理结合,先对数据做过滤(如特征选择、变换),再用可随机化的分类器训练。作用:K近邻算法(KNN),预测时查找最近的K个样本,取平均(回归)或投票(分类)。作用:局部加权学习,每次预测时在邻域内训练一个模型(如线性回归),用加权方式预测。作用:集成方法,训练多个基础模型(通常是随机树),结果取平均。
2025-11-07 23:28:13
1021
1
原创 数据科学每日总结--Day12--数据库
定义:指在并发事务执行过程中,如果一个事务因为某种原因(如违反约束、死锁等)被回滚,而该事务所做的修改已经被其他未提交的事务读取或依赖,那么这些依赖的事务也必须回滚,以保证数据库的一致性。概念:指在事务执行过程中,由于某些原因(如操作失败、违反约束、系统异常或人为干预),撤销当前事务已执行的所有操作,使数据库恢复到事务开始之前的状态。并发控制执行:并发控制方法可能会决定中止事务,稍后重新启动,因为它违反了可序列化性,或者因为多个事务处于死锁状态。定义:指允许事务读取其他未提交事务的数据的调度方式。
2025-11-07 00:59:21
237
原创 数据科学每日总结--Day11--区块链
共识流程: HotStuff的基础共识流程围绕一个核心的三轮共识投票展开,且在每个视图内,都有一个唯一的主节点负责打包区块、收集和转发消息并生成仲裁证书(Quorum Certificate, QC)。例如,如果系统对安全性要求较高,可能需要设置较小的𝑚值和较大的𝑘值,以确保在较少恶意节点存在时也能提供强有力的责任证明。概念:HotStuff是一个建立在部分同步模型(partial synchrony model)上的BFT协议,它以其线性的通信复杂度和响应性而著称,并被用作多个区块链的共识引擎。
2025-11-05 23:43:13
1032
原创 数据科学每日总结--Day10--数据库
一个调度是冲突可串行化的,指的就是它可以通过交换非冲突操作的顺序,变换成某个串行调度(即所有事务一个一个顺序执行),且结果一致。一般来说,判断的依据是将所有的冲突指出来,并且写下事务之间的依赖关系,如果事务的依赖关系形成了一个环,即A依赖于B,C依赖于A,B依赖于C,则证明不是冲突可串行化的。比如,事务T1的某个操作必须在事务T2的某个操作之前执行,否则会影响结果,这就是依赖关系。在事务调度中,冲突指的是两个操作(通常属于不同事务)在同一个数据项上,且至少有一个是写操作时,它们的执行顺序会影响最终结果。
2025-11-04 23:17:00
230
原创 数据科学每日总结--Day9--数据库
想象一下我们的NOSQL是病人的病历数据,有一个检查结果,以列表的形式存储数据,而每个存储的元素又是一个字典,包括检查类型、时间、结果等;在学习开发NOSQL的过程中,相比传统关系型数据库有多表关系和复杂的事务需要梳理,这类要存储各种各样复杂的信息的场景,就需要用一个好的工具,而MongoDB数据库就能很好地满足这个需求。更重要的是,MongoDB还有compass这类gui工具,能够更方便操作插入的各种表,尤其是在嵌套了各种子结构的情况下,能够很好地管理数据。支持丰富的查询和聚合功能。
2025-11-04 00:25:22
323
原创 数据科学每日总结--Day8--数据挖掘
随着时间推移,优秀路径上的信息素不断增强,劣质路径上的信息素逐渐挥发,最终蚂蚁群体能够找到最优或近似最优的路径。核心原理是维护一个由多个候选解组成的种群,通过选择、变异、交叉等操作不断产生新一代候选解,通过评估优劣,逐代保留更优的,最终找到或逼近最优解。增强(蚂蚁完成路径后,根据路径优劣(如路径长度),在所经过的路径上增加信息素,优秀路径信息素增加更多)它通过种群进化的方式,逐步寻找问题的最优解。迭代:重复上述过程,经过多代蚂蚁的协作,信息素分布逐渐集中在最优或近似最优路径上。
2025-11-02 23:17:05
517
原创 数据科学每日总结--Day7--数据库
种类:强实体集(具有主键,可以独立存在,比如学生、教师、课程等),弱实体集(没有足够的属性来唯一标识自身,必须依赖其他实体集(拥有实体集)来做唯一标识,比如订单明细,部门中的种类) 二元、三元、四元:代表着两个、三个、四个实体集之间的关系,比如学生与课程之间的选修关系(一个学生选修一门课程)、医生、病人、药品之间的“开药”关系(某医生给某病人开某种药)、项目、员工、角色、时间之间的“参与”关系(某员工以某角色在某时间参与某项目)影响数据库的性能和存储效率。主要关注数据的实体、属性、实体之间的关系等。
2025-10-30 18:13:34
395
原创 数据科学每日总结--Day6--智能体开发入门
在现在这个时代,在有关智能体模块,对于开发人员的代码能力要求越来越低,相反,只要我们了解了智能体的有关概念以及创建流程,我们就能通过一些平台的工具来进行智能体的开发与管理。添加工作流(把多个功能节点(如获取数据、调用智能体、发送消息等)按照一定逻辑串联起来,让系统自动完成一系列动作,无需人工干预),设置好功能,并按需添加大模型,插件等。coze是一个低代码要求,甚至可以无代码要求的智能体平台,能够帮助用户快速搭建、部署和运营各种类型的智能体。根据需求设置智能体的提示词,描述智能体的角色、语气、服务范围等。
2025-10-29 01:02:04
310
原创 数据科学每日总结--Day5--统计学
在现实生活中,估算样本集的均值和方差的问题经常能看到,例如教学评估,产品抽样,医学研究等。用途:统计推断(在实际问题中,很多总体分布未知,但可以通过样本均值近似为正态分布,进行参数估计和假设检验);t是随机变量,代表样本均值与总体均值之间的标准化距离,是为了衡量样本均值与总体均值的偏离程度,用于查找概率或临界值,决定是否拒绝原假设。原理:假设有一个总体,其均值为μ,方差为σ²,从中随机抽取n个样本,计算样本均值。原理:描述了当总体方差未知,用样本方差估计总体方差时,样本均值的标准化分布,计算公式是。
2025-10-28 01:45:28
523
原创 数据科学每日总结--Day4--数据挖掘
原理:集成大量决策树,每棵树都在不同的自助采样子集上训练,并且在每个节点分裂时,随机选择部分特征进行分裂(增加多样性),最终通过投票(分类)或平均(回归)融合所有树的结果。计算弱分类器的错误率:用弱分类器对所有样本进行预测,统计哪些样本被分错了,错误率是“被分错的样本权重之和”,因为要让难分的样本权重变大,让下一个分类器更关注这些样本。原理:通过串行训练(每一轮训练都关注前一轮模型预测错误的样本,提升这些样本的权重),从而让后续模型更关注难以预测的样本,最终将所有模型加权融合,形成强学习器。
2025-10-25 00:23:07
323
原创 数据科学每日总结--Day3--数据库与模型应用
假如表里是学号,班级号,班主任,班主任依赖于班级号,班级号依赖于学号,班主任对学号是传递依赖,那就不符合3NF,拆分为学号和班级号,班级号和班主任,就符合3NF了,关键就在于消除非主属性的依赖关系。假设主键是(学号,课程号),成绩依赖于主键,但学生姓名只依赖于学号,不依赖于课程号,就不是2NF,如果要符合2NF,就要把表拆开,即学号和学生姓名一张表,主要就是消除对主键部分依赖的非主属性。BCNF:在满足3NF的基础上,任何非平凡的函数依赖X→Y中,X都必须是超键(即唯一标识一行的属性组)。
2025-10-24 01:10:29
373
原创 数据科学每日总结--Day2--区块链与模型了解
核心:中继链/中继桥(如Polkadot的中继链、Cosmos的IBC协议);分离网络:通常采用深度卷积堆叠的时序卷积网络(TCN),对编码后的特征进行处理,输出每个声源的掩码(mask),TCN结构能有效建模长距离时序依赖,适合音频信号。与传统方法在频域操作(先将音频信号变换到频谱,再做分离)不同,该模型直接在时域(原始波形)上进行分离,避免了频域变换带来的信息损失和延迟。概念:将区块链的不同功能(如执行、共识、数据可用性、结算等)分离到不同模块或层级的架构设计,通过分工协作提升整体性能和灵活性。
2025-10-22 23:42:55
595
1
原创 数据科学每日总结--Day1--区块链
去中心化的程度很高,也就是由许多节点共同管理,且由于公开性,数据很透明,不可篡改。影响:权力集中,易于管理,不过相应的,权力集中在一个人的手里也代表一项交易被审查时,其状态只能是被审查,而不能同时被处理和验证。安全特性:抗审查性高,抗篡改性强(因为节点很多,类似于分布式账本,任意节点的数据修改都无法影响数据的完整性),透明性高。影响:权力分散但有边界,兼顾决策效率和适度的去中心化,可以保证几个组织间交易的顺利进行。权力分配:去中心化,所有的节点都能平等参与决策(Pow,Pos共识等)。
2025-10-22 06:53:11
400
原创 服务器搭建vllm框架并部署模型+cursor使用经验
在运用大模型的过程中,大家一般都会选择获取api码,通过云端连接大模型来使用。但是要想使用模型使用的顺畅,有条件的话,可以去阿里云等平台租借一个服务器,通过在服务器上下载模型,外设一个api接口去调用。
2025-10-19 23:16:22
484
原创 从0开始学习R语言--Day64--决策树回归
对于没有特征或者说需要寻找另类关系的数据集,我们通常会用聚合或KNN近邻的方法来分类,但这样的分类或许在结果上是好的,但是解释性并不好,有时候我们甚至能看到好的结果反直觉;而决策树回归做出的结果,由于其树的结构,我们能看到每一步的决策,也就能推测出树这么做的原因,还能进一步地调整树的深度,使得结果更好。而分布图则表明决策树对于波动较大的数据分布很难捕捉到趋势,很容易出现欠拟合的现象,但是由于其可以根据结果反推进一步调参,反而能加深其结果的解释性。
2025-08-01 23:32:10
415
原创 从0开始学习R语言--Day63--马尔科夫链中的贝叶斯平滑
但是当数据不是均匀分布的时候,很容易出现某类组别的样本量较少,这种情况很容易出现某类别里的样本数为0,从而影响转移矩阵(该类别的概率由于没有样本是NA),对于这种情况,贝叶斯平滑的处理方式是认为是数据里该分组的信息是未知的,从概率上来说,即是该类别转移为每一种类别的概率都相同,会赋予它们相同的概率。而输出中的MLE估计KL散度虽然看起来更优,但这是因为存在零概率导致的,不是真正意义上的更优,因为真实场景下不存在绝对的0概率。
2025-08-01 01:07:20
392
原创 从0开始学习R语言--Day62--RE插补
而RE的插补原理是结合个体本身的随机效应和群体的固体效应再加上截距进行插补的,比如学生A参加了月考,期中考,但是缺席了期末考,如果要插补期末考的成绩,除了班级的教学质量之外,学生个体的学习能力也很关键,可能存在学生本身是学霸,成很稳定,也可能存在学生是中游水平,期中考试超常发挥,需要综合考量。对于会有多次测量值的数据,用普通的回归去插补,往往会忽略掉数据个体本身的特点,毕竟多次的测量值其实就代表了数据个体的不稳定性,存在额外的干扰。
2025-07-30 23:12:45
336
原创 从0开始学习R语言--Day61--多重插补
输出中x1和x2的p都小于0.001,说明结果具有显著性,而截距的p是0.27,说明不太需要关注截距,函数是过原点的线;而图像显示均值和std在插补的过程中波动较小,稳定在一个小的区间内,走势大致一致,说明插补的效果好。针对只是多行有缺失而不是整行缺失的情况,适合用回归而不是预测的方法去插补,毕竟同行内有值可供参考,能将插补的值限制在合理的范围内。而MI的方法是分别对不同的数据进行插补,效果上还会更好一些。
2025-07-30 00:54:52
342
原创 从0开始学习R语言--Day60--EM插补法
虽然我们常常在数据处理中做数据分布以及异常值的处理,但实际上对于缺失值,很多时候我们都不能简单地去删除或赋予0值,毕竟很多都是有意义的数据,只是可能因为各种原因没有在数据面板中显示,直接删除或赋予0这种忽略数据本身意义的做法,会破坏数据的属性,扭曲数据的性质。一般来说,对于各种缺失的数据,我们都会用EM插补法来填补数据,原理是根据缺失所属的数据列,粗略估计一个数据后,计算等于这个值的概率,然后重复这个过程指到数值不再发生变化,简单来说就是根据已有的数据列参考来回归一个数据。
2025-07-28 23:11:32
292
原创 从0开始学习R语言--Day59--GAM模型
在分析数据前,我们通常会打印出数据的分布来观察其大致属于哪种分布,但其实除了一些很明显的回归或函数性质之外,我们很难单从数据分布定下用哪种回归,再加上传统意义上的神经网络的计算量相比普通的回归方法来说计算量很大,如果数据量很大的话,需要等待很多时间。而相比之下,GAM模型就能过很好的适应这种情况,因为预先打印出数据的分布意味着我们知道函数式子的大致构成形式,缺少的可能是某些偏差或截距项,但通过知道函数在哪些地方有拐点。
2025-07-28 00:35:02
352
原创 从0开始学习R语言--Day58--竞争风险模型
在用传统生存分析方法的场景中(如Kaplan-Meier和Cox回归),假设所有事件都是独立且互斥的,但在现实中,研究对象可能面临多种互斥的终点事件(如癌症患者可能死于癌症本身,也可能死于其他原因),如果直接去分析,模型会把这种结局时间错误地纳入评估,从而提高了病症的分析。输出表明,新个体的累积发生概率在整个随访期内均低于基线水平,这表明其风险较低,且这种优势随时间推移更加明显,为个体化风险评估和精准干预提供了有力的量化依据。
2025-07-27 05:22:16
382
原创 从0开始学习R语言--Day57--SCAD模型
结果表明,X1、X2、X3系数非零,且mfdr < 1e-04,统计学显著,是显著变量;当lambda较大时,系数基本被压缩为0,说明模型趋于稀疏;在之前,我们提到过对于基因数据,我们会倾向于用弹性网络去建模,这样可以做到节省大量计算量的同时,保留关键的变量做筛选;但是实际上弹性网络本质上是用两种方法的结合去拟合,得到的函数是凸函数,从而不可避免的会产生偏差。相比之下,SCAD则选择更直接的分段建模,这样可以最大程度地保留原有特征的特点,同时做到更优的筛选,只是计算复杂度会更高,需要谨慎使用。
2025-07-25 23:37:22
385
原创 从0开始学习R语言-Day56--空间变系数模型
对于涉及到空间相关性分析的数据来说,直接对其做杜宾模型的拟合,有时候很难解释有些变量的p值或是否收敛,因为许多变量的联系以及数据特征在拟合的过程中被消化掉了。输出表明,两边区域的数据在分布上的颜色和系数并不对称,存在明显的空间差异,也就是说,x变量对因变量的影响在空间上具有显著的异质性和梯度分布特征。而用不同的方法和模型去一步步测试特性,不仅可以证明课题或数据有无研究下去的意义,还可以帮我们节省工作量,确定研究的方向。
2025-07-24 22:05:22
336
原创 从0开始学习R语言--Day55--弹性网络
通常来说,样本数据的数据个数会远大于特征数,但是当我们遇到特殊数据,比如基因数据,可能会有成百上千甚至上万地特征量,而样本个数只有几十个,此时如果直接做回归,由于特征数量很多,且有很多特征共线性较高,很容易过拟合,而能处理共线性的方法,又无法将特征的系数压缩为0,这样计算量会大大增加。输出中可以看到,V1到V5对模型的影响比较大被保留,同时弱相关的特征也被保留了下来;用弹性网络建模,其与其他不同的是,有两个惩罚项,L1负责控制特征系数(可以为0),做初步的筛选;
2025-07-23 23:25:31
258
原创 从0开始学习R语言--Day54--双重固定模型
所有的F的p值都小于0.001,说明必须同时控制时间和个体固定效应,结果中X的系数为0.778,表明是纯净的因果效应,而标准差0.026则说明模型的精度较高。但如果我们已经知道特征的意义,比如企业经济发展的数据中有着员工的科研能力,公司文化,当下的政策改革,外界的经济变化,我们就可以将其分为个体效应(不随时间改变的特征)和时间效应(所有个体共同经历的时间趋势),从而能够快速直接地分析出各个地域企业的发展状况。
2025-07-23 01:08:24
664
原创 从0开始学习R语言--Day53--AFT模型
在分析医疗数据时,尽管用cox回归可以分析一切因素对风险的影响,但是有时候因素的影响是非常直接的,比如对于癌症患者的生存风险,治疗手段(如化疗),会直接让肿瘤的生长速度减半,也就相当于延长了患者的生存时间,这个时候如果还要去用cox回归去分析单位时间内风险的概率,就有点本末倒置了,直接用AFT模型分析对生存时间的影响就能得到结果,毕竟在这个背景下,我们用析的最终目的是为了得知因素的效果。
2025-07-21 22:48:31
290
原创 从0开始学习R语言--Day52--weibull
在分析带有状态变化特征的数据时(如医疗数据的结局特征,手机电池的寿命等等),我们需要分析得不只是什么时候什么时候出发结局,还要分析特征的稳定性,比如电池的续航在初期不稳定,预测里可能两个月就会坏,但用了一个月后手机稳定下来,预测可能就变成用一年都不会坏。输出中的形状参数和尺度参数都和真实值非常接近,说明模型的结果很精确;直方图和红色曲线图基本重合,说明数据非常符合分布,而QQ图中大部分数据点也都落在了对角线上,进一步说明了结果的可靠性。
2025-07-21 01:14:48
253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅