- 博客(24)
- 问答 (2)
- 收藏
- 关注
原创 Uplift Model 增益模型
在当今数据驱动的时代,企业越来越依赖机器学习模型来优化决策。然而,传统的预测模型(如分类或回归)往往只能告诉我们“用户是否会转化”,却无法回答一个更关键的问题:“这个用户是因为我们做了干预(比如发优惠券)才转化的吗?这正是 Uplift 模型(提升模型) 要解决的核心问题。它不再满足于描述“发生了什么”,而是试图揭示“如果我这么做,会发生什么变化”——这是从相关性迈向因果性的关键一步。
2025-12-27 20:16:22
624
原创 霍夫丁不等式详解
先从一个生活问题切入 ——假设你想知道全校 1000 名学生的平均身高,但不可能量所有人,于是随机抽了 50 人(这 50 人叫 “样本”),算得样本平均身高 165cm。这时你会问:这个样本的平均身高,和全校真实的平均身高差多少?我能有多大把握说 “真实平均身高在 163~167cm 之间”?这个问题的本质是:“用样本统计量(如样本均值)估计总体参数(如总体均值)时,误差有多大?可信度有多高?”在霍夫丁不等式出现前,人们处理这类问题需要假设 “总体服从某种分布”(比如正态分布),但现实中很多问题没有明确
2025-10-09 15:38:37
587
原创 AB实验的基本原理
AB实验又称为受控实验(Controlled Experiment)或者对照实验。AB实验的概念来自生物医学的双盲测试,双盲测试中病人被随机分成两组,在不知情的情况下分别给予安慰剂和测试用药,经过一段时间的实验后,比较这两组病人的表现是否具有显著的差异,从而确定测试用药是否有效。AB实验被引入互联网公司后,应用场景主要是大规模的在线测试,所以也被称作在线AB实验或者在线对照实验(Online Controlled Experiment,OCE)。
2025-09-29 22:49:27
596
原创 信息熵Entropy
作用:量化离散随机变量的不确定性,是信息论的基础度量指标。数学表达:设离散随机变量XXX的字母表为AA,概率质量函数为PXxP_{X}(x)PXxHX−∑x∈APXxlog2PXx−Ex∼PXlog2PXxHX−∑x∈APXxlog2PXx−Ex∼PXlog2PXx其中,约定0log2000log200。
2025-09-27 17:16:27
863
原创 中心极限定理-CLT
中心极限定理指出,无论原始数据如何分布(如正态、偏态或0-1分布),只要样本量足够大(通常n≥30),样本均值的分布将趋近于正态分布。该定理表明:样本均值的均值等于总体均值,方差为总体方差的1/n。其重要性在于无需知道总体分布即可计算概率,并支持统计推断(如假设检验和置信区间)。核心结论是,样本均值分布的正态性不受原数据分布影响,为统计学提供了重要基础工具。
2025-09-24 19:40:07
818
原创 切比雪夫不等式-Chebyshev Inequality
切比雪夫不等式是概率论中的重要定理,它给出了随机变量偏离其均值的概率上界。对于一个具有有限期望μ和方差σ²的随机变量X,不等式表示为P(|X-μ|≥ε)≤σ²/ε²。该定理表明,方差越小,随机变量取值越集中在均值附近。其证明过程通过构造非负随机变量Y=(X-μ)²,并应用马尔可夫不等式推导得出。在应用中,如无偏硬币抛掷试验中,该不等式可用来估计n次抛掷结果之和S超过特定阈值的概率上界(如P(|S|≥10√(nln n))≤1/(100ln n))。切比雪夫不等式为概率估计提供了实用工具。
2025-09-24 17:02:41
3399
原创 马尔可夫不等式-Markov’s Inequality
马尔可夫不等式是概率论中的基本工具,为非负随机变量X超过阈值a的概率提供了上界P(X≥a)≤E(X)/a。该不等式通过期望值约束尾部概率,在缺乏分布细节时仍能给出概率估计,但结果通常较宽松。证明过程涉及期望分解和积分放缩,几何解释显示其本质是通过面积比较建立概率上界。应用示例显示,在硬币抛掷等场景中,马尔可夫不等式给出的边界可能较粗糙,此时需借助更精确的工具如切比雪夫不等式。该不等式虽简单,却是推导更复杂概率界的基础。
2025-09-23 11:23:01
923
原创 Boosting算法-AdaBoost
AdaBoost是一种通过迭代组合多个弱分类器构建强分类器的集成学习算法。其核心思想是通过调整样本权重,使后续分类器更关注之前分错的样本,逐步提升模型性能。算法流程包括初始化样本权重、迭代训练弱分类器、计算分类器权重并更新样本分布,最终组合所有弱分类器形成强分类器。AdaBoost具有自适应聚焦难样本、误差指数下降等特性,但存在对异常值敏感、难并行化等局限。适用于小样本低维数据,在scikit-learn中可通过AdaBoostClassifier实现,需注意迭代次数、学习率等参数调优。
2025-09-21 09:53:34
1011
原创 基于阿里云服务器的Hadoop完全分布式集群安装流程
本文详细介绍了在阿里云ECS上部署Hadoop2.10.2完全分布式集群的全过程。主要内容包括:1)阿里云服务器购买与配置;2)统一基础环境设置(关闭防火墙、配置主机名、SSH免密登录等);3)JDK安装与配置;4)Hadoop安装与核心配置文件修改;5)集群初始化、启动与验证。通过分步操作指南,最终实现包含3个节点(1个NameNode和2个DataNode)的Hadoop集群部署,并完成HDFS、YARN等组件的功能验证。文中提供了完整的配置参数和验证方法,确保集群正常运行。
2025-09-14 15:57:28
1021
原创 基于MACD判断的交易系统
系统要素:用MACD慢线在零轴上判断趋势在多头趋势中以收盘价和波动率构成入场出场通道入场条件:价格高于MACD慢线上穿零轴的当前价格和波动率组成的通道上轨出场条件:macd慢线在零轴下价格低于MACD慢线上穿零轴的当前价格和波动率组成的通道下轨价格低于多头趋势形成时的最低价格出场。
2023-05-14 14:47:44
1457
1
原创 【大数据面试题】Kafka
Kafka 是一种高吞吐量的分布式发布订阅消息系统,用于数据的缓冲。具有高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性。作用一:消息系统。具备冗余存储、缓冲、异步通信、扩展性、可恢复性等功能。作用二:存储系统:Kafka有消息持久化和多副本机制。将消息持久化到磁盘,可以把它作为长期的数据存储系统来使用作用三:流式处理平台。Kafka 可以和流式处理框架进行集成。比如像Spark Streaming和Flink。提供了窗口、连接、变换和聚合等各类操作。
2023-04-20 15:15:37
598
原创 【大数据面试题】Zookeeper
ZooKeeper是一个分布式的,开放源码的,用于分布式应用程序的协调服务。所谓分布式协调主要是来解决分布式系统中多个进程之间的同步限制,防止出现脏读,例如我们常说的分布式锁。zookeeper服务端有两种模式:单机的独立模式和集群的仲裁模式,所谓仲裁是指一切事件只要满足多数派同意就执行,不需要等到集群中的每个节点反馈才执行。
2023-04-20 15:13:08
292
原创 【大数据面试题】Linux&Shell
(1)单引号不取变量值(2)双引号取变量值(3)反引号`,执行引号中命令(4)双引号内部嵌套单引号,取出变量值(5)单引号内部嵌套双引号,不取出变量值。
2023-04-12 15:37:53
248
原创 【大数据面试题】Hadoop
Hadoop,就是解决⼤数据时代下海量数据的存储和分析计算问题。Hadoop不是指具体的⼀个框架或者组件,它是Apache软件基⾦会下⽤Java语⾔开发的⼀个开源分布式 计算平台,实现在⼤量计算机组成的集群中对海量数据进⾏分布式计算,适合⼤数据的分布式存储和计算,从⽽有效弥补了传统数据库在海量数据下的不⾜。Hadoop Common:支持其他Hadoop模块的常用工具。Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
2023-04-08 17:37:31
501
原创 基于置换均线的二次穿越突破均线
该系统的优点在于,通过使用DMA作为均线指标,可以有效地过滤掉价格波动的噪声,从而减少了假信号的产生。同时,该系统还考虑了二次穿越的情况,从而可以进一步排除不可靠的信号。不过,该系统也有一些缺点,比如在市场出现大幅波动时,可能会出现较大的滑点,从而影响交易结果。系统要素:将移动平均K线向后平移一定BAR数即为置换均线相隔一定BAR数的收盘价二次穿越置换均线二次穿越完成时那根BAR的高点(或低点)作为突破进场价完成二次穿越的一定BAR数内突破入场条件:有效期内价格向上突破设定进场价做多。
2023-04-01 17:27:43
1548
原创 基于高低点与突破的系统
这个策略的基本思想是,在价格在通道内波动时,根据移动平均线和通道的信号来开仓和平仓,从而获取短期的利润。但需要注意的是,这种策略的胜率可能并不高,因为在行情趋势明显时,通道和移动平均线的信号可能会出现滞后,导致错过了持续的行情走势。基于K线振幅、均线通道、价格位置等因素的交易策略。具体来说,该策略将交易信号定义为根据当前K线的振幅和中点位置与前一根K线的价格位置和振幅之间的关系来判断,是否开仓或平仓。
2023-04-01 17:26:14
852
原创 提问的艺术
提问是一门艺术,高明的提问既能尊重他人的时间,又能让你获得需要的答案。有效提问的 4 个步骤:事先研究、提供背景信息、列出目前所做的尝试、写下答案,希望能对你有所帮助。
2023-03-31 14:48:14
234
原创 数据开发全流程
定规范将是数仓建设的核心步骤,因为前期规范如果没定义好,后面所有的开发、迭代都会稀里糊涂,最直接的影响就是数据的使用效率低下,更长远的将会极大提高数据治理的成本。规范定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。时间周期用来明确数据统计的时间范围或者时间点,如最近 30 天、自然周、截至当日等。业务限定是对业务的一种抽象划分。业务限定从属于某个业务域,如日志域的访问终端类型涵盖无线端、 PC 端等修饰词。度量 / 原子指标。
2023-03-27 22:07:19
4486
原创 【实习总结】大数据开发的日常工作
之前写过了大数据开发的岗位选择以及数据岗位的学习路径。但对于还处于比较迷茫,不知道是否要投入到大数据的怀抱的同学,其实还希望了解到大数据开发每天的真实工作是哪些,想到我也刚结束一段实习、大家很多正在火热的准备暑期实习,所以顺便写一下实习的情况吧。
2023-03-18 10:18:17
4120
2
原创 数仓/数据开发-零基础入坑(小白学习路径)
一个面向面试的学习路径,后面也会补充上全面的学习路径。面向面试就是掌握到基本能应付暑期实习面试的基本技能和知识,足以在春招实习招聘中应对,但是如果要在秋招里乱杀还是得全面学习的哟。
2023-03-18 10:17:26
3894
3
原创 《金字塔原理》读书笔记
《金字塔原理》基本是每一位职场人的必修书目,在实习期间也是leader和师兄的强力推荐,在工作的软能力上提升自己。”想清楚,说明白,知道说什么、怎么说“,是我们希望达到的境界。我们在与人沟通时,需要想清楚3件事:谁是我们的听众?他们想听什么?他们想怎样听?本文仅作为阅读笔记的摘要记录,如果想深入了解具体的思维模式以及思考逻辑建议阅读原书。可以私信or评论找我要原书PDF。金字塔原理的基本概念金字塔原理是一种重点突出、逻辑清晰、层次分明、简单易懂的思考方式、沟通方式、规范动作。
2023-03-06 18:59:06
1432
空空如也
【Linux】有P1,P2,P3三个进程,利用Linux的通信机制实现字符串的分发
2021-05-04
【python】多封邮件词频统计
2021-05-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅