- 博客(47)
- 收藏
- 关注
原创 第二十三课:手搓随机森林
随机森林就像让一群决策树"投票"做决定——每棵树可能有点偏见,但大家投票结果往往很准确。下面我们用Python实现这个"集体智慧"算法。
2025-06-09 22:29:18
521
原创 大数据分区存储:让数据不再“乱炖”,查询快如闪电!
摘要: 数据库分区通过逻辑划分数据(如按时间、地区或业务)显著提升查询效率,避免全表扫描。例如,按日期分区的表查询单日数据时只需读取对应分区,速度提升数十倍。分区还支持快速删除(直接删除分区而非逐行操作)和冷热数据分层存储(节省成本)。但需避免过度分区导致元数据爆炸。实际场景中,电商订单表按日期和类目分区后,查询性能可优化至秒级响应。分区技术是高效数据管理的核心手段,尤其适用于时间序列数据和高频过滤场景。
2025-06-09 16:32:25
277
原创 第二十七课:手搓梯度提升树
梯度提升树就像一群小树苗在接力成长,每棵新树都专注于前辈们犯过的错误,最终长成一片预测能力强大的森林。下面我用Python展示这个强大的算法。
2025-06-07 16:30:45
322
原创 第二十八课:深度学习及pytorch简介
Google的猫识别系统在观看千万级YouTube视频后,自己发现了"猫"这个概念,完全没人告诉它猫长什么样!PyTorch就像一辆跑车,不同配置下性能天差地别。:从今天开始,每天用PyTorch实现一个小功能!就像学做菜,从煎鸡蛋到满汉全席,关键是要动手实践。:PyTorch 2.0+已不再支持Python 3.6,就像新版PS5不兼容老式显像管电视。就像教小孩认动物,看多了自然就会,不需要解释"哺乳动物"的定义。:这个功能让PyTorch能自动计算神经网络中数百万参数的梯度!,支持GPU加速运算。
2025-06-07 16:29:49
736
原创 第十二课:大白话教你什么是感知机
“这方案可以打75分(0.75),再改改”一条红线逐渐移动,最终完美分开蓝色和红色点!“啊,输入(0,0)该输出0…:“方案要么通过(1)要么重做(0)!✅ 线性可分的简单分类(如垃圾邮件过滤)输入(1,0)该输出1…✅ 教学演示(理解神经网络基础)✅ 资源受限环境(计算量极小)❌ 需要概率输出(用逻辑回归)❌ 非线性问题(用深度学习)现代深度学习 → 宇宙飞船。❌ 大数据集(容易欠拟合)感知机就像神经网络家族的。单层感知机 → 三轮车。多层感知机 → 汽车。
2025-06-06 21:48:49
802
原创 第九课:大白话教你朴素贝叶斯
这个算法名字听起来像是个“天真无邪的数学小天才”,但其实它是个超级实用的分类工具!我会用最接地气的方式,从定义讲到代码实战,保证你笑着学会,还能拿去忽悠朋友!它说:“根据我的‘天真’计算,包含‘免费’的概率是 80%,包含‘点击’的概率是 60%,所以整体是垃圾邮件的概率是……朴素贝叶斯就像个“单纯的孩子”,假设所有人都是好人,结果被现实打脸!朴素贝叶斯天然支持多分类(比如情感分析:正面/中性/负面)。你问朴素贝叶斯:“这封邮件是垃圾邮件吗!(果然,“免费”+“链接”组合太危险了。
2025-06-06 21:48:21
417
原创 数据分析六部曲?
数据分析入门六步走:从目标到报告 数据分析并非难事,掌握六个基本步骤即可入门:1)明确分析目的,如餐馆老板想找出客流减少原因;2)收集准确完整的数据,包括账本、顾客反馈等;3)清洗整理数据,修正错误、填补缺失;4)选择合适方法进行分析,如对比销售数据或满意度评分;5)可视化呈现结果,选用柱状图、折线图等合适图表;6)撰写简明分析报告,包含问题、方法、结论和建议。遵循这六步法,任何人都能逐步掌握数据分析技能,解决实际问题。
2025-06-04 22:27:36
763
原创 什么是数据分析
数据分析入门指南:从定义到应用 数据分析是通过提炼数据信息揭示内在规律的过程,其核心作用在于辅助管理者决策。文章介绍了数据分析的三个层次:描述性分析(初级)、探索性分析和验证性分析(高级)。重点阐述了数据分析的三大应用目的:现状分析(展示过去发生了什么)、原因分析(解释现象成因)以及预测分析。并提出了数据分析的六步流程:明确目的、数据收集、处理、分析、展现和报告撰写。本文为数据分析初学者提供了完整的基础知识框架,后续将深入讲解具体分析方法。
2025-05-24 22:07:48
512
原创 python之数据结构与算法篇
快排,堆排,归并排序详细原理参考这篇这或许是东半球分析十大排序算法最好的一篇文章,下面我将用 Python 快速实现出来。话不多说,Show MeCode!
2025-05-23 22:23:38
1419
原创 数据指标体系:企业数字化转型的“数字基因“革命
数据指标已成为现代企业决策的核心工具,超越了传统的记录功能,成为驱动企业进化的数字基因。本文从数据指标的本质、进化、构建、特征及潜在陷阱五个方面进行深入探讨。首先,数据指标不仅是商业逻辑的数学映射,更是技术与认知的融合体,与业务形成共生关系。其次,数据指标体系经历了从记录层到预测层的价值跃迁,如特斯拉通过新型指标重构行业规则。在构建过程中,业务架构师、数据工程师和决策使用者的协作至关重要,同时需要全生命周期管理。优秀指标应具备量子特征,如精准性与灵活性的统一、指标间的因果网络及预见性。然而,企业也需警惕指标
2025-05-22 22:00:00
577
原创 数据分析中最好用的估算法:费米思想
在数据分析面试中,主考官常提出看似无解的问题,如估算新生儿数量或城市垃圾重量,这实际上是在考察应试者的数据思维能力。这类问题被称为费米问题,源自物理学家费米,其核心思想是通过逻辑拆解将复杂问题分解为可解决的小问题,再通过估算和假设逐步反推答案。费米估算法强调估算上下界,并利用平均律理论,使误差相互抵消,从而提高估算的准确性。这种思维方式不仅适用于数据分析,也能帮助我们在信息不全的情况下做出更准确的决策。
2025-05-22 17:53:11
764
原创 作为数据分析师应该会的20种数据思维!
摘要:数据分析师在面对数据异常时,常陷入主观臆测,缺乏结构化分析思维。胡晨川老师的《数据化管理手册》提出了数据化运营的思维方式,强调信度与效度思维、平衡思维、分类思维、矩阵思维和管道/漏斗思维的重要性。信度与效度是数据质量的基础,平衡思维关注企业运转中的平衡关系,分类思维强调分类后的显著差异,矩阵思维用于无数据支持时的主观推断,管道/漏斗思维则需注意漏斗长度和数值量级。这些思维方式有助于提升数据分析的准确性和有效性,为决策提供坚实支持。
2025-05-22 12:00:00
713
原创 数据分析常考面试题 101 题-业务题(45 道)、SQL(18 道)、统计学(14 道)、机器学习(24 道)
数据分析面试通常考查候选人的数据工具能力和业务分析思维。数据工具能力方面,SQL是常考内容,而业务分析思维则涉及对业务场景的理解和分析。面试中可能会问到如何理解数据分析、数据分析的价值、指标异常波动的分析、注册类与活跃类指标的选择、圆周率计算算法设计、星巴克门店销售额估算、指标与维度的区别、北极星指标与虚荣指标的定义、指标体系的建立方法以及A/B测试的核心原理和应用场景。通过这些问题的详细讲解,候选人可以掌握解答思路,提升面试表现。
2025-05-21 00:56:41
1475
原创 「SCQA+模块爆破」模型
「SCQA+模块爆破」是一种结合结构化表达与问题拆解的方法论模型,广泛应用于商业分析、咨询报告和项目管理等领域,旨在通过清晰的逻辑框架提升问题解决效率。SCQA模型源自麦肯锡《金字塔原理》,通过情境(S)、冲突(C)、问题(Q)和答案(A)四个步骤,快速聚焦问题本质。模块爆破则借鉴工程学中的定向爆破技术,将复杂问题拆解为可操作的子模块,逐一突破,避免资源分散。两者协同应用,可显著提升从问题定义到执行落地的全链条效率,尤其适合需快速推进的复杂项目。该模型优势在于逻辑清晰、资源聚焦,但依赖前期问题诊断的准确性,
2025-05-21 00:48:21
267
原创 从“拍脑袋”到“看数据”的认知革命
很多人认为数据分析的价值在于解决问题,但实际上,它的更大价值在于发现问题,特别是那些尚未浮出水面的问题。他们通过分析用户行为数据,发现了《纸牌屋》这部剧集的潜力所在:喜欢原版英剧的用户群体庞大,导演大卫·芬奇的作品有稳定粉丝基础,主演凯文·史派西的电影在平台表现优异。然而,当两个人持有相反观点时,最终拍板的往往不是基于数据的合理判断,而是谁的声音更大、谁的职级更高。例如,分析销售下滑,可以从“流量减少”、“转化率降低”和“客单价下降”三个维度入手,这三个因素互不重叠又完全涵盖了销售变化的所有可能性。
2025-03-13 17:35:43
827
原创 网店数据分析全攻略:从销售额到客户运营的深度解析
例如,某商品的成交价为100元,包装成本为5元,物流成本为10元,商品成本为50元,则货单利润为35元。例如,某SKU的销售额为10万元,毛利率为50%,是明星产品。例如,某店铺的总货单利润为10万元,售后成本为2万元,平台成本为3万元,则店铺整体利润为5万元。例如,某活动的增量销售额为10万元,毛利率为30%,活动成本为2万元,则活动净收益为1万元。例如,某商品的销售收入为100元,商品成本为60元,则毛利率为40%。例如,某商品的销售成本为10万元,平均库存为5万元,则库存周转率为2。
2025-03-12 15:10:47
656
原创 数据分析必学案例--波士顿犯罪分析
EDA,在数据清洗和建模工作之前,对数据集的分布有一个总体的认识。探索各个特征之间的关系。EDA部分的主要工作在于数据可视化,前提是对数据做了初步的预处理工作。在本例子中,将许多object类型的数据转化为了category类型。熟悉sns.countplot(),sns.boxplot(),sns.kdeplot(),sns.lineplot(),sns.heatmap(),sns.scatterplot()sns.countplot(data,x,hue,order)适合单特征分析。
2025-02-19 17:01:32
697
原创 二十九道机器学习经典面试题
定义:模型在训练数据上表现极好(如准确率高),但在未知数据(测试集/实际场景)中表现差,本质是“死记硬背”训练数据中的噪声或细节,导致泛化能力差。典型表现:训练误差低,测试误差高。解决方法数据层面增加训练数据量(数据增强)。清洗噪声数据(如异常值、错误标签)。模型层面降低模型复杂度(如减少神经网络层数、决策树的深度)。加入正则化(L1/L2正则化,约束权重)。训练技巧交叉验证(如K折交叉验证)。早停法(Early Stopping):监控验证集误差,提前终止训练。
2025-02-18 18:22:19
1590
原创 机器学习一定要死磕这几种模型!
众所周知,在整个机器学习领域中,使用的最多的模型,无非就是上图的模型,今天就给大家揭秘这些模型的使用场景,并且每一个模型均有一个例子给大家详细展示了在机器学习中的作用。
2025-02-16 17:11:57
976
原创 Kaggle 入门指南:数据预处理与特征工程全解析
本文将详细讲解在参加 Kaggle 比赛之前,如何进行数据预处理、特征筛选以及特征工程,帮助你从数据中提取有价值的信息,提升模型的性能。
2025-02-14 20:00:00
1012
原创 Scikit-learn 使用指南:从入门到实战
在当今数据驱动的世界中,机器学习已经成为各行各业的核心技术之一。无论是金融领域的风险预测、医疗领域的疾病诊断,还是电商平台的个性化推荐,机器学习都在发挥着重要作用。
2025-02-13 22:00:00
899
原创 从零开始,手把手教你玩转Kaggle比赛!
你是否对数据科学和机器学习充满好奇,却苦于找不到合适的实战机会?你是否想提升自己的编程和建模能力,却不知道从哪里开始?如果你有这些困惑,那么Kaggle就是你最好的选择!作为全球最大的数据科学竞赛平台,Kaggle不仅为你提供了海量的数据集和真实的业务场景,还能让你与全球顶尖的数据科学家同台竞技,快速提升自己的技能。
2025-02-12 20:15:00
2991
原创 简街实时市场数据预测(Jane Street Real-Time Market Data Forecasting)
在处理现代金融市场的建模问题时,有很多理由相信你试图解决的问题是不可能的。即使你抛开金融工具价格合理地反映了所有可用信息的信念,你也必须努力解决时间序列和分布,这些时间序列和分布具有您在其他类型的建模问题中没有遇到的属性。分布可能是著名的肥尾,时间序列可能是非静止的,数据通常可能无法满足非常成功的统计方法所依赖的许多基本假设。
2024-12-17 10:12:50
505
2
原创 Eedi - 挖掘数学中的误解
本次项目案例的主要思路是利用深度学习模型和相似度计算技术,从给定的数学问题和相关的误解信息中提取特征,进而对学生的回答进行误解识别和预测。实现的目标是生成对每个问题的潜在误解的预测结果,以便于进一步分析学生的思维过程和教学效果。项目案例核心作用是利用预训练的深度学习模型对用户的回答进行分析,并尝试识别出与之相关的潜在误解。实现了从数据预处理、文本嵌入生成、相似度计算到结果整理的全流程方法,便于教育研究者分析学生的理解过程,以帮助改进教学策略和内容。
2024-09-19 04:51:44
683
原创 RSNA 2024 腰椎退行性分类
本次项目的目标是创建可用于帮助使用腰椎 MR 图像检测和分类退行性脊柱状况的模型。根据世界卫生组织的数据,腰痛是全球残疾的主要原因,2020 年影响了 6.19 亿人。大多数人在一生中的某个时刻都会经历腰痛,并且频率会随着年龄的增长而增加。疼痛和活动受限通常是脊椎病的症状,脊椎病是一组退行性脊柱疾病,包括椎间盘退化和随后的椎管狭窄(椎管狭窄)、关节下隐窝或神经孔,并伴有腰部神经的压迫或刺激。磁共振成像 (MRI) 提供腰椎、椎间盘和神经的详细视图,使放射科医生能够评估这些疾病的存在和严重程度。对这些疾病进行
2024-09-13 22:00:00
338
原创 二手车价格预测
原始数据集:项目可能基于一个公开的二手车价格预测数据集,该数据集包含了影响二手车价格的多种特征,如车辆品牌、型号、年份、里程数、车况等。合成数据集:为了竞赛或特定需求,还可能使用基于深度学习模型生成的合成数据集。这些合成数据集的特征分布接近但不完全等同于原始数据集,为模型训练提供了额外的挑战和机会。二手车价格预测项目是一个典型的机器学习应用案例,它结合了数据科学、机器学习技术和业务知识。通过收集和处理二手车相关数据,构建并优化预测模型,最终实现了对二手车价格的准确预测。
2024-09-03 23:22:14
740
原创 Windows电脑无法连接Wi-Fi解决方案
最后的最后,我在拼多多上花9.82元购买了一个USB免驱动无线网卡,按照安装要求,一步一步操作,最后成功解决了无法连接Wi-Fi的问题。当然我无法连接Wi-Fi,但是我能够正常使用以太网,如果无法安装卖家给你发送的驱动软件,建议慎入,就是无法下载、无法使用其他设备把软件移植到你出现问题的电脑,哪怕你买了这个驱动也是无法连接,无法修改,建议直接到维修店让专业人士进行处理!!!
2024-08-08 11:22:31
486
原创 数据分析师成长之路
说到数据分析师,都以为是别人眼中高大上的工作,其实数据分析师是最苦的一份工作,虽然说数据分析很苦,但是能够给你带来的东西、带来的数据思维很有益处;接下来我就以从事多年的数据分析为大家揭秘数据分析师的工作以及这份工作能够为你带来什么?以及我是如何成为一名数据分析师的呢?
2024-05-07 19:54:57
1144
原创 机器学习知识点总结
组合特征是通过将两个或多个原始特征进行组合而创建的新特征。这种特征工程的目的是提供更多关于数据的信息,可能有助于提高模型的性能。组合特征可以捕捉原始特征之间的交互作用,使模型更好地理解数据。1)多项式特征通过将原始特征进行多项式扩展,创建其高阶组合特征。例如,对于两个特征 (x) 和 (y),可以创建 (x2)、(y2)、(xy)等高阶组合特征。sklearn中的类可以帮助实现这一过程。2)特征交叉选择特定的原始特征进行交叉,创建新的组合特征。这需要领域知识来选择哪些特征进行交叉。
2023-12-28 11:30:00
1022
1
原创 机器学习项目介绍:从基础算法到实践案例
通过本项目的介绍,您已经对机器学习有了更加深入的了解。我们希望您能够将所学知识应用于实际工作中,解决实际问题并取得更好的成果。同时,我们也希望您能够不断思考、探索和实践,不断丰富自己的技能和知识体系。在未来的发展中,随着技术的不断进步和应用场景的不断拓展,机器学习将会发挥更加重要的作用。我们相信,您将在这一领域取得更加辉煌的成就!如果您有任何问题或建议,欢迎在下方评论或私信与我们联系。让我们共同探讨机器学习的未来发展!
2023-12-27 14:42:54
1016
1
原创 决策树算法
我们可以构建一个决策树,其中每个节点都是一个特征,每个分支代表一个可能的决策结果(比如“甜”或“不甜”),每个叶节点就是最终的预测结果。这些指标可以衡量划分后的子集的纯度(即每个子集中同类样本的比例)以及划分后的信息熵(即样本的不确定性)。决策树的构建过程可以形象地理解为:在每个节点,我们都会考察一个特征,根据这个特征的不同取值,我们选择一个分支继续往下走。决策树是一种树形结构,其中每个节点代表一个特征或属性,每个分支代表一个决策结果,每个叶节点代表一个类别(在分类问题中)或一个数值(在回归问题中)。
2023-11-14 15:20:49
157
1
原创 逻辑回归算法原理及代码复现
损失函数可以表示为:J(w,b) = - log[p(y=1|x,w,b)] - log[p(y=0|x,w,b)]其中,α是学习率,∂J(w,b) / ∂w和∂J(w,b) / ∂b分别表示损失函数对w和b的梯度。通过迭代更新w和b,我们可以逐渐逼近最优解,使得模型的预测概率更接近真实概率,从而达到分类的目的。其中,p(y=1|x,w,b)和p(y=0|x,w,b)分别表示样本点属于类别1和类别0的概率。其中,w和b是模型参数,x是输入向量,g是sigmoid函数,h(x)表示模型预测为1的概率。
2023-11-12 17:34:48
179
1
转载 一文告诉你什么是大数据(短笑话)
客服: “陈先生您好,您是住在泉州街一号二楼,您家的电话是23939889,您的公司电话是23113731, 您的移动电话是939956956。客服:“根据“AIC CRM系统”记录,您有一辆摩托车, 车号是GY-7878。客服:“陈先生,根据您的记录, 您已经超过今日提款机提款限额。客服: “陈先生,因为我们有连线“AIC CRM 系统”。客服:“陈先生,对不起,请您付现,因为您的信用卡已经刷爆了,客服:“根据您的医疗纪录, 您有高血压和胆固醇偏高。客服:“嗯,这个足够您一家十口吃,六百九十九元!
2023-10-19 15:27:08
280
原创 机器学习项目三:员工离职率分析
1.理解数据,理解数据集中每个特征的实际意义。2.探索性分析,理解影响因素与最终结果之间的关系,做到心中有数。此处定性的分析,也只能表达其相关性。3.建立决策树模型和支持向量机模型,其中支持向量机模型涉及到了参数优化。通过accuracy,recall,precision评估两个模型的效果。4.通过对比两个模型的效果,最终选择决策树算法。原因有两点,决策树算法简单,计算效率高,可解释性非常好。
2023-10-15 20:36:29
1578
8
原创 机器学习项目(二)科比生涯数据集分析
尽管你可能没有关注过篮球赛事,但你一定听过科比·布莱恩特这个名字,这位与乔丹齐名的篮球巨星。科比在1996年的选秀大会上以第十三顺位的身份步入了职业联赛,此后他一直为洛杉矶湖人队效力,表现出了对球队的忠诚与热爱。他在2016年宣布退役,结束了辉煌的职业生涯。科比五次帮助湖人队夺得NBA总冠军,两次获得FMVP,一次获得MVP,四次荣获AMVP,并十八次入选全明星阵容。他的生涯总得分超过三万三千分,无疑是一位未来将入驻名人堂的伟大球员。然而,在今年的1月26日,科比所乘坐的私人飞机失事。
2023-10-12 01:40:28
2666
原创 机器学习项目实战(一):Titanic数据集乘客获救预测
在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。cross_val_score:交叉验证函数,用于评估模型性能,他可以将数据集分成K个子集,每个子集轮流作为测试集,其余自己作为训练及,最终返回k个测试集的得分,这个函数可以用于分类、回归等不同类型的模型估计。
2023-10-10 07:00:48
1271
1
随机森林算法原理与Python实现
2024-09-20
机器学习知识点总结与应用技巧
2024-09-20
零售行业数据分析大纲与方法
2024-09-20
初始化模型权重efficientnetv2-keras-efficientnetv2-s-v2
2024-09-13
HTML5知识点总结汇总
2023-01-02
机器学习项目(二)科比生涯数据集
2023-10-12
项目实战-机器学习之泰坦尼克遇难乘客获救预测
2023-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人