自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

自学以强自身

在这里,你可以找到有关数据学习的东西。

  • 博客(33)
  • 收藏
  • 关注

原创 从“拍脑袋”到“看数据”的认知革命

很多人认为数据分析的价值在于解决问题,但实际上,它的更大价值在于发现问题,特别是那些尚未浮出水面的问题。他们通过分析用户行为数据,发现了《纸牌屋》这部剧集的潜力所在:喜欢原版英剧的用户群体庞大,导演大卫·芬奇的作品有稳定粉丝基础,主演凯文·史派西的电影在平台表现优异。然而,当两个人持有相反观点时,最终拍板的往往不是基于数据的合理判断,而是谁的声音更大、谁的职级更高。例如,分析销售下滑,可以从“流量减少”、“转化率降低”和“客单价下降”三个维度入手,这三个因素互不重叠又完全涵盖了销售变化的所有可能性。

2025-03-13 17:35:43 737

原创 网店数据分析全攻略:从销售额到客户运营的深度解析

例如,某商品的成交价为100元,包装成本为5元,物流成本为10元,商品成本为50元,则货单利润为35元。例如,某SKU的销售额为10万元,毛利率为50%,是明星产品。例如,某店铺的总货单利润为10万元,售后成本为2万元,平台成本为3万元,则店铺整体利润为5万元。例如,某活动的增量销售额为10万元,毛利率为30%,活动成本为2万元,则活动净收益为1万元。例如,某商品的销售收入为100元,商品成本为60元,则毛利率为40%。例如,某商品的销售成本为10万元,平均库存为5万元,则库存周转率为2。

2025-03-12 15:10:47 560

原创 蜜雪冰城集团深度研究报告——从招股书解码万店帝国的增长密码与未来挑战

蜜雪冰城集团深度研究报告——从招股书解码万店帝国的增长密码与未来挑战。

2025-03-07 11:02:08 491

原创 如何搭建指标体系?

一、顶层设计阶段(战略层)二、指标构建阶段(战术层)三、技术实现阶段(执行层)

2025-02-27 16:01:29 470

原创 数据分析必学案例--波士顿犯罪分析

EDA,在数据清洗和建模工作之前,对数据集的分布有一个总体的认识。探索各个特征之间的关系。EDA部分的主要工作在于数据可视化,前提是对数据做了初步的预处理工作。在本例子中,将许多object类型的数据转化为了category类型。熟悉sns.countplot(),sns.boxplot(),sns.kdeplot(),sns.lineplot(),sns.heatmap(),sns.scatterplot()sns.countplot(data,x,hue,order)适合单特征分析。

2025-02-19 17:01:32 657

原创 二十九道机器学习经典面试题

定义:模型在训练数据上表现极好(如准确率高),但在未知数据(测试集/实际场景)中表现差,本质是“死记硬背”训练数据中的噪声或细节,导致泛化能力差。典型表现:训练误差低,测试误差高。解决方法数据层面增加训练数据量(数据增强)。清洗噪声数据(如异常值、错误标签)。模型层面降低模型复杂度(如减少神经网络层数、决策树的深度)。加入正则化(L1/L2正则化,约束权重)。训练技巧交叉验证(如K折交叉验证)。早停法(Early Stopping):监控验证集误差,提前终止训练。

2025-02-18 18:22:19 1324

原创 机器学习一定要死磕这几种模型!

众所周知,在整个机器学习领域中,使用的最多的模型,无非就是上图的模型,今天就给大家揭秘这些模型的使用场景,并且每一个模型均有一个例子给大家详细展示了在机器学习中的作用。

2025-02-16 17:11:57 910

原创 Kaggle 入门指南:数据预处理与特征工程全解析

本文将详细讲解在参加 Kaggle 比赛之前,如何进行数据预处理、特征筛选以及特征工程,帮助你从数据中提取有价值的信息,提升模型的性能。

2025-02-14 20:00:00 949

原创 Scikit-learn 使用指南:从入门到实战

在当今数据驱动的世界中,机器学习已经成为各行各业的核心技术之一。无论是金融领域的风险预测、医疗领域的疾病诊断,还是电商平台的个性化推荐,机器学习都在发挥着重要作用。

2025-02-13 22:00:00 828

原创 从零开始,手把手教你玩转Kaggle比赛!

你是否对数据科学和机器学习充满好奇,却苦于找不到合适的实战机会?你是否想提升自己的编程和建模能力,却不知道从哪里开始?如果你有这些困惑,那么Kaggle就是你最好的选择!作为全球最大的数据科学竞赛平台,Kaggle不仅为你提供了海量的数据集和真实的业务场景,还能让你与全球顶尖的数据科学家同台竞技,快速提升自己的技能。

2025-02-12 20:15:00 2228

原创 DeepSeek从入门到精通?

本文三大核心内容:DeepSeek是什么?DeepSeek能够做什么?如何使用DeepSeek?

2025-02-11 16:41:14 477

原创 简街实时市场数据预测(Jane Street Real-Time Market Data Forecasting)

在处理现代金融市场的建模问题时,有很多理由相信你试图解决的问题是不可能的。即使你抛开金融工具价格合理地反映了所有可用信息的信念,你也必须努力解决时间序列和分布,这些时间序列和分布具有您在其他类型的建模问题中没有遇到的属性。分布可能是著名的肥尾,时间序列可能是非静止的,数据通常可能无法满足非常成功的统计方法所依赖的许多基本假设。

2024-12-17 10:12:50 399 2

原创 数据分析师在面试过程中如何应对面试官问题?

2024-12-10 09:47:13 132

原创 Eedi - 挖掘数学中的误解

本次项目案例的主要思路是利用深度学习模型和相似度计算技术,从给定的数学问题和相关的误解信息中提取特征,进而对学生的回答进行误解识别和预测。实现的目标是生成对每个问题的潜在误解的预测结果,以便于进一步分析学生的思维过程和教学效果。项目案例核心作用是利用预训练的深度学习模型对用户的回答进行分析,并尝试识别出与之相关的潜在误解。实现了从数据预处理、文本嵌入生成、相似度计算到结果整理的全流程方法,便于教育研究者分析学生的理解过程,以帮助改进教学策略和内容。

2024-09-19 04:51:44 608

原创 RSNA 2024 腰椎退行性分类

本次项目的目标是创建可用于帮助使用腰椎 MR 图像检测和分类退行性脊柱状况的模型。根据世界卫生组织的数据,腰痛是全球残疾的主要原因,2020 年影响了 6.19 亿人。大多数人在一生中的某个时刻都会经历腰痛,并且频率会随着年龄的增长而增加。疼痛和活动受限通常是脊椎病的症状,脊椎病是一组退行性脊柱疾病,包括椎间盘退化和随后的椎管狭窄(椎管狭窄)、关节下隐窝或神经孔,并伴有腰部神经的压迫或刺激。磁共振成像 (MRI) 提供腰椎、椎间盘和神经的详细视图,使放射科医生能够评估这些疾病的存在和严重程度。对这些疾病进行

2024-09-13 22:00:00 274

原创 二手车价格预测

原始数据集:项目可能基于一个公开的二手车价格预测数据集,该数据集包含了影响二手车价格的多种特征,如车辆品牌、型号、年份、里程数、车况等。合成数据集:为了竞赛或特定需求,还可能使用基于深度学习模型生成的合成数据集。这些合成数据集的特征分布接近但不完全等同于原始数据集,为模型训练提供了额外的挑战和机会。二手车价格预测项目是一个典型的机器学习应用案例,它结合了数据科学、机器学习技术和业务知识。通过收集和处理二手车相关数据,构建并优化预测模型,最终实现了对二手车价格的准确预测。

2024-09-03 23:22:14 561

原创 Windows电脑无法连接Wi-Fi解决方案

最后的最后,我在拼多多上花9.82元购买了一个USB免驱动无线网卡,按照安装要求,一步一步操作,最后成功解决了无法连接Wi-Fi的问题。当然我无法连接Wi-Fi,但是我能够正常使用以太网,如果无法安装卖家给你发送的驱动软件,建议慎入,就是无法下载、无法使用其他设备把软件移植到你出现问题的电脑,哪怕你买了这个驱动也是无法连接,无法修改,建议直接到维修店让专业人士进行处理!!!

2024-08-08 11:22:31 455

原创 数据分析师成长之路

说到数据分析师,都以为是别人眼中高大上的工作,其实数据分析师是最苦的一份工作,虽然说数据分析很苦,但是能够给你带来的东西、带来的数据思维很有益处;接下来我就以从事多年的数据分析为大家揭秘数据分析师的工作以及这份工作能够为你带来什么?以及我是如何成为一名数据分析师的呢?

2024-05-07 19:54:57 1122

原创 机器学习知识点总结

组合特征是通过将两个或多个原始特征进行组合而创建的新特征。这种特征工程的目的是提供更多关于数据的信息,可能有助于提高模型的性能。组合特征可以捕捉原始特征之间的交互作用,使模型更好地理解数据。1)多项式特征通过将原始特征进行多项式扩展,创建其高阶组合特征。例如,对于两个特征 (x) 和 (y),可以创建 (x2)、(y2)、(xy)等高阶组合特征。sklearn中的类可以帮助实现这一过程。2)特征交叉选择特定的原始特征进行交叉,创建新的组合特征。这需要领域知识来选择哪些特征进行交叉。

2023-12-28 11:30:00 1012 1

原创 机器学习项目介绍:从基础算法到实践案例

通过本项目的介绍,您已经对机器学习有了更加深入的了解。我们希望您能够将所学知识应用于实际工作中,解决实际问题并取得更好的成果。同时,我们也希望您能够不断思考、探索和实践,不断丰富自己的技能和知识体系。在未来的发展中,随着技术的不断进步和应用场景的不断拓展,机器学习将会发挥更加重要的作用。我们相信,您将在这一领域取得更加辉煌的成就!如果您有任何问题或建议,欢迎在下方评论或私信与我们联系。让我们共同探讨机器学习的未来发展!

2023-12-27 14:42:54 991 1

原创 决策树算法

我们可以构建一个决策树,其中每个节点都是一个特征,每个分支代表一个可能的决策结果(比如“甜”或“不甜”),每个叶节点就是最终的预测结果。这些指标可以衡量划分后的子集的纯度(即每个子集中同类样本的比例)以及划分后的信息熵(即样本的不确定性)。决策树的构建过程可以形象地理解为:在每个节点,我们都会考察一个特征,根据这个特征的不同取值,我们选择一个分支继续往下走。决策树是一种树形结构,其中每个节点代表一个特征或属性,每个分支代表一个决策结果,每个叶节点代表一个类别(在分类问题中)或一个数值(在回归问题中)。

2023-11-14 15:20:49 147 1

原创 逻辑回归算法原理及代码复现

损失函数可以表示为:J(w,b) = - log[p(y=1|x,w,b)] - log[p(y=0|x,w,b)]其中,α是学习率,∂J(w,b) / ∂w和∂J(w,b) / ∂b分别表示损失函数对w和b的梯度。通过迭代更新w和b,我们可以逐渐逼近最优解,使得模型的预测概率更接近真实概率,从而达到分类的目的。其中,p(y=1|x,w,b)和p(y=0|x,w,b)分别表示样本点属于类别1和类别0的概率。其中,w和b是模型参数,x是输入向量,g是sigmoid函数,h(x)表示模型预测为1的概率。

2023-11-12 17:34:48 157 1

转载 一文告诉你什么是大数据(短笑话)

客服: “陈先生您好,您是住在泉州街一号二楼,您家的电话是23939889,您的公司电话是23113731, 您的移动电话是939956956。客服:“根据“AIC CRM系统”记录,您有一辆摩托车, 车号是GY-7878。客服:“陈先生,根据您的记录, 您已经超过今日提款机提款限额。客服: “陈先生,因为我们有连线“AIC CRM 系统”。客服:“陈先生,对不起,请您付现,因为您的信用卡已经刷爆了,客服:“根据您的医疗纪录, 您有高血压和胆固醇偏高。客服:“嗯,这个足够您一家十口吃,六百九十九元!

2023-10-19 15:27:08 258

原创 机器学习项目三:员工离职率分析

1.理解数据,理解数据集中每个特征的实际意义。2.探索性分析,理解影响因素与最终结果之间的关系,做到心中有数。此处定性的分析,也只能表达其相关性。3.建立决策树模型和支持向量机模型,其中支持向量机模型涉及到了参数优化。通过accuracy,recall,precision评估两个模型的效果。4.通过对比两个模型的效果,最终选择决策树算法。原因有两点,决策树算法简单,计算效率高,可解释性非常好。

2023-10-15 20:36:29 1505 8

原创 机器学习项目(二)科比生涯数据集分析

尽管你可能没有关注过篮球赛事,但你一定听过科比·布莱恩特这个名字,这位与乔丹齐名的篮球巨星。科比在1996年的选秀大会上以第十三顺位的身份步入了职业联赛,此后他一直为洛杉矶湖人队效力,表现出了对球队的忠诚与热爱。他在2016年宣布退役,结束了辉煌的职业生涯。科比五次帮助湖人队夺得NBA总冠军,两次获得FMVP,一次获得MVP,四次荣获AMVP,并十八次入选全明星阵容。他的生涯总得分超过三万三千分,无疑是一位未来将入驻名人堂的伟大球员。然而,在今年的1月26日,科比所乘坐的私人飞机失事。

2023-10-12 01:40:28 2612

原创 机器学习项目实战(一):Titanic数据集乘客获救预测

在机器学习中,将数据集A分为训练集(training set)B和测试集(test set)C,在样本量不充足的情况下,为了充分利用数据集对算法效果进行测试,将数据集A随机分为k个包,每次将其中一个包作为测试集,剩下k-1个包作为训练集进行训练。cross_val_score:交叉验证函数,用于评估模型性能,他可以将数据集分成K个子集,每个子集轮流作为测试集,其余自己作为训练及,最终返回k个测试集的得分,这个函数可以用于分类、回归等不同类型的模型估计。

2023-10-10 07:00:48 1237 1

原创 初学者在使用PyCharm时遇到报错,却看不懂怎么办?

首先你可以点击PyCharm中的“file”,找到“setting”,“setting”下有一个“Plugins”,直接在右边搜索框中搜索“Translation”,下载安装之后就可以进行使用。在PyCharm中,"Translation"通常指的是国际化和本地化(i18n)的过程,即将应用程序的文本翻译成不同语言,以适应不同的地区和语言环境。翻译检查:PyCharm可以检查翻译文件中的错误和警告,例如缺失的翻译、不一致的翻译等。这可以帮助你及时发现和修复问题,确保翻译的准确性和一致性。

2023-08-29 00:28:25 656 1

原创 数据结构与算法

链表(Linked List):由节点组成的数据结构,每个节点包含数据和指向下一个节点的指针。队列(Queue):一种先进先出(FIFO)的数据结构,可以在队尾插入元素,在队头删除元素。栈(Stack):一种先进后出(LIFO)的数据结构,只能在栈顶进行插入和删除操作。堆(Heap):一种特殊的树结构,满足堆属性(最大堆或最小堆)。常用于排序、搜索和表达式求值等场景。图(Graph):由节点和边组成的非线性数据结构,节点之间可以有多个连接。数组(Array):一组连续的内存空间,可以存储相同类型的数据。

2023-08-28 09:30:00 73 1

原创 在pycharm中如何配置python

PyCharm是一款由JetBrains开发的Python集成开发环境(IDE),提供了丰富的功能和工具,使开发者能够更高效地编写、调试和管理Python代码。数据库工具:PyCharm内置了与多种数据库(如MySQL、PostgreSQL和SQLite)的集成,可以方便地进行数据库操作和查询,简化与数据库的交互过程。代码编辑器:PyCharm提供了一个强大的代码编辑器,支持自动补全、语法高亮、代码导航和重构等功能,可以帮助开发者提高编码速度和准确性。

2023-08-25 15:04:29 1884 1

原创 tensorflow内核挂掉

执行命令完毕之后,进入Jupyter中,更换自己的内核:Kernel–change kernel–tf(你自己创建的名称)二、由于新创建的虚拟环境没有jupyter,需要重新安装。注意:上方的环境是否是你想要安装Jupyter的环境。以上是我的解决方案,可以作为参考!

2023-02-26 05:15:00 1297

原创 数据分析面试题

北极星指标也被称为第一关键指标,是指业务在当前阶段最为关注的一个指标,引导当前业务的发展。当然北极星指标也是一个比较汇总的指标,可以通过拆解拆分各个子指标,更便于整体指标的实现和分析。常见的虚荣指标包括:累计用户数,累计销量、销售额等,都是只涨不跌的虚荣指标。定义:一个指标不能叫体系,多个不相关的指标也不能叫体系,一个指标体系是多个相关的指标有机结合起来,具有严格的逻辑和分层体系。建立方法:根据业务特点和生命周期选择第一关键指标,或者叫北极星指标;

2023-02-16 02:05:01 3007

原创 python,很强

你的编程语言何必是C或C++!

2022-11-09 07:30:00 214

原创 宇宙最强anaconda安装第三方库粗暴法

第一步找到:【Environments】------》〉》〉第二步:选中【All】------》〉》第三步:在搜索框中选择需要安装的第三方包------》〉》第四步:勾选搜索到的第三方包。第五步到最后一直点击【Apply】。

2022-11-08 07:30:00 693

随机森林算法原理与Python实现

内容概要:本文介绍了一种通过组合多个简单决策树来提高预测精度与稳定的机器学习方法——随机森林算法。详细阐述了随机森林基于"Bagging"技术的工作机制及其避免过拟合的能力,并提供了包括随机森林类及决策树类的Python实现代码实例,展示了整个构造流程与应用范围(分类问题与回归问题)。 适用人群:具有一定机器学习理论基础及希望进一步研究或实践随机森林的工程人员和技术爱好者。 使用场景及目标:适用于多种任务如图像分类(识别动物)、温度预测等问题,在分类与回归领域均表现出较高的实用价值。 其他说明:附带具体代码案例用于帮助读者更好地理解和动手操作,以便于将这一技术应用于实际项目当中。

2024-09-20

机器学习知识点总结与应用技巧

内容概要:本文主要涵盖机器学习领域的多个核心方面,包括特征工程、文本和图像处理技巧、A/B 测试的重要性及其具体步骤、模型性能问题解析,以及不同场景下常用的概率模型、主题模型及其应用。此外,还包括模型损失函数介绍和改进大规模训练数据处理方法等重要内容。 适用人群:机器学习从业者、数据分析员、研究者以及对该领域感兴趣的进阶学习者。 使用场景及目标:理解 ML 关键概念与流程,掌握最佳工具和技术来解决各种机器学习问题,如文本分类、图像识别、模型选择、性能评估以及利用主题模型等高级应用。 阅读建议:全面研读,重点关注与自己的实际工作场景密切相关的部分;同时实践所学理论,以便深入理解和掌握各项技能。

2024-09-20

零售行业数据分析大纲与方法

内容概要:本文阐述了零售行业的数据分析的重要性及其在现状、原因和预测分析方面的作用。文中探讨了“人货场”的演进阶段,并具体分析了线下实体店铺中涉及的人效评估指标、商品分析方法,如商品结构占比和消化进度分析、供应链管理等。同时也讨论了场效相关的核心业绩指标如‘坪效’及其构成要素,比如销售额的组成分析。文章末尾提出了几种常用的数据分析方法——包括ABC分类法、RFM会员模型在内的多种手段,帮助零售商理解其数据,并更好地利用这些信息去优化经营战略。 适用人群:适用于从事零售行业工作的经理级和分析师们,以及希望深入了解该领域的学者和学生。 使用场景及目标:可用于理解现有业务的绩效表现,探索存在的机会或者问题所在,并基于历史记录对未来做出规划。目的是为了帮助企业通过提高运营效率来实现盈利最大化和客户满意度增长。 其他说明:无论零售业态形式怎样变化,人、货、场一直是零售业的关键要素,而如何借助大数据的力量深入剖析这三方面并指导决策,则是未来零售业的发展方向。

2024-09-20

神经网络原理及其Python自定义实现

大模型实战教程

2024-09-19

bge-small-en-v1.5-transformers-bge-v2.tar

主要是项目案例中的模型

2024-09-19

eedi-mining-misconceptions-in-mathematics

eedi-mining-misconceptions-in-mathematics

2024-09-19

初始化模型权重efficientnetv2-keras-efficientnetv2-s-v2

初始化模型权重efficientnetv2-keras-efficientnetv2-s-v2

2024-09-13

kaggle项目:二手车价格预测

本数据是kaggle项目:二手车价格预测的数据

2024-09-03

kaggle项目:ISIC 2024 - 使用 3D-TBP 检测皮肤癌

本数据是kaggle项目:ISIC 2024 - 使用 3D-TBP 检测皮肤癌的字段描述(数据字典)

2024-08-25

机器学习项目(二)科比生涯数据集

尽管你可能没有关注过篮球赛事,但你一定听过科比·布莱恩特这个名字,这位与乔丹齐名的篮球巨星。科比在1996年的选秀大会上以第十三顺位的身份步入了职业联赛,此后他一直为洛杉矶湖人队效力,表现出了对球队的忠诚与热爱。他在2016年宣布退役,结束了辉煌的职业生涯。 科比五次帮助湖人队夺得NBA总冠军,两次获得FMVP,一次获得MVP,四次荣获AMVP,并十八次入选全明星阵容。他的生涯总得分超过三万三千分,无疑是一位未来将入驻名人堂的伟大球员。 然而,在今年的1月26日,科比所乘坐的私人飞机失事。这场意外带走了科比以及他的二女儿吉安娜的生命,他们将永远留在我们心中。

2023-10-12

项目实战-机器学习之泰坦尼克遇难乘客获救预测

背景说明:泰坦尼克沉船是震惊世界的海难事件,1912年4月15日,在它的处女航中,撞上冰川后沉没。造成了超过1502人死亡,该事件也引起了全世界对于船舶安全法规的重视。在这场灾难中,有一些因素也导致了部分乘客的获救机率比较高,如老人,小孩,上流阶层,我们的目标是利用机器学习算法对获救乘客就行准确的预测。

2023-10-09

HTML5知识点总结汇总

内容概述:文章包含了最基础的HTML5的知识点。 适用人群:适用于初级选手,可用作复习资料。 能学到什么:最开始的入门学习以及初识HTML。 阅读建议:先看视频在看本文章。

2023-01-02

图片展示代码学习,以iPhone展示为例,但与官网不一致

完美展示了html被长沙市封装后图片展示的详情,在这里你可以学习到如何展示图片,如何对文字颜色进行更改。

2022-11-27

文本学习-《背影》-朱自清

html+css文字展示学习!

2022-11-27

前端学习-表单使用:包括各种选项

前端学习-表单使用:包括各种选项

2022-11-27

html5学习-学生信息表

html5学习-学生信息表

2022-11-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除