
数据分析实战
文章平均质量分 96
蓝皮怪
普通双非毕业生,应用统计学专业,在校期间,获得了多项省级和全国竞赛的奖项,包括第十二届全国大学生数学竞赛省级二等奖、正大杯第十一届全国大学生市场调查与分析大赛省级三等奖,以及2021年全国大学生数学建模竞赛云南赛区本科组三等奖、首届云南省大学生市场调查与分析大赛本科组一等奖、第八届全国大学生统计建模大赛云南赛区选拔赛本科组一等奖;目前,我已经在社区发布了30多个项目,和鲸主页:https://www.heywhale.com/home/user/profile/620b264cc1ae5e00174705fa/overview,公众号:蓝皮怪的数据坊。
展开
-
基于运动电商虚拟数据的商业洞察与分析
本项目基于模拟的阿迪达斯电商销售数据,通过AI辅助完成分析代码,旨在展示数据分析在电商领域的实际应用价值,尽管使用的是虚构数据,但分析方法、思路与结论仍具有参考意义,可作为电商数据分析的学习案例与方法论示范,本分析涵盖用户价值评估、销售周期与促销效果、产品组合优化以及区域消费差异等多个维度,为运动品牌电商决策提供了数据驱动的思考框架。原创 2025-03-17 21:55:16 · 1005 阅读 · 0 评论 -
【和鲸社区获奖作品】内容平台数据分析报告
本项目为和鲸社区《内容平台数据分析实战》活动中的7.5分作品。原创 2025-02-28 22:14:02 · 832 阅读 · 0 评论 -
基于中介效应与随机森林对热量消耗研究分析
在全民健康意识不断提升的背景下,精准量化运动能量消耗已成为个性化健身计划制定、运动效能评估及健康管理方案优化的核心需求,随着智能穿戴设备的普及,实时监测运动生理指标并预测热量消耗,不仅能够帮助用户科学规划训练强度,还可为健康管理机构提供数据驱动的决策支持,从而提升运动干预的有效性。原创 2025-02-24 11:19:55 · 677 阅读 · 0 评论 -
基于聚类与相关性分析对马来西亚房价数据进行分析
本项目旨在对马来西亚房地产市场进行初步的数据分析,探索各州的房产市场特征。通过对房产中位数价格、每平方英尺价格和交易数量等指标的可视化,结合聚类分析和点二列相关性分析,试图揭示不同房产类型与市场趋势之间的关系。该分析可以帮助更好地理解市场的基本情况,并为后续研究或决策提供数据支持。原创 2025-01-25 17:20:08 · 1600 阅读 · 0 评论 -
基于俄罗斯酒精消费的统计分析与区域差异研究
本项目基于时间趋势分析、聚类分析、相关性分析、建立混合效应模型对2017-2023年间俄罗斯不同地区酒精消费数据。原创 2025-01-10 16:55:04 · 602 阅读 · 0 评论 -
基于t检验与随机森林对用户购买行为进行分析
本项目旨在分析用户的年龄和预估年收入这两个特征对用户购买决策的影响。通过对数据的深入探索,我们希望揭示不同年龄段和收入水平的用户群体在消费行为上的差异,从而识别出可能促使用户购买的关键因素。原创 2024-12-31 16:56:09 · 800 阅读 · 0 评论 -
基于统计分析与随机森林的环境条件对生菜生长的影响研究
基于2023年8月3日至2023年9月19日期间记录的70个不同生菜样本的生长数据进行分析,可以更好地理解温度、湿度、pH值和总溶解固体(TDS)等环境条件如何影响生菜的生长动态。原创 2024-12-28 19:24:52 · 957 阅读 · 0 评论 -
基于卡方检验的美国警务人员与警犬死亡数据关联分析
本项目主要采用了卡方检验,对1791-2022年间美国警察死亡数据和1877-2022年间警犬死亡数据分析。原创 2024-12-11 14:54:34 · 908 阅读 · 0 评论 -
基于NBA球员数据的聚类分析与得分预测模型
本项目基于某赛季NBA球员的赛场数据,进行了全面的数据分析,旨在揭示球员表现的规律和趋势,探索不同球员类型的特征,并为球队在人员选择、战术部署及未来赛季预测等方面提供数据支持。原创 2024-12-03 16:29:15 · 1527 阅读 · 1 评论 -
澳洲房产市场数据清洗、聚类与可视化综合分析
本项目主要进行了数据清洗、可视化分析、K-Means聚类,同时保留了我分析时候的思路与代码报错分析,适合新手学习。原创 2024-11-26 17:49:39 · 943 阅读 · 0 评论 -
用户社交媒体的使用与情绪分析全流程:从数据清洗到模型构建
本项目探讨社交媒体使用模式与情绪状态的关系,并且建立随机森林和 CatBoost 模型可以预测用户当天的主导情绪状态,为心理健康管理提供了参考依据。原创 2024-11-21 13:14:09 · 1548 阅读 · 0 评论 -
基于关联分析与聚类的空气质量研究
本项目深入分析了该地区在不同时段和气象条件下的空气污染特征,探索了不同污染物之间的关联关系及其与环境条件的相互影响,这不仅有助于更好地理解空气污染的动态变化,还可以为优化空气质量监测网络、制定有效的污染控制政策提供数据支持。原创 2024-11-14 18:27:24 · 1401 阅读 · 0 评论 -
基于机器学习的健身房会员健康风险分类及预测分析
随着健康意识的提升和健身文化的普及,人们对科学健身和个性化训练的需求日益增长,健身房会员的锻炼模式和健康管理需求呈现出新的特点,本项目使用基于真实健身模式生成的973位会员数据进行深入分析,探索不同会员群体的训练特征和健康风险,了解影响会员训练效果的关键因素,这不仅有助于理解会员的锻炼习惯,还可以为健身房优化服务体系、制定更科学的训练计划提供数据支持,同时,通过建立健康风险预测模型,可以更好地识别潜在的健康隐患,为提供安全、高效的个性化训练指导奠定基础。原创 2024-11-05 22:16:39 · 1835 阅读 · 2 评论 -
基于随机森林的智能手机用户行为分类及流量预测分析
随着智能手机的快速发展,消费者对智能手机的使用行为和习惯也日趋多样化。特别是在5G时代的到来和各类应用的丰富发展背景下,智能手机使用模式呈现出新的特点,本项目使用模拟生成的700位用户智能手机使用数据进行深入分析,探索不同用户群体的使用行为特征,了解影响用户行为分类的关键因素,这不仅有助于理解用户的使用习惯,还可以为手机制造商优化产品设计、运营商制定更智能的流量套餐方案提供数据支持。同时,通过建立预测模型,可以更好地预判用户的行为类别和数据流量需求,为提供个性化服务奠定基础。原创 2024-10-29 16:52:10 · 2002 阅读 · 0 评论 -
关于iPhone 16 Pro评测视频评论区特征的多维度分析
本项目旨在通过对何同学和影视飓风两位知名UP主的iPhone 16 Pro评测视频评论数据进行深入分析,探索评论区的用户参与度、互动特征和情感倾向,这不仅有助于理解B站用户的行为模式,还可以为内容创作者提供改进互动策略的依据。原创 2024-10-23 17:41:18 · 1110 阅读 · 0 评论 -
基于机器学习与深度学习的贷款批准预测
该数据集源自Kaggle的“Playground Series - Season 4, Episode 10”竞赛,是通过在贷款批准预测数据集上训练的深度学习模型生成的数据,旨在使用借款人信息预测贷款批准结果,它通过模拟真实贷款审批场景,帮助金融机构评估借款人风险。原创 2024-10-17 22:06:38 · 2475 阅读 · 5 评论 -
基于多维统计分析与GMM聚类的食品营养特征研究
在当今社会,随着人们对健康和营养的日益关注,深入了解食品的营养成分及其对人体的影响变得越来越重要,本研究采用了多维度的分析方法,包括营养成分比较分析、统计检验、营养密度分析和高斯混合模型(GMM)聚类分析,揭示了不同食品类别在营养成分上的显著差异,以及各种营养素之间复杂的相互关系。原创 2024-10-03 16:18:07 · 1410 阅读 · 0 评论 -
基于相关性分析和梯度提升的睡眠质量影响因素研究
本研究旨在综合运用多种数据分析方法,包括描述性统计、相关性分析、聚类分析和机器学习模型,全面探讨影响睡眠质量的潜在因素。为了更精确地评估每个特征的重要性,特别关注了机器学习模型中的特征重要度分析,深入研究了模型中各因素对预测睡眠质量的贡献。这一系统化的分析框架有助于揭示影响个体睡眠质量的关键因素。原创 2024-09-23 15:23:06 · 2174 阅读 · 0 评论 -
基于聚类与LSTM对比特币价格深度分析与预测
本项目对比特币市场进行了全面而深入的分析,采用多种技术指标和数据分析方法,揭示了比特币价格动态和市场行为的关键特征,详细刻画了比特币的市场波动性。原创 2024-09-08 22:28:13 · 2741 阅读 · 1 评论 -
利用机器学习和SHAP分析学生成绩影响因素
本研究旨在综合运用多种数据分析方法,包括可视化分析、相关性分析和机器学习模型,全面探讨影响学生期末成绩的潜在因素,为了更精确地评估每个特征的重要性,还引入了 SHAP 解释模型,深入研究了模型中各因素对预测结果的贡献。这一系统化的分析框架不仅有助于揭示影响学生学业表现的关键因素,也为今后的教育研究提供了新的视角和方法。原创 2024-09-04 13:16:34 · 2450 阅读 · 3 评论 -
[引人深思]博彩用户真的赢了吗?——多维度揭示赌博危害
本研究通过对博彩用户的全面分析,揭示了博彩活动的本质及其对参与者的危害,数据表明,没有用户能够在长期内保持正收益,反而投注越多,损失越大。因此,远离赌博,保持清醒的财务意识,保护心理健康,是每一个个体应当遵循的基本原则。只有避免卷入博彩的泥潭,才能真正守护自身的财务和心理健康。原创 2024-09-01 21:24:58 · 1473 阅读 · 0 评论 -
[适合新手的NLP项目]基于机器学习的垃圾信息识别分类
本项目旨在通过文本分析和机器学习模型对垃圾邮件进行有效检测,验证了机器学习模型在垃圾信息分类中的有效性和可靠性,为构建更加智能和高效的垃圾过滤系统提供了数据支持和技术参考。原创 2024-08-29 09:51:27 · 1333 阅读 · 0 评论 -
女性权益之镜:印度侵害事件分析
本项目通过可视化分析、相关性分析和方差分析,深入探讨了印度不同年份侵害女性的事件,这些结论为进一步理解印度不同地区和不同年份的犯罪动态提供了有力的依据,并为未来的政策制定和执法提供了参考依据。原创 2024-08-27 16:32:29 · 1206 阅读 · 0 评论 -
基于可视化分析与统计检验分析影响举重的因素
本项目进行了可视化分析、斯皮尔曼相关性分析、KW检验来研究影响举重表现的因素,并且避开了举重者姓名,将其当成3000个独立的举重者,进行了K均值聚类原创 2024-08-16 14:36:00 · 724 阅读 · 0 评论 -
基于统计检验与机器学习研究客户对保险兴趣的因素
本项目通过对训练集和测试集进行一致性检验,确保它们在特征分布上的一致性。接着进行了客户感兴趣的影响因素分析,并建立了随机森林模型和XGBoost模型,可能对新的车辆保险产品感兴趣,从而有效地规划其营销策略和优化业务模式。原创 2024-08-07 21:17:23 · 1290 阅读 · 1 评论 -
基于统计检验与随机森林分析不同天气类型的影响因素
本项目使用了一个人工合成的天气数据集,模拟了雨天、晴天、多云和雪天四种类型,在分析过程中,对数据进行了异常值处理,并通过描述性统计对数据进行了初步探索,接着,使用Kruskal-Wallis检验、Dunn检验和卡方检验分析了温度、湿度、风速、降水量、气压、紫外线指数、能见度、云量、季节和地点等特征对天气类型的影响,最终,构建了随机森林模型进行预测,并生成了模型的重要特征图,该项目适用于初学者学习如何进行全面的数据分析和机器学习模型构建。原创 2024-08-01 11:10:28 · 1300 阅读 · 0 评论 -
基于机器学习与统计检验分析用户行为关键因素
本项目旨在探讨影响用户交互和购买行为的关键因素,并通过建立随机森林模型和XGBoost模型进行深入分析。研究结果将为优化网站设计提供重要参考,有助于提升在线书店的用户参与度和市场竞争力。原创 2024-07-22 07:30:00 · 1089 阅读 · 0 评论 -
基于随机森林与XGBoost模型的机器故障关键因素分析
在现代工业环境中,机器故障预测已成为提升生产效率和减少停机时间的关键因素,准确预测机器故障能够帮助企业制定预防性维护计划,降低维护成本,提高设备的使用寿命和生产线的连续性。通过深入分析影响机器故障的主要因素,可以帮助企业更好地理解机器运行状态,从而制定更有针对性的维护策略,提高整体生产效率和设备可靠性,本项目旨在探讨影响机器故障的关键因素,并通过建立随机森林模型和XGBoost模型进行故障预测,研究结果将为优化维护策略提供重要参考,有助于提升生产线的稳定性和企业的市场竞争力。原创 2024-07-13 22:02:14 · 1055 阅读 · 0 评论 -
用户画像与相关性分析揭示麦当劳满意度提升关键
在当今的餐饮行业中,顾客满意度已成为衡量服务质量和市场竞争力的关键指标,准确了解并提升顾客满意度,对于麦当劳制定有效的营销策略和优化产品服务至关重要。通过深入分析影响顾客满意度的主要因素,可以帮助麦当劳更好地理解顾客行为,从而制定更有针对性的策略,提高整体满意度和忠诚度。本项目深入探讨了影响麦当劳顾客满意度的关键因素,并构建了顾客群体画像,进行了斯皮尔曼相关性分析,研究结果为优化营销策略提供了重要参考,有助于提升整体顾客满意度和增强市场竞争力。原创 2024-07-08 14:25:37 · 1642 阅读 · 0 评论 -
基于随机森林模型对用户转化进行分析与预测
本项目通过可视化分析对数据进行初步探索,再通过斯皮尔曼相关性检验和卡方检验探究用户转化的影响因素,最后建立了随机森林模型,预测某个用户的转化情况,并研究了影响模型的重要特征。原创 2024-07-03 16:24:59 · 1274 阅读 · 0 评论 -
[Kaggle比赛题目]基于统计检验与随机森林回归模型预测房价
本项目主要通过斯皮尔曼相关性分析、方差分析得出影响房价的显著因素,通过这些因素建立随机森林回归模型,预测精度高,最后通过输出模型的重要特征,为房产估值提供科学依据。原创 2024-06-26 17:00:18 · 1296 阅读 · 0 评论 -
智慧购房:链家网上海在售楼盘数据解析与模型构建
随着中国经济的快速发展,上海作为国际化大都市,其房地产市场一直备受关注,购房者在面对庞大且复杂的楼盘信息时,往往感到困惑和不知所措,为了帮助购房者更好地了解市场行情,做出明智的购房决策,本项目选择了链家网上海市在售楼盘数据,进行了全面的数据分析和建模,希望能找出影响上海市房价的关键因素,并建立一个可靠的价格预测模型,为购房者提供科学的决策支持,将通过描述性分析、统计检验和机器学习模型的构建与优化,深入挖掘数据背后的价值,帮助购房者在纷繁复杂的房地产市场中找到最适合自己的房产。原创 2024-06-19 14:04:45 · 1356 阅读 · 0 评论 -
统计检验与机器学习双管齐下:深入解析糖尿病风险
本项目通过可视化分析对数据进行初步探索,再通过斯皮尔曼相关性检验和卡方检验探究患糖尿病的影响因素,因为考虑到患高血压和患糖尿病有的显著性,使用结构方程构建了高血压引发糖尿病的模型和糖尿病引发高血压的模型,通过对比两个模型之间的拟合优度,得出究竟是哪个病症引发另一个病症,最后建立了随机森林模型,在不知道临床测量结果的前提下,去预测某人是否会患有糖尿病,并且研究了影响模型的重要特征。原创 2024-06-17 09:00:00 · 1258 阅读 · 0 评论 -
当当网近4年图书畅销榜单分析(看看你喜欢的书籍/作者是否在里面)
在图书市场中,了解读者的行为和需求对于制定有效的营销策略至关重要。本项目通过分析当当网2020至2023年的畅销书排行榜数据,利用可视化分析和数据挖掘技术,对上榜图书和作者进行深入分析,出版商和网站能够更好地理解读者的需求,从而制定更有效的市场策略,提升用户满意度,最终推动业务发展。原创 2024-06-12 17:29:14 · 1645 阅读 · 0 评论 -
基于聚类与统计检验深度挖掘电商用户行为
在当今竞争激烈的电商市场中,了解用户的行为和需求对于制定成功的市场策略至关重要,本项目通过建立RFM模型、K-Means聚类模型,将1000个用户进行划分,针对不同类的用户,提出不同的营销策略,最后通过统计检验来探究影响用户消费行为的因素和影响用户上网行为的因素,通过这些分析,商家能够更好地理解消费者,从而制定更有效的市场策略,满足用户期望,提升用户体验,最终推动业务发展。原创 2024-06-05 21:58:40 · 1236 阅读 · 0 评论 -
必看项目|多维度揭示心力衰竭患者生存关键因素(生存分析、统计检验、随机森林)
心力衰竭影响全球数百万人的健康,了解其生存因素至关重要。本项目结合Kaplan-Meier生存曲线、Cox比例风险回归模型、斯皮尔曼相关性分析、t检验和卡方检验,深入分析了心力衰竭患者的数据。结果表明,年龄、射血分数、血清肌酐、血清钠和随访期对生存率有显著影响。通过随机森林模型,我们预测了患者的死亡几率,并确定了关键影响因素。研究成果为制定有效的预防和治疗策略提供了重要参考,旨在提高心力衰竭患者的生存率和生活质量。原创 2024-05-29 17:06:19 · 1642 阅读 · 1 评论 -
数据清洗到站点聚类,全面解析伦敦共享单车使用规律!
本项目对伦敦共享单车数据进行了全面分析,涵盖了数据清洗、特征工程(构建新特征)、骑行高峰期分析、站点流量分析,以及通过聚类分析将800个站点划分为5类,并对每一类站点提出建议,最后通过方差分析探讨了影响共享单车流量的因素,通过这些步骤,可以识别高频使用的时间段和站点,为运营商提供优化调度和资源分配的科学依据。原创 2024-05-21 10:52:11 · 1738 阅读 · 0 评论