- 博客(7)
- 收藏
- 关注
原创 深入 Hadoop 核心技术:我的课程学习收获与实践心得
本文总结了Hadoop核心技术课程的学习收获。课程帮助作者从单机思维转变为分布式逻辑,理解HDFS的分块存储和容错机制。通过实践Hive、HBase、YARN等生态组件,掌握了大数据系统的协同工作方式。代码案例(如ReadMysql、RaceData)让作者体会到工程化思维的重要性,包括异常处理、资源调度等。最终形成了从数据存储、计算到业务价值的完整认知闭环,建立了分布式生态思维,为大数据开发和分析打下了坚实基础。
2025-12-25 15:03:18
819
原创 旅游景点数据分析
本文基于全国36万+旅游景点的数据分析显示:华东地区(35%)和华北地区(22%)是旅游热门区域,5A级景点平均销量达3200+,成为游客首选;亲子游和文化体验需求突出,30-300元价格带占据热门景点的80%;短途游趋势明显,省内景点销量占比68%。建议游客错峰出行,选择"5A景点+免费景点"的高性价比组合。数据揭示了国内旅游市场呈现明显的"马太效应",高评级、强体验和合理定价是吸引游客的关键因素。
2025-11-10 00:02:31
1103
原创 脱发因素分析:数据驱动的探索与预测
我们的数据集涵盖了可能导致个体脱发的各种因素,包括遗传、荷尔蒙变化、医疗状况、药物和治疗、营养缺乏、压力水平、年龄、不良护发习惯、环境因素、吸烟习惯、体重减轻以及脱发的有无等信息。每行代表一位独特的个体,列则对应上述各种因素。
2025-06-27 23:54:16
1037
原创 基于机器学习的心脏病预测分析
本文基于1319条医疗记录,探讨了机器学习在心脏病预测中的应用。研究首先对数据进行预处理,包括处理极端异常值(如心率>1000、收缩压<50等)和特征标准化。通过箱线图分析发现,肌酸激酶同工酶和肌钙蛋白等关键指标存在合理波动。研究采用了多种机器学习模型(逻辑回归、决策树、随机森林等)进行预测分析,并评估了不同模型的性能表现。结果表明,机器学习可以有效识别心脏病高风险人群,为临床决策提供支持。该研究强调了数据质量对模型预测准确性的重要性,并为医疗AI应用提供了实践参考。
2025-06-19 21:16:25
830
1
原创 数据分析与客户画像:基于LRFM模型的K-means聚类分析
本文探讨了在商业竞争中通过客户画像优化营销策略的方法。研究采用LRFM模型和K-means聚类分析对104557条订单数据进行客户细分,包括数据预处理(缺失值处理、去重)、特征分析(订单金额、付款金额等统计描述)等步骤,为后续客户群体划分和精准营销策略制定奠定基础。案例展示了从原始订单数据到客户价值分析的全流程方法。
2025-06-12 21:51:45
1166
原创 项目5.1
本文摘要:通过对抑郁症患者数据(8400条记录)进行预处理分析,首先拆分患者姓名列获取性别和年龄信息,处理Date列缺失值(删除112条记录)。数据包含患者基本信息、诊断标签、咨询内容、医生及医院信息等10个字段。预处理过程使用pandas进行数据清洗,为后续分析提供结构化数据基础。数据特点包括混合型患者信息(如"患者:女 43岁")和复合型诊断标签(如"焦虑症 严重躯干反应、抑郁症")。
2025-06-05 21:30:25
384
原创 关于Python的学习心得
我的专业课老师带领我进入了Python的入门阶段,相比于自学,老师的带领更能让我快速的掌握语法的内容。在日常的学习里,我使用了一些经典教材,如《Python编程:从入门到实践》,还参考了廖雪峰的官方网站和菜鸟教程等在线资源。我还通过B站上的视频辅助学习,特别是黑马程序员的课程,非常适合初学者,讲解的生动形象。我也在几个月前踏上了Python的学习之旅,这段旅程不仅丰富了我的知识储备,,更在多个层面提升了我的能力。回顾几个月的学习历程,我深刻体会到学习Python并不是一蹴而就的过程,需要持续的努力和实践。
2024-12-20 10:17:11
316
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅