- 博客(6)
- 收藏
- 关注
原创 Spark 深度实战:核心原理剖析与生产级调优全解
重新绘制自Spark 3.5.0官方文档,标注了DAGScheduler、TaskScheduler、Executor的核心交互流程,红色箭头表示shuffle数据流,绿色表示计算结果返回路径。:某Join任务通过动态调整Join顺序,执行时间从45min→12min。1.关键指标:任务时长、GC时间占比、Shuffle spill量。:实时统计广告点击量,要求Exactly-Once语义。:某日志分析任务因单Key数据量过大(1TB+),采用。:某电商订单表(1亿+记录)执行。:用户流失预测模型训练。
2025-06-30 15:59:55
773
原创 网络爬虫构建全解:从理论到工业级实践
本文以“构建满分网络爬虫”为目标,系统阐述网络爬虫的核心原理工业级架构性能优化反爬对抗及伦理合规,结合权威文献与实战代码,提供从基础到企业级应用的完整解决方案。定义:自动化程序,通过模拟人类浏览行为采集网页数据。分类(表1):类型目标典型应用通用爬虫全网数据搜索引擎(Googlebot)聚焦爬虫特定主题电商价格监控增量爬虫新增/更新内容新闻聚合深层爬虫动态加载内容社交媒体数据采集表1:网络爬虫分类及典型应用。
2025-06-29 16:26:57
1625
原创 打造一个高性能的Java综合项目:从需求分析到部署的全流程指南
1. 项目背景与目标在线书店系统旨在为用户提供一个便捷的购书平台,支持浏览、搜索、购买和管理书籍等功能。该系统需要具备高并发处理能力、良好的用户体验和可扩展性。2. 功能需求用户注册与登录(支持第三方登录)书籍浏览与搜索(按分类、作者、出版社等)购物车功能订单管理与支付集成(支持多种支付方式)管理员后台(书籍管理、订单管理、用户管理等)3. 非功能需求高性能:支持高并发访问,响应时间在200ms以内高可用:系统可用性达到99.9%可扩展性:支持水平扩展,易于添加新功能。
2025-06-29 16:03:03
619
原创 深入理解Hadoop:从理论到实践——构建高性能大数据处理系统
Hadoop是一个开源的分布式计算框架,旨在处理和存储大规模数据集。Hadoop分布式文件系统(HDFS):用于存储大数据集。MapReduce:用于并行处理数据。YARN:资源管理和作业调度平台。其他工具:如Hive、Pig、Spark等,用于数据查询、分析和机器学习。
2024-12-26 02:55:59
1499
1
原创 数据可视化课程:从入门到实践
数据可视化是将数据以图形化的方式展示出来,帮助人们更直观地理解数据背后的信息。通过数据可视化,我们可以发现数据中的模式、趋势和异常,从而为决策提供支持。通过本课程,我们学习了数据可视化的基本概念、常用工具以及实战案例。掌握这些技能将有助于我们在数据分析中更有效地展示和解读数据。
2024-12-25 23:11:26
1240
原创 大数据数据分析与应用:从零开始的 Python 数据分析实战
随着大数据时代的到来,数据分析已经成为各行各业不可或缺的技能。本文将带你从零开始,使用 Python 进行大数据分析。我们将使用公开的数据集进行实战演练,并展示如何进行数据清洗、分析和可视化。
2024-11-10 19:50:14
610
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅