
PySpark
文章平均质量分 87
pblh123
这个作者很懒,什么都没留下…
展开
-
PySpark3.4.4_基于StreamingContext实现网络字节流中英文分词词频累加统计结果保存到数据库中
运用了PySpark Streaming进行实时数据处理、pymysql实现MySQL数据库基于数据库连接池交互、configparser读取配置文件,以及广播变量优化集群间数据传输。通过设置检查点、批处理插入和错误重试机制增强了系统的稳健性。日志记录和状态管理确保了应用的可维护性和性能优化。软件工程上,采用模块化设计、异常处理和配置分离提升了代码质量和开发效率原创 2024-12-07 23:38:51 · 1146 阅读 · 0 评论 -
PySpark3.4.4_基于StreamingContext实现网络字节流中英文分词词频累加统计结果保存到文本中
利用pyspark3.4.4开发streamingContext程序,统计实时socket网络字节流数据,实现中英文分词统计,并将统计结果持久化保存到文本文件中原创 2024-12-07 22:02:00 · 489 阅读 · 0 评论 -
PySpark3.4.4_基于StreamingContext实现网络字节流统计分析
基于StreamingContext实现网络字节流统计分析,使用PySpark3.4.4,支持中文,英文分词,停用词的使用。实现中英文分词混用场景的词频统计原创 2024-12-06 14:19:49 · 1359 阅读 · 0 评论