- 博客(3)
- 收藏
- 关注
原创 基于spark的疫情数据分析展示
基于spark的疫情数据分析展示参考厦大数据库实验室代码数据介绍数据来源于kaggle上的美国疫情数据,转为txt文本后是如下格式:第一列为截止时间,第二列是区(州的下一级),第三列是州,第四列是合计感染人数,第五列是合计死亡人数。创建spark表结构def toDate(inputStr): newStr = "" if len(inputStr) == 8: s1 = inputStr[0:4] s2 = inputStr[5:6]
2020-07-21 11:20:28
3940
2
原创 基于spark的文本相似性匹配
基于spark的文本相似度匹配查找原文本文件是txt格式的多文本,数量大约一万五千个,项目需求是对这些文本进行相似度的匹配,找出那些文本之间内容是相似的。文本内容类似如下:项目环境linux环境hadoop2.7.1spark2.4.5项目思路数据预处理把一万多个文本数据合并为一个合理的创建标题,有助于目录的生成直接输入1次#,并按下space后,将生成1级标题。输入2次#,并按下space后,将生成2级标题。以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。
2020-07-21 10:36:33
2686
原创 对豆瓣数据的爬取和分析
对于豆瓣影视数据的爬取和分析你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验...
2019-12-22 15:05:51
2405
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅