- 博客(13)
- 收藏
- 关注
转载 Hadoop综合大作业
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。启动hadoopHdfs上创建文件夹data 为名字上传文件至hdfs启动Hive创建原始文档表导入文件内容到表docs并查看导入查看用HQL进行词频统计,结果放在表word_count里查看统计结果...
2018-05-25 19:08:00
164
转载 hive基本操作与应用
启动hadoopHdfs上创建文件夹data 为名字上传文件至hdfs启动Hive创建原始文档表导入文件内容到表docs并查看导入查看用HQL进行词频统计,结果放在表word_count里查看统计结果转载于:https://www.cnblogs.com/diansaonian/p/90...
2018-05-17 20:24:00
168
转载 熟悉HBase基本操作
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学生表(Student)(不包括最后一列)学号(S_No)姓名(S_Name)性别(S_Sex)年龄(S_Age)课程(course)2015001Zhangsanmale23...
2018-05-09 20:07:00
190
转载 爬虫大作业
一、选一个自己感兴趣的主题(所有人不能雷同)。因为以前很喜欢看小说,看到一些小说情节时会想象这样写好不好,怎样写能更好。因为好的剧情和文章质量能够吸引更多的读者,并且从商业角度出发有质量的文章能留住‘老书虫‘,而大部分的小说打赏其实是来自老读者的。这次的爬虫网站是起点中文网,此网站可以说是中国最热门的小说网站了网站盈利很大一部分来自读者的消费,读者消费可以从月票体现,...
2018-04-28 20:09:00
546
转载 熟悉常用的HDFS操作
一、Hadoop提供的Shell命令完成相同任务:1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词.2.在本地查看文件位置(ls)3.在本地显示文件内容cd /home/hadoop/touch test.txt cat temp.txt4.使用命令把本地文件系统中的“txt”上传到H...
2018-04-27 15:42:00
540
转载 数据结构化与保存
1. 将新闻的正文内容保存到文本文件。def writeDetailNews(content): f = open('gzccnews.txt',"a",encoding="utf-8") f.write(content) f.close()2. 将新闻数据结构化为字典的列表:单条新闻的详情-->字典news一个列表页...
2018-04-18 20:14:00
124
转载 使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。import redef is_valid_email(addr): if re.match('\w+(\.\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*', addr): return True return Falsetmail = 'www.694602156@qq....
2018-04-10 17:50:00
140
转载 爬取校园新闻首页的新闻
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。import requestsfrom bs4 import BeautifulSoupres = requests.get('http://news.gzcc.cn/html/xiaoyuanxin...
2018-04-03 17:41:00
118
转载 网络爬虫基础练习
0.可以新建一个用于练习的html文件,在浏览器中打开。1.利用requests.get(url)获取网页页面的html文件import requestsnewsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'res = requests.get(newsurl) #返回response对象res.encoding...
2018-03-30 21:52:00
120
转载 综合练习:词频统计
1.英文词频统计下载一首英文的歌词或文章a = '''Waking up I see that everything is ok The first time in my life and now it's so great Slowing down I look around and I am so amazed I think about the li...
2018-03-28 21:18:00
145
转载 组合数据类型综合练习
分别定义字符串,列表,元组,字典,集合,并进行遍历。总结列表,元组,字典,集合的联系与区别。字符串ls='handsomeboy'for i in ls: print(i)列表list =['love', 'study', 200]for i in list: print(i)元组:tup1 = ('love','s...
2018-03-22 21:46:00
226
转载 熟悉常用的Linux操作
cd命令:切换目录(1)切换到目录 /usr/localcd /usr/local(2)去到目前的上层目录cd..(3)回到自己的主文件夹cd~ls命令:查看文件与目录(4)查看目录/usr下所有的文件cd /usrls -almkdir命令:新建新目录(5)进入/tmp目录,创建一个名为a的目录,并查看有多少目录存在cd ...
2018-03-13 21:00:00
137
转载 大数据概述
一:试述大数据对思维方式的重要影响。全样而非抽样:在过去,我们因为计算机资源的不足,进行某样实验调查时通常会采取抽样调查的方式,因为可以节省大量的人力和物力。但随着计算机行业的蓬勃发展,数据的存储和处理再也不是限制我们的最大因素了。数据的获取变得更加简单直接。以前需要上做调查问卷来为实验做抽样,现在完全可以通过数据分析来获取大量而完整的实验数据。效率而非精确:从上...
2018-03-06 18:43:00
1270
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅