- 博客(20)
- 收藏
- 关注
转载 Hadoop综合大作业
1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动Hive 导入文件内容到表docs并查看 进行词频统计,结果放在表word_count里 查看统计结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 删除文件的第一条数据并查看 上传文件到h...
2018-05-25 21:29:00
130
转载 hive基本操作与应用
通过hadoop上的hive完成WordCount 启动hadoop start-all.sh Hdfs上创建文件夹 hdfs dfs -mkdir wcinput hdfs dfs -ls /user/hadoop 上传文件至hdfs hdfs dfs -put ./dj.txt wcinput hdfs dfs -ls /user/ha...
2018-05-16 19:55:00
96
转载 用mapreduce 处理气象数据集
用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通) 解压数据集,并保存在文本文件中 对气象数据格式进行解析 编写m...
2018-05-09 21:36:00
241
转载 熟悉常用的HBase操作,编写MapReduce作业
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23...
2018-05-08 21:47:00
137
转载 爬虫大作业
1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代码。 import requests from bs4 import B...
2018-05-02 16:20:00
154
转载 熟悉常用的HDFS操作
编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 cd /usr/local/hadoop touch linux.txt cat linux.txt 使用命令把本地...
2018-04-25 20:58:00
137
转载 数据结构化与保存
1. 将新闻的正文内容保存到文本文件。 def write(filename, content): f = open(filename, 'a', encoding='utf-8') f.write(content) f.close() 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所...
2018-04-12 21:03:00
126
转载 获取全部校园新闻
import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re #获取点击次数def getClickCount(newsUrl): newId=re.search('\_(.*).html',newsUrl).group(1).split('/')[1] clickU...
2018-04-11 21:50:00
91
转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
import requests from bs4 import BeautifulSoup from datetime import datetime import re def get_soup(url): req = requests.get(url) req.encoding = 'utf-8' soup = BeautifulSoup(r...
2018-04-09 18:09:00
86
转载 网络爬虫基本联系
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.encoding='...
2018-03-29 20:51:00
127
转载 中文词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP2...
2018-03-28 20:20:00
117
转载 英文词频统计
str='''A famous man has once said that women hold half the sky. A wise writer has said that half the man is a woman. In fact, women are just like the deep-hidden treasure which has not bee...
2018-03-25 21:37:00
136
转载 字符串、组合数据类型练习
字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 str='http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html' print(str[-14:-5]) https://docs....
2018-03-20 22:18:00
139
转载 Python基础
Pycharm开发环境设置与熟悉。 练习基本输入输出: print('你好,{}.'.format(name)) uprint(sys.argv) 库的使用方法: import ... from ... import ... 条件语句: if (abs(pos()))<1: break 循环语句: for i i...
2018-03-16 19:06:00
145
转载 熟悉常用的Linux操作
请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local mkdir local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls -a ~usr mkdir命令:新建新目录 (5)进入...
2018-03-13 21:23:00
136
转载 大数据概述
1.试述大数据对思维方式的重要影响。 大数据使人类的思考、研究不仅仅局限于眼前有限的认知里,让我们能够从海量的数据中更加系统地把握客观对象。 在不同的领域中,能够使我们在更大程度上掌握到更多的信息,并且更快捷,方便。 大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,可以说是完全颠覆了传统的思维方式。 2.详细阐述大数据、云计算、物联网之间的区别与联系 区别:...
2018-03-06 19:31:00
183
转载 递归下降分析-实验报告
实验四:语法分析实验 一、实验目的 编制一个递归下降分析程序。 E→TE' E'→(+T|-T)E'|ε T→FT' T'→(*F|/F)T'|ε F→(E)|i 二、实验内容和要求 输入:算术表达式; 判断:每遇到一个终结符,则判断当前读入的单词符号是否与该终结符相匹配,若匹配,则继续读取下一个单词符号,若不匹配,则进行错误处理。 ...
2016-12-23 16:02:00
1240
转载 LL(1)文法
<源程序>→<外部声明>|<外部声明><函数体> <外部申明>→<头文件><函数声明>|其他声明 <函数体>→<返回值类型><标识符><形参><复合语句> <返回值类型>→void|char|int|float <标识符...
2016-12-16 15:11:00
263
转载 简单C语言文法
<源程序>→<外部声明>|<外部声明><函数体> <外部申明>→<头文件><函数声明>|其他声明 <函数体>→<返回值类型><标识符><形参><复合语句> <返回值类型>→void|char|int|float <标识符...
2016-10-30 11:00:00
193
转载 编译原理
学习编译原理首先要了解的就是词法分析,词法分析是基础。在理解编译原理并且会运用编译原理的程序员看来,完全不懂编译原理的程序员,就好像是完全没有学过人体解剖图的画家一样,当然不会说一定就无法成功,但更好的基础可以提高成功的几率。在知道底层的情况下,对上层的描绘会更加写实,更加生动。学习编译原理可以更好的理解语言之间的差异,转换需求以及对学习语言的效率也会有所提高。但是从一开始学习编译...
2016-10-14 14:52:00
109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅