自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

转载 Hadoop综合大作业

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动Hive 导入文件内容到表docs并查看 进行词频统计,结果放在表word_count里 查看统计结果 2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。 删除文件的第一条数据并查看 上传文件到h...

2018-05-25 21:29:00 130

转载 hive基本操作与应用

通过hadoop上的hive完成WordCount 启动hadoop start-all.sh Hdfs上创建文件夹 hdfs dfs -mkdir wcinput hdfs dfs -ls /user/hadoop 上传文件至hdfs hdfs dfs -put ./dj.txt wcinput hdfs dfs -ls /user/ha...

2018-05-16 19:55:00 96

转载 用mapreduce 处理气象数据集

用mapreduce 处理气象数据集 编写程序求每日最高最低气温,区间最高最低气温 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通) 解压数据集,并保存在文本文件中 对气象数据格式进行解析 编写m...

2018-05-09 21:36:00 241

转载 熟悉常用的HBase操作,编写MapReduce作业

1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23...

2018-05-08 21:47:00 137

转载 爬虫大作业

1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代码。 import requests from bs4 import B...

2018-05-02 16:20:00 154

转载 熟悉常用的HDFS操作

编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 cd /usr/local/hadoop touch linux.txt cat linux.txt 使用命令把本地...

2018-04-25 20:58:00 137

转载 数据结构化与保存

1. 将新闻的正文内容保存到文本文件。 def write(filename, content): f = open(filename, 'a', encoding='utf-8') f.write(content) f.close()    2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所...

2018-04-12 21:03:00 126

转载 获取全部校园新闻

import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport re #获取点击次数def getClickCount(newsUrl): newId=re.search('\_(.*).html',newsUrl).group(1).split('/')[1] clickU...

2018-04-11 21:50:00 91

转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离

import requests from bs4 import BeautifulSoup from datetime import datetime import re def get_soup(url): req = requests.get(url) req.encoding = 'utf-8' soup = BeautifulSoup(r...

2018-04-09 18:09:00 86

转载 网络爬虫基本联系

0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.encoding='...

2018-03-29 20:51:00 127

转载 中文词频统计

下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP2...

2018-03-28 20:20:00 117

转载 英文词频统计

str='''A famous man has once said that women hold half the sky. A wise writer has said that half the man is a woman. In fact, women are just like the deep-hidden treasure which has not bee...

2018-03-25 21:37:00 136

转载 字符串、组合数据类型练习

字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 str='http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html' print(str[-14:-5])    https://docs....

2018-03-20 22:18:00 139

转载 Python基础

Pycharm开发环境设置与熟悉。 练习基本输入输出: print('你好,{}.'.format(name)) uprint(sys.argv) 库的使用方法: import ... from ... import ... 条件语句: if (abs(pos()))<1: break 循环语句: for i i...

2018-03-16 19:06:00 145

转载 熟悉常用的Linux操作

请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local mkdir local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls -a ~usr mkdir命令:新建新目录 (5)进入...

2018-03-13 21:23:00 136

转载 大数据概述

1.试述大数据对思维方式的重要影响。 大数据使人类的思考、研究不仅仅局限于眼前有限的认知里,让我们能够从海量的数据中更加系统地把握客观对象。 在不同的领域中,能够使我们在更大程度上掌握到更多的信息,并且更快捷,方便。 大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,可以说是完全颠覆了传统的思维方式。 2.详细阐述大数据、云计算、物联网之间的区别与联系 区别:...

2018-03-06 19:31:00 183

转载 递归下降分析-实验报告

实验四:语法分析实验 一、实验目的 编制一个递归下降分析程序。 E→TE' E'→(+T|-T)E'|ε T→FT' T'→(*F|/F)T'|ε F→(E)|i 二、实验内容和要求 输入:算术表达式; 判断:每遇到一个终结符,则判断当前读入的单词符号是否与该终结符相匹配,若匹配,则继续读取下一个单词符号,若不匹配,则进行错误处理。 ...

2016-12-23 16:02:00 1240

转载 LL(1)文法

<源程序>→<外部声明>|<外部声明><函数体> <外部申明>→<头文件><函数声明>|其他声明 <函数体>→<返回值类型><标识符><形参><复合语句> <返回值类型>→void|char|int|float <标识符...

2016-12-16 15:11:00 263

转载 简单C语言文法

<源程序>→<外部声明>|<外部声明><函数体> <外部申明>→<头文件><函数声明>|其他声明 <函数体>→<返回值类型><标识符><形参><复合语句> <返回值类型>→void|char|int|float <标识符...

2016-10-30 11:00:00 193

转载 编译原理

学习编译原理首先要了解的就是词法分析,词法分析是基础。在理解编译原理并且会运用编译原理的程序员看来,完全不懂编译原理的程序员,就好像是完全没有学过人体解剖图的画家一样,当然不会说一定就无法成功,但更好的基础可以提高成功的几率。在知道底层的情况下,对上层的描绘会更加写实,更加生动。学习编译原理可以更好的理解语言之间的差异,转换需求以及对学习语言的效率也会有所提高。但是从一开始学习编译...

2016-10-14 14:52:00 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除