- 博客(22)
- 收藏
- 关注
转载 Hadoop综合大作业
一、用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 1、启动hadoop 2、上传英文词频统计文本至hdfs 3、启动hive 4、导入文件内容到表novel并查看 5、用HQL进行词频统计,结果放在表k_word_count里 6、查看统计结果 二、用Hive对产生的csv文件进行数据分析,写一篇博客描述你的...
2018-05-25 21:42:00
184
转载 hive基本操作与应用
通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹 上传文件至hdfs 启动Hive 创建原始文档表 导入文件内容到表docs并查看 用HQL进行词频统计,结果放在表word_count里 查看统计结果 转载于:https://www.cnblogs.com/RE148/p/9046842...
2018-05-16 16:56:00
141
转载 用mapreduce 处理气象数据集
编写程序求每日最高最低气温,区间最高最低气温 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa 2.按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通) 解压数据集,并保存在文本文件中 对气象数据格式进行解析 ...
2018-05-09 21:29:00
374
转载 熟悉常用的HBase操作,编写MapReduce作业
1. 以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据: 学生表(Student)(不包括最后一列) 学号(S_No) 姓名(S_Name) 性别(S_Sex) 年龄(S_Age) 课程(course) 2015001 Zhangsan male 23...
2018-05-07 23:22:00
248
转载 爬虫大作业
1.选一个自己感兴趣的主题。 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。 6.最后提交爬取的全部数据、爬虫及数据分析源代码。 这里爬取了虎扑步行街的贴子,包括帖子标题,作者,时间,帖子链接,帖...
2018-04-29 22:55:00
415
转载 熟悉常用的HDFS操作
1.编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. cd /usr/local/hadoop touch test.txt 2.在本地查看文件位置(ls) ls ...
2018-04-25 17:42:00
267
转载 数据结构化与保存
作业是转载同学的,因为没有对新闻信息做提取,所有无法添加新闻信息到字典。已练习pandas库的相关使用方法,导出excel文件。ps:自己的代码会尽快修改! import requests from bs4 import BeautifulSoup from datetime import datetime import re, pandas # 获取新闻点...
2018-04-12 21:30:00
150
转载 获取全部校园新闻
import requests from bs4 import BeautifulSoup from datetime import datetime import re def get_soup(url): req = requests.get(url) req.encoding = 'utf-8' soup = BeautifulSoup(r...
2018-04-11 14:58:00
110
转载 爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离
1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文、show-info。 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。 import requests from bs4 import BeautifulSoup from datetime import datetime import re def...
2018-04-04 15:28:00
150
转载 网络爬虫基础
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.encoding='...
2018-03-28 21:57:00
114
转载 中文的分词+词频统计
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最...
2018-03-28 16:18:00
224
转载 词频统计
import string #punctuation = [',','.','!','?','’',':','$','%'] prep = ['a','in','of','the','to','at','it','on','and','so','his','that', 'not','was','my','were','we','he','an','...
2018-03-21 21:02:00
185
转载 字符串练习
字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 s = 'http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html' ns = s.rstrip('.html').split('_') print(ns[1]...
2018-03-20 23:03:00
197
转载 Python基础
import turtle star_angle = 46 def mygoto(x,y): #移动画笔 turtle.up() turtle.goto(x,y) turtle.down() def mystar(sx,line_angle=144): #画星星 global star_angle #使用一个全局变量...
2018-03-14 20:17:00
133
转载 熟悉常用的Linux操作
请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls /usr mkdir命令:新建新目录 (5)进入/tmp目录,创建...
2018-03-14 15:36:00
214
转载 大数据论述
1.试述大数据对思维方式的重要影响。 (1)全样而非抽样 过去,由于数据存储和处理能力的限制,在科学分许中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。现在,大数据时代的到来,为我们提供了海量数据的存储和处理。因此,在大数据技术的支持下,科学分析完全可以在全集数据中进行分析,并快速得到结果。 (2)效率而非精确 过去...
2018-03-07 15:42:00
432
转载 递归下降分析程序报告
实验一、递归下降分析程序实验 专业 商业软件工程 姓名 姓名 学号 201506110148 一、 实验目的 编译递归下降分析程序识别c语言文法 二、 实验内容和要求 简单写出c语言文法 分析c语言文法是否为LL1文法,若不是,修改成LL1文法。 编写程序实现对c语言LL1文法判断是否有语法错误 三、...
2016-12-18 19:37:00
449
转载 c语言文法(新)
程序->外部声明 | 程序 外部声明 程序->外部声明A' A'->外部声明A'|ε 外部声明->修饰符 变量名 形参 修饰符->void | int | char | float 形参->修饰符A' A'->函数名|指针 变量名 函数名->L | IL | ID 函数名->LA' A'->LA'|DA'|ε ...
2016-12-06 20:44:00
459
转载 c语言文法
程序->外部声明 | 程序 外部声明 外部声明->修饰符 变量名 形参 修饰符->void | int | char | float 形参->修饰符 函数名|修饰符 指针 变量名 函数名->L | IL | ID L->a|b|c|...|z D->0|1|2|...|9 指针->’*’ | ’*’ 指针 函数->外部...
2016-10-28 21:25:00
334
转载 实验一、词法分析实验
实验一、词法分析实验 专业:商业软件工程2班 姓名:崔格畅 学号:201506110148 一、 实验目的 编制一个词法分析程序 二、 实验内容和要求 输入:源程序字符串; 输出:二元组(种别,单词本身); 待分析语言的词法规则。 三、 实验方法、步骤及结果测试 1.源程序名:识别字符串.c ...
2016-10-14 15:12:00
229
转载 词法分析
#include<stdio.h> #include<string.h> char tempc[100]; char tempf[100]; char tempn[100]; char ch[100]; char r1[] = {"begin"}; char r2[] = {"if"}; char r3[] = {"then"}; cha...
2016-09-30 15:56:00
159
转载 编译原理
1.什么是编译原理 编译原理是计算机专业的一门重要专业课,旨在介绍编译程序构造的一般原理和基本方法。内容包括语言和文法、词法分析、语法分析、语法制导翻译、中间代码生成、存储管理、代码优化和目标代码生成。 编译原理是计算机专业设置的一门重要的专业课程。从功能上看,一个编译程序就是一个语言翻译程序。编译:就是将程序语言进行翻译,生成可供用户直接执行的二进制代码,即可执行文件。任务是个比较模...
2016-09-09 22:34:00
312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人