自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 1.用Hive对爬虫大作业产生的文本文件2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。...

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 a.开启 cd /usr/local cd hive/lib start-all.sh b.查看 Jps c.将网络爬虫大作业的结果存入txt,并且保存到hdfs里面。 这是爬虫爬出来的数据 #新建路径/webinpt,蒋其存入/us...

2018-06-09 12:47:00 623

转载 Hadoop综合大作业加上以前漏掉的作业

  1.启动hadoop 2.Hdfs上创建文件夹并查看 上传英文词频统计文本至hdfs 启动Hive 导入文件内容到表docs并查看 进行词频统计,结果放在表t_word_count2里 查看统计结果 hive基本操作与应用 通过hadoop上的hive完成WordCount 启动hadoop ssh local...

2018-05-25 10:24:00 174

转载 爬虫大作业

f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'w+', encoding='utf8')import jiebaimport requestsfrom bs4 import BeautifulSoupdef songlist(url): res = requests.get(url) res.encoding =...

2018-05-23 15:33:00 147

转载 获取全部校园新闻

1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 import requestsimport re url = "http://news.gzcc.cn/html/xiaoyuanxinwen/"listnewurl ...

2018-04-11 08:22:00 136

转载 爬取校园新闻首页的新闻

import requestsfrom bs4 import BeautifulSoup url="http://news.gzcc.cn/html/xiaoyuanxinwen/"res=requests.get(url)res.encoding="utf-8" soup=BeautifulSoup(res.text,'html.parser')# for news in soup...

2018-04-03 11:25:00 115

转载 网络爬虫基础练习

0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.encoding='...

2018-04-03 11:22:00 193

转载 英文词频统计

string='''Twinkle, twinkle, little star. Twinkle, twinkle, little star, how I wonder what you are. Up above the world so high, like a diamond in the sky. Twinkle, twinkle, little star, how I wond...

2018-03-27 22:41:00 174

转载 字符串练习

http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 >>> s="http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html">>> s[45:54]'1027/8443' https://do...

2018-03-21 15:51:00 116

转载 熟悉常用的Linux操作

请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd.. (3)回到自己的主文件夹 cd~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls /usr mkdir命令:新建新目录 (5)进入/tmp目录,创建一个名为a的目录,并查...

2018-03-13 11:27:00 272

转载 大数据概述

1.试述大数据对思维方式的重要影响。 近年来大数据技术的快速发展深刻改变了我们的生活、工作和思维方式。大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。事...

2018-03-06 11:32:00 154

转载 简化版c语言文法

(1)<程序>::=开始<文件头>|<函数>结束 (2)<文件头>::=<库函数> (3)<函数>::=<库函数>|<用户自定义函数>|<函数主体> (4)<库函数>::=<#include<stdio.h>>|<#d...

2016-10-29 09:21:00 136

转载 词法分析

实验一、词法分析实验 专业 商软二班 姓名 罗肖凤 学号 201504040262 一、 实验目的 通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。并掌握在对程序设计语言进行扫描过程中将其分解为各类单词的词法分析方法。 二、 实验内容和要求 (1) 输入:源程序字符串。 (2) 输...

2016-10-17 19:58:00 198

转载 编译1

一.编译原理就是什么? 1、主要内容包括词法分析、语法分析、语法树构造、语义分析、中间代码生成、代码优化、目标代码生成等主要内容。 2、在寄存器分配中将会使用到贪心算法,死代码消除中将会使用到图论算法,数据流分析中使用到的Fixed-Point Algorithm,词法分析与语法分析中使用到有限状态机与递归下降这样的重要思想。 3、从源语言提取需要的信息;把源语言翻译成目标语言;自...

2016-09-09 22:08:00 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除