- 博客(17)
- 收藏
- 关注
转载 基于hive的《反贪风暴4》的影评
一:将爬虫大作业产生的csv文件上传到HDFS查看文件中前10条信息,即可证明是否上传成功。二.对CSV文件进行预处理生成无标题文本文件创建一个deal.sh,主要实现数据分割成什么样的意思执行deal.sh 对数据进行分割预处理并输出形成movie.txt三.把hdfs中的文本文件最终导入到数据仓库Hive中同样的,查看...
2019-06-12 23:15:00
814
转载 分布式并行计算MapReduce
HDFS:HDFS是Hadoop的分布式文件系统,全名为Hadoop Distributed File System。它有以下三个基本概念:Block(块),块是默认大小为64MB的逻辑单元。HDFS里面的文件被分成相同大小的数据块来进行存储和管理。当然,文件的备份和查找也是基于数据块进行处理的。NameNode,NameNode是管理节点(直译名字节点)。它存放着文件与数据...
2019-06-06 20:50:00
421
转载 利用Shell命令与HDFS进行交互
以”./bin/dfs dfs”开头的Shell命令方式1.目录操作在HDFS中为hadoop用户创建一个用户目录(hadoop用户)在用户目录下创建一个input目录,HDFS的根目录下创建一个名称为input的目录删除HDFS根目录中的“input”目录2.文件操作使用vim编辑器,在本地Linux文件系统的“/home/hadoop...
2019-05-31 15:41:00
1009
转载 【大数据】安装关系型数据库MySQL 安装大数据处理框架Hadoop
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/31611.安装Mysql使用命令 sudo apt-get install mysql-server sudo apt isntall mysql-client sudo ap...
2019-05-11 22:07:00
206
转载 让我用69406条评论告诉你“反贪风暴”好不好看!!!
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075上个星期去看了电影《反贪风暴》,该片讲述了ICAC陆志廉卧底狱中,与狱中两大势力斗智斗力,调查取证罪犯与监狱惩教员私相授受的案件,最终引出并成功破获大案的故事。对电影中的有些画面印象很是深刻,给了一个满分评价。但在复联的压力之下只能顶着票房第二的位...
2019-04-28 21:17:00
704
转载 【大数据】爬取全部的校园新闻
1.从新闻url获取新闻详情: 字典,anewsdef anews(url): newsDetail={} res=requests.get(url) res.encoding='utf-8' soup=BeautifulSoup(res.text,'html.parser') newsDetail['newsTitle']=so...
2019-04-08 20:03:00
300
转载 【大数据】获取一篇新闻的全部信息
给定一篇新闻的链接newsUrl,获取该新闻的全部信息标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击:newsUrlnewsId(使用正则表达式re)clickUrl(str.format(newsId))requests.get(clickUrl)newClick(用字符串处理,或正则表达式)int()...
2019-04-01 20:33:00
248
转载 【大数据】理解爬虫原理
1. 简单说明爬虫原理简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返回给浏览器,这些代码经过浏览器解析、渲染,将丰富多彩的网页呈现我们眼前;2. 理解爬虫开发过程1).简要说明浏览器工作原理;、方式1:浏览器提交请求--->下载网页代码--->解析成页面方式2:模拟浏览器发送请求(获取网页代码)...
2019-03-25 21:19:00
334
转载 中文统计
中文词频统计1. 下载一长篇中文小说。2. 从文件读取待分析文本。3. 安装并使用jieba进行中文分词。ljieba.lcut(text)4. 更新词库,加入所分析对象的专业词汇。jieba.load_userdict("D:\\dict.txt") #词库文本文件5. 生成词频统计6. 排序xu=list(stayed_line.items...
2019-03-18 11:40:00
168
转载 [大数据]统计词频
1.列表,元组,字典,集合分别如何增删改查及遍历。列表: list=['30','50'] list.append( '20' )#增加元素 del list[1]#删除第二个元素 list[1]='10' #更改第二个元素 list.insert(2,'10') ...
2019-03-12 09:15:00
815
转载 [大数据]数据预处理
1.字符串操作:解析身份证号:生日、性别、出生地等。 地址码: 表示编码对象常住户口所在县(市、旗、区)的行政区划代码。 出生日期码:表示编码对象出生的年、月、日,年、月、日代码之间不用分隔符,格式为YYYYMMDD,如19880328。 顺序码: 表示在同一地址码所标识的区域范围内,对同年、同月、同日出生的人编定的顺序号,顺序码的奇数分配给男性,偶数分配给女性。...
2019-03-04 11:25:00
497
转载 [大数据]了解大数据
1.浏览2019春节各种大数据分析报告(已看完)这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993春节人口迁徙大数据报告!http://www.sohu.com/a/293854116_679156春节大数据:消费首破万亿 最佳伴手礼竟是教辅书?http://news.163.com/19/0...
2019-02-25 11:46:00
222
转载 [软件工程]结对项目-四则运算 “软件”之升级版
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2232团队git代码:https://github.com/Hongnnn/ruanjiangongcheng一、需求分析 基本要求:生成题目,单个题目最多不能超过4个运算符,操作数小于100。用户可以输入答案若用户输入答案正...
2018-10-29 11:59:00
214
转载 [软件工程]个人项目-小学四则运算
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2186github地址:https://github.com/Hongnnn/ruanjiangongcheng.git一、题目要求:像《构建之法》的人物阿超那样,写一个能自动生成小学四则运算题目的命令行 “软件”。具体要求:任何编程语言都...
2018-10-14 16:52:00
257
转载 【软件工程】阅读《构建之法》1-5章的感想
作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2178第1章 其实第一章就是在解释软件工程的内涵,好比如软件=程序+软件工程,程序=数据结构+算法。。。 在1. 2.5节中说到了一个问题:什么 是好的软件? 文中的答案是:软件没有缺陷. 我个人觉得这是有点片面...
2018-10-06 13:01:00
246
转载 【软件工程】分布式版本控制系统Git的安装与使用
作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2097远程库地址:https://github.com/Hongnnn/ruanjiangongcheng.git建库中常出现才错误解决方案:https://blog.youkuaiyun.com/z69183787/article/details/4311413...
2018-09-16 22:10:00
164
转载 [软件工程]感想
作业的要求来自于:https://www.cnblogs.com/greyzeng/p/9581624.html作为一名大三狗,我对到教室上课的想法依旧是不变的:课堂上的听讲会让自己的学习效率提高,且事半功倍。我非常认同于文章中的一个观点:认真听讲是一种能力。好比如一个人做事一直都很粗心,因为他觉得那些不重要,一种无所谓的态度,只要完成了就可以了。当等到他真的遇见了他觉得很重...
2018-09-04 21:46:00
407
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人