
hadoop
爱晒太阳的猫丶
A STUDENT
展开
-
ubuntu下~/.bashrc和/etc/profile的区别
之前在centos7中配置环境变量是在/etc/prodile.d下配置,现在上课用的是ubuntu系统,配置的环境变量都是在~/.bashrc中,后来老师给了一个配置zookeeper的文档中又在/etc/profile下配置,故在网上搜索了一下两者之间的区别。相同点:都可以储存环境变量不同点:profile为 login shell (交互式shell),.bashrc为 non-...原创 2018-11-03 22:50:52 · 786 阅读 · 0 评论 -
Flume监听端口
Flume概念及作用作用flume可以监听端口或者文件夹,对传输到此处的数据进行打印输出或上传hdfs等操作概念flume是Cloudera提供的一个基于流式系统高可用的、高可靠的分布式海量日志采集、聚合和传输系统组件AgentAgent是一个JVM进程,是flume传输的基本单元SourceSource是负责接收数据到Flume Agent的组件Chann...原创 2019-03-09 11:55:09 · 5538 阅读 · 0 评论 -
MapReduce去空去重
MapReduce清洗数据注意:此代码虽能完美实现需求,但还有一些地方需要优化详细优化内容请访问下方链接,更新时间2019/03/13https://blog.youkuaiyun.com/weixin_42063239/article/details/88537897前言爬虫爬取的数据中会有一些数据有空值或者数据重复,想要得到规范的数据则要进行数据清洗,对保存为csv类型的数据来说可以用...原创 2019-03-07 19:42:48 · 4926 阅读 · 5 评论 -
Flume监听文件并上传到hdfs
目标监听hive日志,并上传到hdfs中/flume/[YYMMDDHH]/目录下,文件前缀为logs-,每一个小时新建重新创建一个文件夹,每接收10M数据落地一次,当数据不足10M时15分钟落地一次导入相关依赖jar包导入以下jar包到flume路径下的lib里,{}里为相应版本,在hadoop路径下share/hadoop下都能找到,我就添加了一个剩下的在flume/lib下都已经...原创 2019-03-11 10:03:28 · 1872 阅读 · 0 评论 -
Flume理解笔记
前言学习几天flume后的一些浅层次的理解Flume组件再认识Sourcesource组件定义了数据的来源,也就是从哪里获取数据Channelchannel组件定义了数据获取到如何缓存Sinksink组件定义了把数据如何输出、输出到哪里感觉source和channel都很固定,sink则需要更多的配置,比如说输出到哪里,收集多久落地一次数据,收集多少数据落地一次...原创 2019-03-11 15:12:49 · 235 阅读 · 0 评论 -
hive执行删除表操作报错
在hive执行drop table table_name时报下错SemanticException Unable to fetch table movie. For direct MetaStore DB connections, we don't support retries at the client level.报错原因:hive是基于mysql的数据库,需要连接mysql,由于m...原创 2019-03-18 09:17:13 · 1539 阅读 · 0 评论 -
MapReduce数据去空去重进阶版及数据乱码解决方法
前言之前写过一篇MapReduce对CSV文件去空去重,虽然能实现功能但是还有很多地方需要改进,刚好有新爬好的智联招聘的职位信息,所以再来一遍,爬取智联招聘的代码链接https://blog.youkuaiyun.com/weixin_42063239/article/details/88524079这里只对职位名称或职位描述字段为空的数据删除,因为爬出来的数据比较规范没有空值和重复值,可以自己人为制...原创 2019-03-13 18:14:30 · 1827 阅读 · 0 评论