
HDFS
Cheengvho
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Linux环境下编写Spark应用程序对HDFS中的包含jpg请求的日志文件进行计数 (Scala)
目录结构 /home/training/training_materials/dev1/exercises/spark-application/countjpgs/src/main/scala/stubs/CountJPGs.scala 编辑这个文件,代码如下: package stubs import org.apache.spark.SparkContext import org.ap...原创 2018-07-23 14:00:35 · 313 阅读 · 0 评论 -
一个Spark maven项目打包并使用spark-submit运行
项目目录名 countjpgs pom.xml文件(位于项目目录下) countjpgs => src => main => scala => stubs => CountJPGs.scala weblogs文件存放在HDFS的/loudacre目录下,是一个包含各种请求的web日志文件。 pom.xml文件内容: <project xmlns="...原创 2018-08-23 17:20:05 · 8411 阅读 · 0 评论 -
Hive(Impala)命令
新建表并从HDFS中导入数据: CREATE EXTERNAL TABLE webpage (page_id SMALLINT, name STRING, assoc_files STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/loudacre/webpage' 在Impala或者Hive中使用之前生成的、...原创 2018-08-20 11:44:42 · 475 阅读 · 0 评论 -
Flume的Sink配置为HDFS的相关参数说明
Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。 channel type hdfs path 写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/ 可以使用flume提供的日期及%{host}表达式。 filePrefix 默认值:FlumeData 写入hdfs的文件名前缀,可以使...转载 2018-08-27 14:22:14 · 511 阅读 · 0 评论 -
Sqoop基础命令
获取帮助: $ sqoop help 显示MySQL数据库loudacre数据库中的表: $ sqoop list-tables --connect \ jdbc:mysql://localhost/loudacre --username training --password training 查看sqoop import的功能 $ sqoop import -help 使用s...原创 2018-08-20 11:00:10 · 326 阅读 · 0 评论 -
一些基础的HDFS命令
查询HDFS中的文件或文件夹: $ hdfs dfs -ls /XXfolder/Xfolder 创建查看文件内容,以test.log文件为例: $ hdfs dfs -cat /test/test.log 或(直接查看test下面所有文件的内容,*为通配符,根据自己需要自行编写过滤条件) $ hdfs dfs -cat /test/* 同时查看几个选定的文件: $ hdfs df...原创 2018-08-20 10:37:29 · 369 阅读 · 0 评论 -
Kafka、Morphline、Hive的配合使用过滤并格式化日志数据
目录 日志数据 创建并编写2个Flume配置文件:kafka_morphline_in.conf、kafka_morphline_out.conf 在Flume配置文件存放的同目录下创建并编写Morphline配置文件:morphline.conf 启动Zookeeper 启动Kafka 以kafka_morphline_out.conf配置文件agent2启动Flume 以kafk...原创 2018-08-20 10:19:08 · 805 阅读 · 0 评论 -
Flume将日志log文件从本地导入Kafka_channel,再存储到HDFS。
作为前一篇的修改版,取出来kafka-in.conf文件中的sink和kafka-out.conf文件中的source。 前一篇链接:https://blog.youkuaiyun.com/m0_37890482/article/details/81130840 以下配置文件都存储于 /etc/flume-ng/conf/ 下面 kafka-in.conf #--------文件从本地路径到kafk...原创 2018-08-15 11:39:42 · 700 阅读 · 0 评论 -
Flume从脱机目录(Spooldir)获取文件到HDFS
Source为本地的 /flume/weblogs_spooldir,里面存储有大量的log文件。 Channel为memory。 Sink为HDFS,设置为文件大小滚动。 配置文件(configuration): agent.sources = source_spool agent.sinks = sink_hdfs agent.channels = channel_memory...原创 2018-08-10 14:25:47 · 828 阅读 · 0 评论 -
Flume将日志log文件从本地导入kafka,再从kafka导入HDFS--使用kafka作为channel
作为前面两篇文章的整合,并使用kafka作为channel: 1、Flume将日志log文件从本地导入kafka,再从kafka导入HDFS。地址: https://blog.youkuaiyun.com/m0_37890482/article/details/81126522#0-qzone-1-10214-d020d2d2a4e8d1a374a433f596ad1440 2、Flume根据文件中每行...原创 2018-07-20 14:00:19 · 3452 阅读 · 0 评论 -
Spark分区相关
在Linux启动spark-shell时,可以使用以下命令(两个线程): $ spark-shell --master local[2] 使用sc.textFile(“path”)导入文件,然后可以使用以下命令查看分区数: scala> rdd.toDebugString() 此时我从HDFS中导入了一个文件: 然后查看该 RDD --- accounts的分区数: ...原创 2018-08-24 08:58:55 · 218 阅读 · 0 评论