
spark
lbship
工科专业转行大数据分析
展开
-
Flume远程实时采集Windows产生的log4j产生的数据
一、配置log4j.properties在IDEA的resource下面新建log4j.properties配置如下:主要定义了控制台和flume里面的日志格式,flumeAppender配置参考Flume官网log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout=org.apache.log4j.ConsoleAppen...原创 2018-12-29 11:50:10 · 2122 阅读 · 0 评论 -
Flume跨服务器实时采集数据
整体架构如下图,有两台服务器,在服务器之间传输一般用avro 或者Thrift比较多,这里选择avro source和sink:一、Flume配置1.在A服务器新建aserver.conf#服务器A(192.168.116.10)a1.sources = r1a1.sinks = k1a1.channels = c1# 配置监控文件a1.sources.r1.type ...原创 2018-12-11 11:53:41 · 2920 阅读 · 0 评论 -
Flume采集数据:从指定网络端口和实时监控新增数据
一、从指定端口采集数据1.配置flume文件创建一个文件叫ip.conf,自己随便取的名字。a1.sources=r1a1.sinks=k1a1.channels=c1#描述和配置source,这里的a表示agent的名字#第一步:配置sourcea1.sources.r1.type=netcata1.sources.r1.bind=192.168.116.10a1.s...原创 2018-12-06 18:42:23 · 2696 阅读 · 0 评论 -
Linux下面Maven、Kafka、HBASE、flume、Hive安装
一、安装Maven1.下载并解压wget http://archive.apache.org/dist/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz tar -xvzf apache-maven-3.5.2-bin.tar.gz2.添加环境变量vim ~/.bashrcexport MAVEN_HOME=/...原创 2018-09-29 16:25:28 · 413 阅读 · 0 评论 -
利用Spark构建分布式电影协同过滤推荐系统
一、数据采集使用MovieLen的开放数据集作为数据源,包含了6000个用户对4000个电影的评分数据,大概有100万条评分数据。数据集也可以从这个网址下载。数据集一共有3个文件:movie.date(电影ID::电影名称::标签)1::Toy Story (1995)::Animation|Children's|Comedy2::Jumanji (1995)::Adventure...原创 2019-04-09 10:16:35 · 1642 阅读 · 0 评论 -
实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming
整体架构图一、python模拟生成日志import randomimport timeiplist=[101,198,65,177,98,21,34,61,19,11,112,114]urllist=['baidu.com','google.com','sougou.com','360.com','yahoo.com','yisou.com']mobile=['xiaomi'...原创 2019-04-06 13:34:10 · 1937 阅读 · 11 评论 -
Lambda架构:Python+Flume+Kafka+Hbase+SparkStreaming架构搭建
一、模拟网站实时产生数据1.利用python模拟产生日志这里的日志选用慕课网日志,原始的日志文件是这样的:需要进行处理,这里选用python脚本处理和模拟生成日志,代码如下:import timedef timeformate(s): s=s.split('/') years=s[2].split(':')[0] days=s[0] mon...原创 2019-01-06 15:31:36 · 1109 阅读 · 2 评论 -
Kafka+flume实时采集数据
一、模拟产生日志在IDEA的resource文件夹下面新建log4j.properties定义日志格式,其中flume和log4j的整合配置可以查看Log4j Appender#设置日志格式log4j.rootCategory=ERROR,console,flumelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4...原创 2018-12-03 17:06:40 · 2148 阅读 · 0 评论 -
SparkSteaming实时接收网络端口数据和hdfs做Wordcount
一、POM配置因为使用windows的IDEA连接虚拟机中的Spark,所有要配置一下依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.or...原创 2018-12-17 18:16:49 · 427 阅读 · 0 评论 -
Spark On Yarn安装和使用
已经搭建好Hadoop2.6了,现在准备在yarn上搭建spark。一.安装Scala1.解压tar -xvzf scala-2.10.6.tgz2.添加环境变量vim ~/.bashrcexport SCALA_HOME=/usr/local/src/scala-2.10.6export PATH=$PATH:$SCALA_HOME/binsource一下,查看...原创 2018-09-26 16:58:11 · 8648 阅读 · 1 评论 -
spark1.6使用:读取本地外部数据,把RDD转化成DataFrame,保存为parquet格式,读取csv格式
一、先开启Hadoop和spark略二、启动spark-shellspark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar1.读取spark目录下面的logs日志作为测试:val alllog=sc.textFile...原创 2018-11-01 15:08:22 · 4705 阅读 · 0 评论 -
spark1.6.1和2.4读取csv文件,转为为DataFrame和使用SQL
一、spark1.6读取csvspark2.0才开始源码支持CSV,所以1.6版本需要借助第三方包来实现读取CSV文件,有好几种方法,1.如果有maven的,到https://spark-packages.org/package/databricks/spark-csv下载对应scala版本的第三方jar包然后再maven的pom里面添加denpency,然后根据官网的用法用--packa...原创 2018-11-02 15:36:29 · 5795 阅读 · 2 评论 -
spark2.4 on yarn安装
一、安装scala2.11注意官网的这句话:Note: Starting version 2.0, Spark is built with Scala 2.11 by default. Scala 2.10 users should download the Spark source package and build with Scala 2.10 support.也就是说spark2....原创 2018-11-29 14:53:55 · 2231 阅读 · 1 评论 -
SparkStreaming使用SQL
直接上代码,例子来源于官网的wordcount例子package Sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.storage.StorageLe...原创 2018-12-19 17:22:10 · 2534 阅读 · 0 评论