
Spark和他的小伙伴们
rua
Tai_Park
ฅ( ̳• ◡ • ̳)ฅ
展开
-
XGBoost4J-Spark 1.0.0运行流程与排坑指南
XGBoost4J-Spark配置全解0.前言1.确认版本2.Maven配置3.代码4.运行0.前言XGBoost4J-Spark能够让我们在Spark上玩XGBoost,对于海量数据来说应该是很有用的。这篇文章主要介绍了将其官网提供的Demo部署在Linux上运行的全过程。通过此Demo在Spark上用XGBoost完成iris数据集的多分类任务。此次选用的是最新的稳定版XGBoost4J...原创 2020-04-30 21:51:27 · 2621 阅读 · 8 评论 -
大数据流处理(Spark Streaming + Kafka)面试常考考点
1.ackKafka Producer的参数,是把数据写到Kafkabroker里面去时需要的参数。常见的值有1、0、all(-1)。0:leader不做等待,只管发不管结果。延时性最低、持久性最差;1(默认):只要leader写数据到本地即可,不关注followers。当leader挂掉了可能会有数据丢失。延时性较低、持久性较高;all(或者-1):leader关注ISR(In-...原创 2020-03-13 18:24:26 · 1549 阅读 · 0 评论 -
Kafka偏移量(Offset)管理
1.定义Kafka中的每个partition都由一系列有序的、不可变的消息组成,这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号,用于partition唯一标识一条消息。Offset记录着下一条将要发送给Consumer的消息的序号。流处理系统常见的三种语义:最多一次 每个记录要么处理一次,要么根本不处理 至少一次 这...原创 2020-03-12 19:29:20 · 4454 阅读 · 0 评论 -
【从0开始の全记录】Crontab+Flume+Kafka+Spark Streaming+Spring Boot 统计网页访问量项目
1.需求说明1.1 需求到现在为止的网页访问量到现在为止从搜索引擎引流过来的网页访问量1.2 用户行为日志内容2.模拟日志数据制作用Python制作模拟数据,数据包含:不同的URL地址->url_paths 不同的跳转链接地址->http_refers 不同的搜索关键词->search_keyword 不同的状态码->status_co...原创 2020-03-08 19:51:58 · 1075 阅读 · 5 评论 -
Spark Streaming整合log4j、Flume与Kafka的案例
1.框架2.log4j完成模拟日志输出设置模拟日志格式,log4j.properties:log4j.rootLogger = INFO,stdoutlog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender....原创 2020-03-07 21:15:34 · 330 阅读 · 0 评论 -
整合Spark Streaming与Kafka
1.Direct DStream(No Receivers)Spark 1.3中引入了这种新的无接收方“直接”方法,以确保更强的端到端保证。这种方法不使用接收者来接收数据,而是定期查询Kafka在每个主题+分区中的最新偏移量,并相应地定义每个批处理中的偏移范围。启动处理数据的作业时,Kafka的简单消费者API用于从Kafka读取已定义的偏移范围(类似于从文件系统读取文件)。请注意,该特性是...原创 2020-03-07 16:14:28 · 392 阅读 · 0 评论 -
分别用Push方式与Pull方式整合Flume与Spark Streaming
1.架构2.Flume配置在$Flume_HOME/conf下新建配置文件:flume_push_streaming.conf配置思路如下:source选择netcat,配置好主机名与端口 sink选择avro,配置好主机名与端口 channel选择memory 将source与channel连起来 将sink与channel连起来simple-agent.sour...原创 2020-03-06 18:46:31 · 270 阅读 · 0 评论 -
整合Flume与Kafka完成实时数据采集
1.架构2.Flume第一个Agent配置 -> exec-memory-avro.conf:exec-memory-avro.sources = exec-sourceexec-memory-avro.sinks = avro-sinkexec-memory-avro.channels = memory-channelexec-memory-avro.source...原创 2020-03-03 13:40:09 · 589 阅读 · 0 评论 -
Kafka入门指南
概述Kafka是一种消息中间件。Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of compa...原创 2020-03-02 17:39:30 · 509 阅读 · 0 评论 -
Flume入门指南
FlumeApache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data sto...原创 2020-03-01 20:57:30 · 173 阅读 · 0 评论