- 博客(165)
- 收藏
- 关注
原创 大数据——MongoDB在大数据场景下的应用
MongoDB在大数据场景下的应用MongoDB概述MongoDB概述MongoDB是一个开源的NoSQL数据库使用C++编写的具有动态模式的面向文档的数据库动态模式支持流畅的多态性将数据存储在类似JSON的文档中(BSON)使用文档(对象) 更趋近于许多编程语言MongoDB特点高性能易部署易使用存储数据非常方便...
2021-03-22 19:50:30
2561
原创 大数据——Ubuntu docker安装、容器准备、环境准备以及软件安装
Ubuntu docker安装、容器准备、环境准备以及软件安装docker安装SSH安装容器准备环境准备安装必要软件配置SSH免密登录设置时区关闭防火墙安装MySQL安装JDKHadoop安装docker安装SSH安装更新源dsj@dsj:~$ sudo apt-get update如果这一步发现更新很慢,可以这样设置点击系统设置,选择软件和更新,下载自选择其他站点点击选择最佳服务器等待找到最佳的服务器,选择服务器点击关闭,选择重新载入完成后再次更新源下载
2021-02-28 20:41:40
723
2
原创 大数据——Ubuntu配置docker的阿里云镜像加速
Ubuntu配置docker的阿里云镜像加速阿里云镜像加速阿里云镜像加速由于docker的官方的镜像源速度太慢,在国内可以通过使用阿里云或者网易云的镜像源提高下载速度,通常使用阿里云的镜像源,下面介绍怎么使用阿里云的镜像加速器。注册阿里云账号可以使用自己的支付宝账号等号。登录阿里云控制台依次点击右上角控制台——>左侧栏的产品与服务——>找到容器镜像服务点击该服务,再点击最下面的镜像加速器配置按照阿里云给的配置命令依次配置即可sudo mkdir -p /etc/
2021-02-26 16:33:54
617
原创 大数据——VMware Ubuntu安装详细教程
这里写目录标题下载Ubuntu镜像文件VMware安装Ubuntu下载Ubuntu镜像文件下载地址:Ubuntu打开下载链接,点击download下一步,点击Ubuntu Desktop选择Ubuntu 20.04 LTS release notes选择Ubuntu Desktop and Server for AMD64接下来选择64-bit PC (AMD64) desktop imagedesktop和server的区别主要是:桌面版面向个人电脑使用者,可以进行文字处
2021-02-26 15:33:01
347
原创 大数据——PySpark入口架构及Jupyter Notebook集成环境搭建
PySpark入口架构及Jupyter Notebook集成环境搭建在Linux上安装Anaconda集成PySpark-Installation集成PySpark-Configuration集成PySparkPySpark简介PySpark包介绍使用PySpark处理数据PySpark中使用匿名函数SparkContext.addPyFile在PySpark中使用SparkSQLSpark与Python第三方库混用Pandas DF与Spark DF使用PySpark通过图形进行数据探索在Linux上安
2021-02-03 18:13:40
431
原创 大数据——PySpark集成环境搭建
PySpark集成环境搭建Anaconda安装版本选择安装步骤搭建PySpark版本选择安装步骤Anaconda安装版本选择我们这里选择Anaconda3-5.1.0-Linux-x86_64,建议安装相同版本,如果版本过低,可能无法使用安装步骤使用yum安装bzip2,缺少bzip2安装Anaconda会失败[root@bigdata1 ~]# yum install -y bzip2安装Anaconda3-5.1.0-Linux-x86_64[root@bigdata1 ~]#
2021-02-03 18:13:23
291
1
原创 大数据——Scrapy爬虫框架安装配置及创建使用
Scrapy爬虫框架安装配置及创建使用Scrapy爬虫框架安装创建一个Scrapy爬虫框架Scrapy爬虫框架安装在命令提示符下载conda install scrapy如果安装失败,可能的原因是Scrapy爬虫框架所依赖的twisted安装失败。twisted是用Python实现的基于事件驱动的网络引擎框架(从这里可以看出,一个框架可以依赖于另一个框架),但其安装形式比较特殊,须先下载源码,再在本地编译生成可执行文件后才能安装,而如果本地无VS编译工具或VS的版本低于编译要求就会导致tw
2021-02-03 16:40:07
378
原创 大数据——Python库介绍NumPy、Pandas、Matplotlib
Python库介绍NumPy、Pandas、Matplotlib数据分析介绍Python数据分析Jupyter NotebookNumpy数据分析库ndarray数组ndarray支持的数据类型(一)ndarray支持的数据类型(二)数据分析介绍目标发现新的特征对已有假设进行验证手段基于统计学原理借助数据分析软件或框架处理数据成果通常是图文结合的数据分析报告Python数据分析优势简单、易学,适合初学者作为入门语言拥有一个巨大而活跃的科学计算社区拥有强大
2021-02-02 18:37:27
993
原创 大数据——Python数据爬取
Python数据爬取数据采集常用数据爬取工具安装配置Scrpy框架数据采集数据来源从网上爬取数据(crawling)从文件系统收集数据(scraping)文件、数据库等网络数据采集模型常用数据爬取工具第三方库实现爬取Requests、lxml灵活、简单PySpider爬虫框架提供WebUI界面编写及管理爬虫上手快,学习简单对Windows操作系统支持很差Scrapy爬虫框架功能强大可定制性强多线程,爬取效率高安装配置Scrp
2021-02-02 17:02:33
3233
原创 大数据——Python基础及函数
Python基础及函数内置函数自定义函数Python的函数参数函数参数函数是对象嵌套函数装饰器变量作用域全局变量局部变量局部变量内置函数内置函数无需导包即可使用的函数不同版本的Python内置函数可能略有不同之前已经接触过的内置函数type()、dir()、input()、print()、id()各版本内置函数和使用方法参考文档https://docs.python.org/zh-cn/3/library/functions.html自定义函数定义函数def
2021-02-01 01:34:14
440
原创 大数据——Python环境搭建及Python数据类型
Python环境搭建及Python数据类型下载安装Anaconda运行Python自带DemoPython开发工具Jupyter Notebook介绍PyCharm集成开发环境Python的工程结构Python语句块规范Python的注释方法与常见内置函数Python变量的特点数值类型数值类型操作符列表元组(tuple)列表/元组操作下载安装Anaconda下载Anaconda在官网上下载安装包https://www.anaconda.com/distribution/命令安装Ana
2021-01-31 17:26:00
752
原创 大数据——Python开发环境安装、PyCharm安装配置和Jupyter Notebook默认文件夹位置修改
Python开发环境安装和PyCharm安装配置在Windows上安装AnacondaPyCharm安装及工程配置在Windows上安装Anaconda在官网上下载Anaconda的安装文件Anaconda3-5.1.0-Windows-x86_64.exe如果操作系统是Win10系统,右键点击安装文件,选择以“管理员身份运行”点击Next点击I Agree选择All Users,点击Next选择安装地址,点击Next把两个选项勾选上,点击Instal
2021-01-31 17:24:13
369
原创 大数据——基于Spark Streaming的流数据处理和分析
基于Spark Streaming的流数据处理和分析流是什么为什么需要流处理流处理应用场景如何进行流处理Spark Streaming简介Spark Streaming流数据处理架构Spark Streaming内部工作流程StreamingContextSpark Streaming快速入门DStreamInput DStreams与接收器(Receivers)内建流式数据源DStream支持的转换算子转换算子-transformDStream输出算子输出算子-foreachRDDSpark Stream
2021-01-27 23:49:57
1206
原创 大数据——Kafka核心原理
Kafka核心原理为什么使用消息中间件(MQ)常见消息中间件消息中间件中的术语为什么使用消息中间件(MQ)异步调用同步变异步应用解耦提供基于数据的接口层流量削峰缓解瞬时高流量压力常见消息中间件ActiveMQRabbitMQRocketMQkafkaRedis…消息中间件中的术语Broker:消息服务器,提供核心服务Producer:消息生产者Consumer:消息消费者Topic:主题,...
2021-01-27 19:14:01
258
原创 大数据——Flume日志收集
Flume日志收集Apache Flume简介Flume架构Flume安装和配置Hello FlumeFlume组件Flume工作流程Sourceexec sourcespooling directory sourceApache Flume简介Flume用于将多种来源的日志以流的方式传输到Hadoop或者其它目的地一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构,支持容错、故障转移与恢复由Cloudera 2009年捐赠给Apache,现为Apache顶级项
2021-01-26 18:03:05
290
1
原创 大数据——把Kafka中的数据传输到HBase中
日志数据导入一级目录二级目录三级目录一级目录二级目录三级目录总体package nj.zb.kb09.kafkatohbase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connectio
2021-01-18 21:12:32
900
2
原创 大数据——Flink ProcessFunction API
Flink ProcessFunction API概述KeyedProcessFunctionTimerService和定时器(Timers)概述我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而在这一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。
2021-01-13 19:36:58
228
1
原创 大数据——Flink的时间与Watermarks详解
Flink的时间与Watermarks详解时间语义基本概念Event-TimeIngestion-TimeProcessing-Time对比使用Watermarks基本概念水位线图解水位线的传播水位线的生成方式当我们在使用Flink的时候,避免不了要和时间(time)、水位线(watermarks)打交道,理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义?Flink是如何处理乱序事件的?什么是水位线?水位线是如何生成的?水位线的传播方式是什么?让我们带着这些问题来开始本文的内容。
2021-01-12 21:32:40
488
原创 大数据——Flink Window(窗口)机制
Flink窗口机制Window(窗口)Tumbling Window(翻滚窗口)Window(窗口)Window是Flink处理无限流的核心,Windows将流拆分为有限大小的“桶”,我们可以在其上应用计算。Flink认为Batch是Streaming的一个特例,所以Flink底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从Streaming到Batch的一个桥梁。Flink提供了非常完善的窗口机制。在流处理应用中,数据时连续不断的,因此我们不
2021-01-10 23:37:48
289
原创 大数据——Flink开发流程
Flink开发流程EnvironmentSource从集合读取数据从文件中读取数据读取本地文件读取HDFS文件Kafka读取数据自定义数据源TransformMapMapFunctionRichMapFunction和其他所有的计算框架一样,Flink也有一些基础的开发步骤以及基础,核心的API,从开发步骤的角度来讲,主要分为四大部分EnvironmentFlink Job在提交执行计算时,需要首先建立和Flink框架之间的联系,也就指的是当前的Flink运行环境,只有获取了环境信息,才能将tas
2021-01-02 16:32:00
1248
原创 大数据——Flink核心技术及原理
Flink核心技术及原理前言Flink简介统一的批处理与流处理Flink流处理的容错机制前言Apache Flink(简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。Flink简介Flink
2021-01-02 13:36:52
968
原创 大数据——Spark Streaming中的Window(窗口)操作和Spark Streaming结合SparkSQL
Spark Streaming中的Window(窗口)操作窗口函数WindowcountByWindowcountByValueAndWindowreduceByWindow窗口函数窗口函数,就是在DStream流上,以一个可配置的长度为窗口,以一个可配置的速率向前移动窗口,根据窗口函数的具体内容,分别对当前窗口中的这一波数据采取某个对应的操作算子。需要注意的是窗口长度和窗口移动速率需要是batch time的整数倍。Window该操作由一个DStream对象调用,传入一个窗口长度参数,一个窗口
2020-12-27 10:22:30
565
原创 大数据——Scala和Java实现Spark Streaming实时流监控、Spark Streaming搭配Kafka Stream联用和Spark Streaming自定义采集器
Scala和Java实现SparkStreamingScala版本实现SparkStreamingJava版本实现SparkStreamingScala版本实现SparkStreaming添加maven依赖<dependencies> <dependency> <groupId>com.fasterxml.jackson.core</groupId> <artifactId>jackson-databind
2020-12-27 10:21:13
687
原创 大数据——Kafka Stream窗口操作
Kafka Stream窗口操作Kafka Stream窗口Hopping Time WindowTumbling Time WindowSession WindowKafka Stream窗口Hopping Time Window编写Java类package nj.zb.kb09.kafka;import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.common.protocol.typ
2020-12-27 10:13:53
782
原创 大数据——Kafka Stream实时流案例和Flume搭配Kafka联用
这里写目录标题从一个topic的数据进入另一个topic中利用实时流实现Wordcount功能从一个topic的数据进入另一个topic中创建maven工程添加依赖包dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version>
2020-12-27 10:13:01
320
原创 大数据——Kafka Stream
Kafka StreamKafka Stream背景Kafka Stream是什么Kafka Stream背景Kafka Stream是什么Kafka Stream是Apache Kafka从0.1.0版本引入的一个新Feature。它是提供了对存储与Kafka内的数据进行流式处理和分析的功能。Kafka Stream的特点如下:Kafka Stream提供了一个非常简单而轻量的Library,它可以非常方便地嵌入任意Java应用中,也可以任意方式打包和部署。除了Kafka外,无任何外部依赖。
2020-12-21 17:13:38
1088
原创 大数据——从Flume传输数据到Kafka并读取
从Flume传输数据到Kafka并读取从Flume传输数据到Kafka并读取user_friends_rawuserseventsevent_attendees_rawtraintest从Flume传输数据到Kafka并读取创建八个队列信息//users[root@hadoop100 opt]# kafka-topics.sh --zookeeper 192.168.136.100:2181 --create --topic users --partitions 1 --replication-
2020-12-14 20:13:19
1664
原创 大数据——使用Java连接至Kafka
使用Java连接至Kafka使用Java连接至Kafka使用Java连接至Kafka创建一个topic,并查看详情[root@hadoop100 ~]# kafka-topics.sh --zookeeper 192.168.136.100:2181 --create --topic kb09two --partitions 3 --replication-factor 1[root@hadoop100 ~]# kafka-topics.sh --zookeeper 192.168.136.10
2020-12-14 20:11:50
1406
原创 大数据——Kafka的使用
Kafka的简单使用使用简单命令操作kafka使用简单命令操作kafka启动zookeeper,并查看状态[root@hadoop100 config]# zkServer.sh start[root@hadoop100 config]# zkServer.sh status启动kafkaroot@hadoop100 config]# kafka-server-start.sh ./server.properties退出,后台启动kafka,并查看进程[root@hadoo
2020-12-14 20:10:56
150
原创 大数据——kafka安装和配置
kafka安装和配置以及简单使用安装和配置kafka使用kafka安装和配置kafka上传文件到服务端根目录下的software目录下解压kafka到指定文件夹[root@hadoop100 software]# tar -zxvf kafka_2.11-2.0.0.tgz -C /opt移动到opt目录下,并给kafka改名[root@hadoop100 software]# cd /opt/[root@hadoop100 opt]# mv kafka_2.11-2.0.0/ ka
2020-12-14 20:05:19
178
原创 大数据——Flume组件Source、Channel和Sink具体使用
Flume组件Source、Channel和Sink使用说明Flume SourcesAvro Source配置范例Thrift Source配置范例Exec Source配置范例JMS Source关于转化器配置范例Spoolinng Directory Source配置范例Event反序列化器Taildir Source配置范例Twitter 1% firehose Source(实验性)配置范例Kafka Source配置范例NetCat TCP Source配置范例NetCat UDP Source
2020-12-14 19:30:15
2625
原创 大数据——Flume介绍
Flume背景Flume的简介Flume NG的介绍Flume特点背景Hadoop业务的整体开发流程:从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步。许多公司的平台每天会产生大量的日志(一般为流式数据。如:搜索引擎的pv、查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:构建在应用系统和分析系统的桥梁,并将它们之间的关联解耦。支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统。具
2020-12-14 19:29:03
335
原创 大数据——Flume安装配置和使用
Flume日志收集Flume安装和配置背景监控端口数据监控文件信息监控文件夹中的新文件监控文件写入HDFS中Flume安装和配置上传Flume安装包至服务器根目录下的software目录下,并解压到根目录下的opt目录下[root@hadoop100 software]# tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /opt进入opt目录下,并更改解压后的名字[root@hadoop100 software]# cd /opt[root@h
2020-12-10 17:00:51
773
原创 大数据——项目实战之航班飞行网图分析
项目实战之航班飞行网图分析任务描述问题分析1:数据探索问题分析2:构建航班飞行网图问题分析3:统计航班飞行网图中机场与航线的数量问题分析4:计算最长的飞行航线任务描述需求概述探索航班飞行网图数据构建航班飞行网图使用Spark GraphX完成下列任务统计航班飞行网图中机场的数量统计航班飞行网图中航线的数量计算最长的飞行航线(Point to Point)找出最繁忙的机场找出最重要的飞行航线(PageRank)找出最便宜的飞行航线(SSSP)问题分析1:数据探索下载数据(U
2020-12-04 16:03:24
2097
1
原创 大数据——基于Spark GraphX的图形数据分析
基于Spark GraphX的图形数据分析为什么需要图计算图(Graph)的基本概念图的术语(一)图的术语(二)图的术语(三)图的术语(四)图的经典表示法Spark GraphX简介GraphX核心抽象GraphX API示例属性图应用示例(一)属性图应用示例(二)查看图信息示例为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结果的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图(Graph)的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边ed
2020-11-27 08:55:24
784
原创 大数据——GraphX之Pregel算法原理及Spark实现
GraphX之Pregel算法原理及Spark实现Pregel案例:求顶点5到其他各点的最短距离Pregel原理分析Pregel源码 def pregel[A: ClassTag]( initialMsg: A, maxIterations: Int = Int.MaxValue, activeDirection: EdgeDirection = EdgeDirection.Either)( vprog: (VertexId, VD, A) =&g
2020-11-27 08:52:43
1001
原创 大数据——GraphX之Connected Components算法及Spark实现
GraphX之Connected Components算法及Spark实现Connected ComponentsDemo扩展Connected Components源码Compute the connected component membership of each vertex and return a graph with the vertex value containing the lowest vertex id in the connected component containing
2020-11-26 18:45:20
851
原创 大数据——GraphX之PageRank算法原理及Spark实现
GraphX之PageRank算法原理及Spark实现什么是PageRank简单PageRank算法终止问题陷阱问题完整PageRank算法Spark实现RageRankSpark GraphX 图算法:PageRank什么是PageRankPageRank对网页排名的算法,曾是Google发家致富的法宝,PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。简单PageRank算法首先,将Web做如下抽象:将每个网页抽象成一个节点如果一个页面A有
2020-11-26 17:01:08
934
原创 大数据——Spark数据分析及处理即普通Json文件分析
Spark数据分析及处理使用Spark完成日志分析项目需求数据清洗项目所需文件使用Spark完成日志分析项目需求日志数据清洗用户留存分析活跃用户分析活跃用户地域信息分析用户浏览深度分析数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200过滤掉event_time为空的数据将url按照“&”以及“=”切割保存数据将数据写入mysql表中日志拆分字
2020-11-25 09:53:06
536
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人