
大数据
文章平均质量分 61
小米吃辣椒2022
本人毕业于湖北工业大学,目前已有7年的工作经验,先后涉猎于电商,农业大数据,智慧停车,城市智慧大脑,公安指挥调度,海康云商电商平台,智慧物流等软件开发行业,目前就职于稳健医疗java全栈工程师岗位,负责智慧物流产品百台服务器核心架构设计及研发工作,对多线程,高并发,架构设计,应用虚拟容器,微服务,数据库中间件,消息中间件以及大数据生态圈,web前端技术有丰富的认知和开发经验。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《进击大数据》系列教程之Hive中的DDL
hive中的DDL(1)ddl - database使用create database 语句创建数据库,location 指定 数据库的地址,with dbproperties 指定数据库的创建人和创建时间hive 中...原创 2021-03-24 10:50:01 · 292 阅读 · 0 评论 -
《进击大数据》系列教程之Hive基础篇
一、Hive基础(1)Hive 包含的组件(2)Hive 安装的三种墨水第一种嵌入式的安装方式,Driver 和 metaStore 在 同一个 jvm 进程里面 ,连接Dcrby第二种本地的安装方式,Driver 和 metaStore 也是在同一个 jvm进程里面,连接的Mysql数据库第三种远程的安装方式,Driver 和 metaStore 不在 同一个 jvm进程里面,而去一个 driver 可以 连接多个 metaStore,实现一个负载均衡的效果,连接的mysq..原创 2021-03-01 16:32:58 · 288 阅读 · 0 评论 -
《进击大数据》系列教程之YARN篇
一、yarn 简介分布式集群的计算资源管理,包括对内存以及cpu的管理,也是符合主从结构,主ResourceManager 负责集群资源的调控,负责单个服务器上资源的管理。二、yarn的安装三、分布式计算概述四、yarn的资源调度机制五、yarn Capacity Scheduler 配置yarn application -list 查看当前正在执行的任务列表...原创 2020-12-30 13:46:24 · 507 阅读 · 0 评论 -
《进击大数据》系列教程之hadoop大数据基础
前言时隔一年多,忙忙碌碌一直在做java web端的业务开发,大数据基本忘的差不多了,此次出一个大数据系列教程博文将其捡起。hadoop,hdfs的下载安装以及启动,停止在这里就不一一介绍了,不会的可以查看我的历史博客。默认我们已经搭建好了一个三节点的主从hadoop节点,一个master,两个salve一、使用http的方式访问hdfs在hdfs-site.xml中增加如下配置,然后重启hdfs:<property><name>dfs.webhdfs.原创 2020-12-18 16:28:36 · 266 阅读 · 0 评论 -
《进击大数据》系列教程之hadoop搭建HA高可用集群
一、HDFS HA 集群规划原创 2020-12-21 17:09:34 · 336 阅读 · 1 评论 -
《进击大数据》系列教程之hdfs常用操作命令
一、HDFS常用操作命令查看根目录下的文件hadoop fs -ls hdfs://master:9999/ 或hadoop fs -ls /hadoop fs -ls -h hdfs://master:9999/ 或hadoop fs -ls -h / 增加-h参数,使文件大小可读,-d 只显示目录 -R 递归显示目录及文件创建目录hadoop fs -mkdir hdfs://master:9999/user 或hadoop fs...原创 2020-12-23 19:23:15 · 434 阅读 · 0 评论 -
初识Flink
Apache Flink是一个用于分布式流和批处理数据处理的开源平台。Flink的核心是流数据流引擎,为数据流上的分布式计算提供数据分发,通信和容错。Flink在流引擎之上构建批处理,覆盖本机迭代支持,托管内存和程序优化。一、Flink 的下载安装启动设置:下载并启动FlinkFlink可在Linux,Mac OS X和Windows上运行。为了能够运行Flink,唯一的要求是安装一个...原创 2019-01-26 10:51:00 · 1083 阅读 · 0 评论 -
spark streaming 整合flume ,kafka 打造通用流处理
一、编写LoggerGenerator.java文件用于生成日志信息添加依赖 <dependency> <groupId>org.apache.flume.flume-ng-clients</groupId> <artifactId>flume-ng-log4jappender&...原创 2019-01-14 21:25:38 · 1391 阅读 · 0 评论 -
spark streaming 实时流处理项目实战
spark streaming 实时流处理项目实战一、 编写python 日志产生脚本,并使用linux 的crontab 命令 一分钟执行一次tool.lu/crontab 网站 可以测试 cron表达式cd /home/hadoop/data/project将以下python 脚本放到...原创 2019-01-24 10:57:06 · 2755 阅读 · 3 评论 -
Spark Streaming 进阶实战五个例子
一、带状态的算子:UpdateStateByKey实现 计算 过去一段时间到当前时间 单词 出现的 频次object StatefulWordCount { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("Stat...原创 2019-01-03 13:46:53 · 1517 阅读 · 0 评论 -
spark 环境搭建
一、spark 安装 配置 基于上一篇博客 CentOS6.4环境编译Spark-2.1.0源码,将编译出来的spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz进行解压,并配置环境变量。执行 spark-shell --master local[2] 命令,看到如图所示界面 说明安装成功:本地模式二、从词频统计着手入门sparkpackage org....原创 2019-01-02 19:08:07 · 1111 阅读 · 0 评论 -
基于CentOS6.4环境编译Spark-2.1.0源码
基于CentOS6.4环境编译Spark-2.1.0源码 1 写在前面的话有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示:Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能够满...原创 2019-01-02 14:39:59 · 1090 阅读 · 0 评论 -
大数据之 Flume 日志收集框架入门
Flume 日志收集框架入门 一、 flume 简介Apache Flume是一个分布式,可靠且可用的系统,用于有效地从许多不同的源收集,聚合和移动大量日志数据到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但...原创 2018-12-26 11:22:47 · 1229 阅读 · 0 评论 -
spark streaming 整合 kafka 两种 Receiver-based 和 Direct Approach
一、Receiver 方式整合 spark streaming 和 kafka启动zookeeperzkServer.sh start启动kafka :kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties创建topic:kafka-topics.sh --create --zooke...原创 2019-01-03 17:33:17 · 1180 阅读 · 0 评论 -
spark streaming 整合 flume两种方式 push 和 pull
一、push 方式 :spark streaming 整合 flume 配置开发cd $FLUME_HOMEcd conf编写 flume配置文件, vim flume_push_streaming.confsimple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksimple-age...原创 2019-01-03 15:22:45 · 1286 阅读 · 0 评论 -
大数据 之 Hbase 入门
一、下载 安装cdh 版本 hbase下载地址http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gztar -zxvf hbase-1.2.0-cdh5.7.0.tar.gzcd /opt/hbase-1.2.0-cdh5.7.0/conf修改 hbase-env.sh配置文件vim hbase...原创 2018-12-28 15:24:46 · 1112 阅读 · 0 评论 -
大数据之 kafka 入门
一、zookeeper 下载 安装cdh 版本的 zookeeper 下载地址http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz解压 tar -zxvf zookeeper-3.4.5-cdh5.7.0.tar.gz配置环境变量export ZK_HOME=/home/hadoop/app/...原创 2018-12-27 11:10:38 · 1121 阅读 · 0 评论