
大数据学习
文章平均质量分 94
二级分类, 收录大数据相关博文
时间静止不是简史
想要时间静止,却敌不过事态变迁
展开
-
大数据常用技术梳理
热爱大数据技术或者从事大数据开发方面可以来看看. 应该会对您有所帮助~~~原创 2021-01-01 11:09:07 · 5444 阅读 · 4 评论 -
Elastic Search
个人整理的部分elastic search资料, 已更新了ELK基础知识, ES核心概念, ES安装, 分词器和标准化处理, ElasticSarch的query string搜索以及DSL搜索等模块内容.原创 2020-04-22 21:54:59 · 2402 阅读 · 1 评论 -
虚拟机更换JDK版本步骤(Hadoop集群)
以将 jdk1.7 修改为jdk 1.8 配置为例1.修改环境变量如果1.7版本jdk 是直接通过外部的压缩包放到虚拟机中, 则需要修改环境变量/etc/proflie解压1.8软件压缩包:配置:/etc/proflieexport JAVA_HOME=/software/jdk1.8.0_181export PATH=$JAVA_HOME/bin:$PATH更新生效:sourc...原创 2019-12-26 21:57:42 · 6179 阅读 · 2 评论 -
Spark——底层操作RDD,基于内存处理数据的计算引擎
Spark 第一章 是什么一 介绍简介特点二 Spark与MapReduce的区别三 Spark运行模式四 Spark CoreSpark RDDRDD LineageSpark任务执行原理Spark代码流程Spark 中的算子Transformations转换算子Action行动算子控制算子第一章 是什么一 介绍简介Apache Spark是一个快速的通用集群计算引擎。它提供Java,...原创 2019-12-23 10:19:41 · 3818 阅读 · 0 评论 -
Spark提交Jar任务警告: Initial job has not accepted any resources;
错误信息描述在Spark提交任务时, 会一直出现下面警告WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources原创 2019-12-20 16:45:19 · 2365 阅读 · 0 评论 -
Scala——多范式, 可伸缩, 类似Java的编程语言
Scala 第一章 是什么一 Scala 介绍二 Scala 安装使用安装语言环境常用开发工具整合Scala插件创建Scala项目第二章 Scala 的学习一 Scala 基础数据类型变量常量声明类和对象使用条件语句二 Scala 的方法与函数1.函数方法的定义2.递归方法3.参数有默认值的方法4.可变参数的方法5.匿名函数6.嵌套函数/方法7.偏应用函数8.高阶函数9.科里化函数三 Scal...原创 2019-12-13 09:27:43 · 2771 阅读 · 0 评论 -
Flink——运行在数据流上的有状态计算框架和处理引擎
Flink 第一章 是什么一 Flink架构相关概念架构图处理无界和有界数据在任何地方部署应用程序任意规模运行应用程序利用内存性能二 应用领域三 运作方式不间断运行应用程序24/7更新,迁移,暂停和恢复应用程序监视和控制应用程序四 Flink & Storm & SparkStreaming 区别五 Flink 中 Scala /java/Maven 版本匹配第二章 编程案例第一...原创 2019-12-10 08:33:57 · 2785 阅读 · 1 评论 -
Storm——分布式实时流式计算框架
Storm 第一章 是什么一 介绍二 拓扑流程流式处理实时处理三 性能对比Storm 与MapReduce的关系Storm 与 Spark Streaming 的关系四 计算模型第二章 Storm编程案例一 WordSum ( 数据累加 )SpoutBoltTest二 WordCountSpoutBoltTest第三章 Storm Grouping1. Shuffle Grouping2. F...原创 2019-12-06 15:57:08 · 3602 阅读 · 0 评论 -
Kafka——分布式的消息队列
Kafka 第一章 是什么一 Kafka简介二 概念理解第二章 安装一 集群安装二 使用命令第三章Kafka整合flume整合步骤第一章 是什么一 Kafka简介 Kafka是一个分布式的消息队列系统(Message Queue)。官网:https://kafka.apache.org/ Kafka维护主题为的消息源。我们将调用将消息发布给Kafka主题生产者的流程。我们将调...原创 2019-12-05 15:28:22 · 2875 阅读 · 0 评论 -
CDH——Cloudera’s Distribution Including Apache Hadoop
CDH 第一章 是什么背景介绍架构结构图组件说明第二章 安装CDH 安装方式Cloudera Manager 部署Hue第一章 是什么背景在学习CDH之前,我们首先可以考虑如下问题:1000台服务器的集群,最少要花费多长时间来搭建好Hadoop集群?包括Hive、Hbase、Flume、Kafka、Spark等等只给你一天时间,是否能够完成以上工作?对于以上集群进行...原创 2019-12-01 18:33:19 · 2594 阅读 · 0 评论 -
ZooKeeper技术
ZooKeeper ZooKeeper简介、作用、存储结构、zookeeper单机版与集群的安装。。。原创 2019-07-19 20:00:01 · 1710 阅读 · 0 评论 -
Hive整合HBase实现数据同步
在整合时需要注意Avro 数据存储在Hive列Hive 0.90整合Hbase至少要求Hbase版本为0.92 ,更早版本的Hive要工作在 Hbase 0.98/0.90Hive 1.x 整合Hbase要求原创 2019-11-25 18:51:45 · 3078 阅读 · 0 评论 -
Sqoop——将关系数据库数据与hadoop数据进行转换的工具
Sqoop 第一章 是什么介绍架构第二章 安装第三章 sqoop操作连接操作连接参数导入操作导入参数操作操作导出参数第一章 是什么介绍Apache Sqoop(TM)是一种旨在Apache Hadoop和结构化数据存储(例如关系数据库)之间高效传输批量数据的工具 (将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具)。Sqoop于...原创 2019-11-24 11:28:46 · 3177 阅读 · 1 评论 -
Sqoop导入数据时异常java.net.ConnectException: Connection refused
异常信息java.net.ConnectException: Call From node4/192.168.179.143 to node4:8032 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.o...原创 2019-11-23 17:03:28 · 3600 阅读 · 0 评论 -
Flume——高可用的、高可靠的、分布式日志收集系统
flume 第一章 是什么介绍架构第二章 安装简单案例实现(单节点实现)设置多Agent流设置多Agent流的拓展企业常见架构模式流复用模式第三章 Flume 常见的源netcat源avro源exec源 利用exec源监控某个文件JMS源Spooling Directory Source 利用Spooling Directory源监控目录 第一章 是什么介绍Flume是Clou...原创 2019-11-17 19:43:10 · 3822 阅读 · 2 评论 -
Hadoop技术(四)分布式、面向列的开源数据库HBase
面向列的据库HBase 第一章 Hbase介绍Hadoop生态系统图非关系型数据库知识面扩展HBase简介HBase数据模型HBase架构第一章 Hbase介绍本阶段介绍HBase 是一个分布式的、面向列的开源数据库。是基于Google 开源的bigtable的实现,面向列的非关系性数据库。Hadoop生态系统图非关系型数据库知识面扩展cassandra (开源分布式NoSQL...原创 2019-11-09 14:10:35 · 6270 阅读 · 5 评论 -
Hadoop技术(三)数据仓库工具Hive
hive介绍hive架构hive搭建模式及搭建hive的hiveserver2hive的beelinehive的JDBC操作hive的分区hive的数据库操作hive的表操作hive的外部表和内部表hive的视图hive的lateral viewhive的函数hive的自定义函数第一章 hive是什么一 hive简介 hive是基于Hadoop的一个数据仓库工具...原创 2019-11-07 14:02:29 · 2832 阅读 · 1 评论 -
Hive建表异常cannot recognize input near ')' 'row' 'format' in column specification
有问题的建表语句hive> create table tb_emp0 > ( > id int, > name string, > ) > row format delimited > fields terminated by ',';错误信息NoViableAltException(307@[])...原创 2019-11-05 10:33:10 · 39149 阅读 · 1 评论 -
Hadoop技术(二)资源管理器YARN和分布式计算框架MapReduce
Hadoop技术之分布式文件系统MapReduce 第一章 Hadoop MapReduce 是什么一 MapReduce 介绍1. 基本介绍 2. MR数据流程方向 3. MR 原语/ 核心思想( 重点记忆 ) 4. MR运行原理 5. 块 ,切片 , map ,reduce ,组 ,分区 ,输出文件之间的关系6. 计算框架MR7.计算框架 Map8.计算框架Reduce二 Ha...原创 2019-11-03 09:54:19 · 2482 阅读 · 4 评论 -
Hadoop技术(一)分布式文件系统HDFS
Hadoop介绍HDFS理论HDFS集群搭建CLI使用API使用第一章 统一思维单机大数据处理实现以及问题问题引入问题1T 文件,有数字,按行存储 ,每行不是特别长要求找出存在的重复行(假设只有两行)全排序单词重复数环境只有一台计算机 ,要求在 128M,64M,256G的环境下都能够运行注意内存不能放下全量数据 ,最大xxMB !!!我的思路:比较法...原创 2019-10-28 10:29:41 · 4818 阅读 · 9 评论 -
高并发技术
高并发技术 第一章 预备知识一 理解大数据二 网工基础知识OSI七层参考模型应用层表示层会话层传输层网络层链路层物理层功能分层总结第二章 LVS技术一 LVS介绍二 LVS调度算法LVS命令监控多个端口号管理服务集群中的Real Serever(RS)三. LVS-DR实现LVS-DR实验拓扑图实现步骤第三章 Keepalived一 高可用 High Available二 模拟实验配置第四章...原创 2019-10-24 09:11:37 · 17400 阅读 · 1 评论 -
Docker技术 ( 容器虚拟化技术 )
Docker虚拟化容器技术 第一章 Docker简介诞生背景Docker 介绍虚拟机技术容器虚拟化技术官方网址第二章 Docker安装前提条件安装DockerDocker底层原理Docker结构图工作原理Docker为什么比VM快第三章 Docker常用命令帮助命令镜像命令容器命令第一章 Docker简介诞生背景一款产品从开发到上线,从操作系统,到运行环境,再到应用配置。作为开发...原创 2019-10-21 14:13:07 · 91206 阅读 · 32 评论 -
大数据学习之Linux基础
大数据学习之Linux基础 自定义Linux虚拟机安装网络配置1.node1网络配置2.通过快照克隆虚拟机3.配置其他三个节点虚拟机Linux简单命令shell命令运行原理图1.关机与重启2.判断命令的命令3.常用功能命令4.文件系统命令文件系统层次化标准(File System Hierarchy Standard)5.文本操作命令vi全屏文本编辑器全屏编辑器模式1.打开文件2.关闭文件3.编辑...原创 2019-10-18 14:42:17 · 31118 阅读 · 17 评论