- 博客(55)
- 资源 (5)
- 收藏
- 关注

原创 HBase架构简谈
作者的思考,建议结合《HBase权威指南》第8章一起看。。。1.HBase是如何保证快速读取以支持实时数据开发的(相比Hive和hadoop的批处理)?HBase在HDFS上磁盘数据结构为LSM(可以看成B树),按RowKey有序,复杂度为log(n)(当然与树节点元素数量有关):可以理解为对RowKey进行查询比传统数据库还快(如果没有对索引字段where查询)。关联知识:数据库原理索引:数据磁盘寻道、B树索引结构HBase的Region:HBase的一张表可以分成多个Region,.
2020-12-01 17:45:12
192
原创 大数据平台构建数据仓库步骤
数据仓库生命周期:1.DW/BI项目规划2.获取业务需求:开发的优先顺序3.开发技术架构和产品选择4.物理设计方面的考虑5.BI应用设计与开发活动6.部署和维护维度建模过程:1.确定参与人,特别是业务代表2.业务需求评审:将业务需求转换为灵活的维度模型3.建立命名规则开发详细的维度模型:1.确定维度及其属性2.确定事实3.建立详细的表设计文档Hive构建数据仓库...
2020-12-21 15:28:46
576
原创 Kafka的生产者和消费者
1.生产者:通过API将数据发送到broker(先发送到对应的批次分区,再发送到broker),可通过合理的配置达到对应的开发需求(比如:保证数据发送成功、需要发送大量的数据仅记录错误)。2.消费者:每个消费者组分享同一个话题,每个消费者消费0到多个分区(消费者和分区不可多对一,大于分区数量的消费者无法消费数据),分区和正在处理数据的消费者数量变化会触发再均衡(消费者会挂掉,或创建新的分区,把相应的分区分配给其它消费者);分区需要记录消费数据的偏移量,避免重复处理数据,有多种方式提交偏移量。...
2020-12-21 14:18:46
586
原创 hive实现update和delete
设置配置:set hive.support.concurrency=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;set hive.compactor.initiator.on=true;set hive.compactor.worker.threads=1;修改表存储格式(store)为orc,
2020-11-17 16:27:26
488
原创 elasticsearch7.x安装问题
1.jdk需要11,系统版本为8:elasticserch自带jdk,在文件目录下,向bin/elasticserch加入一行:export JAVA_HOME=/usr/local/hadoop/elasticsearch-7.9.1/jdk/2.不能用root用户执行elasticserch:创建用户elasticsearchadduser elasticsearchpasswdelasticsearchchown -R elasticsearch elasticsea..
2020-09-14 14:01:29
217
原创 shell 算术,{if,elif,else}判断语句,布尔运算符,字符串比较,文件判断命令
shell基础算术: a=20 b=10 加 : echo `expr $a 空格+空格(下同) $b ` 输出:30 减: echo `expr $a - $b ` 输出:10 乘: echo `expr $a空格\*空格$b ` 输出:200 除: echo `expr $a / $b ` 输出:2 取余: echo...
2020-08-10 10:48:20
5736
原创 superset地图汉化不显示中文问题
浏览器之前加载过地图界面,后面即使改过geojson地图名,因为浏览器已经加载过,所以不会重复加载页面,不会显示修改后的页面。 解决:清除浏览器缓存,如用 腾讯电脑管家或360杀毒软件做电脑清理。...
2020-07-02 15:38:51
817
原创 cdh安装踩坑
agent安装失败:报yum源的问题,清除yum源缓存重新更新。agent收不到反馈,看/var/log/cloudera-scm-agent日志出现下面错误:MainThread downloader ERROR Failed rack peer update: [Errno 111] Connection refused这个问题最后发现是/etc/hosts主机映射,把127.0.0.1 ......和0:::等删掉,只留192.168.216.113 hadoop等自己的。...
2020-06-16 12:07:29
1610
3
原创 Stage的创建
1.简介:任务提交调用:private def doOnReceive(event: DAGSchedulerEvent): Unit = event match { case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties) => dagScheduler.hand...
2019-09-01 20:14:50
330
原创 Spark任务提交
1.简介:当DAG创建好后就开始提交任务:println(rdd3.collect().toList)2.runJob:点进collect后一直跟着runJob前进,点进submitJob:eventProcessLoop.post(JobSubmitted( jobId, rdd, func2, partitions.toArray, callSite, waiter,...
2019-08-31 20:59:20
150
原创 DAG的创建
从最简单的WordCount开始:def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("WordCount").setMaster("local") val sc = new SparkContext(conf) val rdd1 = sc.textFile("C...
2019-08-30 17:08:07
315
原创 SparkEnv中RpcEnv的创建
1.描述:RpcEnv可以简单的描述为远程通信环境,在SparkContext创建SparkEnv过程中创建并传入多个部件中。部分不详细的地方可以参考:https://blog.youkuaiyun.com/qq_38601362/article/details/1000070902.SparkEnv.scala文件:源码第249行:val rpcEnv = RpcEnv.create(sys...
2019-08-24 17:12:26
218
原创 SparkEnv
1.简介:保存正在运行的Spark实例(主服务器或工作服务器)的所有运行时环境对象,包括序列化程序,RpcEnv,块管理器,映射输出跟踪器等。目前Spark代码通过全局变量查找SparkEnv,因此所有线程都可以 访问相同的SparkEnv。 它可以通过SparkEnv.get访问(例如在创建SparkContext之后)。2.构造方法:class SparkEnv ( val ...
2019-08-22 21:04:32
137
原创 SparkContext创建SparkEnv过程描述
1.简介:SparkContext是Spark的驱动器,SparkEnv是Spark的环境,这是创建驱动器环境的过程(其它的还有执行器环境),说的是创建驱动器环境的关键方法。2.相关方法:SparkContext.scala文件:创建的开始://在SparkContext初始化中,源码第434行。调用createSparkEnv方法创建//_conf:配置,isLocal...
2019-08-22 16:44:08
365
原创 SparkContext
1.简介:SparkContext是Spark的驱动器,她的初始化中包含任务调度器、资源管理器、事件管理器和状态跟踪器等。2.构造方法:主构造方法://传入配置参数SparkConfclass SparkContext(config: SparkConf) extends Logging 辅助构造方法:def this() = this(new SparkConf(...
2019-08-21 19:22:35
1582
原创 SparkConf
1.简介:SparkConf是Spark的配置管理器,是Spark 的开始--驱动器SparkContext的构造器重要的传参(虽然可以不传),意在更好地设置自己所需要的配置。2.构造方法:主构造方法://loadDefaults是否加载默认值class SparkConf(loadDefaults: Boolean) extends Cloneable with Loggi...
2019-08-21 08:46:23
445
原创 配置Spark-sql踩的关于配置的坑
网上有配置说在spark-env.sh里配置这个:SPARK_CONF_DIR 把这个指向hadoop配置文件这个是什么呢?修改Spark的配置文件位置。这时候你就会发现一个问题,在spark/conf目录下无论怎么修改配置,就是没反应。请看第一行配置,你自己说看配置请去hadoop目录。。。...
2019-08-11 15:18:18
263
翻译 Scala编程(第15章:样例类和模式匹配)
1.一个简单的例子:假定你需要编写一个操作算术表达式。样例类:abstract class Exprcase class Var(name:String) extends Exprcase class Number(num:Double) extends Exprcase class UnOp(operator:String,arg:Expr) extends Exprcase ...
2019-07-31 17:03:38
239
翻译 Scala编程(第十章:组合和继承)
抽象类、定义无参方法、扩展类、override重写方法和字段、定义参数化字段、调用超类构造方法、多态和绑定、声明final成员、定义工厂对象
2019-07-24 08:33:42
256
原创 Scala编程(第五章:基础类型和操作)
字面量、字符串插值、操作符即方法、算术操作、关系和逻辑操作、位运算操作、对象相等性、操作符优先级和结合性
2019-07-11 16:31:25
226
原创 Python操作Spark Mllib函数
文章是对函数的简单理解和应用,需要理解更深层次的可能要失望了。如对代码有什么疑问,下载有决策树示例代码。推荐算法(矩阵因式分解)和决策树多元分类没有很好的测试数据,暂告段落。不说废话,直接正题相关函数包名:import pysparkfrom time import timeimport numpy as npfrom pyspark.mllib.regression ...
2019-06-29 10:34:16
2274
原创 pyspark使用anaconda3报:error=13, Permission denied问题
网上找了很久,都没有解决。如果找不到,那就自己来吧。小红母鸡说。百度上各种花里胡哨的操作,解决办法:在/etc/profile或者$SPARK_HOME/conf/spark-env中export个环境,PYSPARK_PYTHON=/root/anaconda3/bin/python3.7去看安装anaconda3的文件,环境设置具体到哪一个能用的版本,就解决了。...
2019-06-22 19:32:35
3392
原创 hive3.0.0操作集锦(下)
4.查询 (1)select...from语句select name,salary,subordinates[0],deductions['State Taxes'],address.state,salary*(1-deductions['Federal Taxes'])from employee; 使用函数:https://www.cnblogs.com/MOBIN/p...
2019-05-12 17:03:54
655
原创 hive3.0.0操作集锦(上)
建议配合官方文档学习。官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual作者大纲是<<hive编程指南>>,这本书有点老,很多最新的更新都没有[笑哭],不过这些都经过测试,写出来的都能用。注:易于操作的命令:可以在$HIVE_HOME/conf目录下创建.hiverc文件,...
2019-04-16 15:13:57
920
原创 HBase shell基础命令
官方文档:http://hbase.apache.org/hbase shell建表:create 表名,列组名(family),列组名。。。。。增: put 表名,行名,列组名:列名,值删:deleteall 表名,行名 delete 表名,行名,列组名:列名查:scan表名,其它如{VERSIONS=>3}改:用put可以覆盖查看表属性:de...
2019-04-03 15:22:12
208
原创 python语言spark弹性分布式数据集-RDD(Spark快速大数据分析)(下)
(4)二元组操作(key-value键值对操作)开始:创建PairRDD。就是(key,value)这样的二元组。(以键值对集合[(1,2),(3,4),(3,6)]为例)reduceByKey():合并具有相同键的值。传入一个有两个形参的函数,处理过程:进入一条数据,根据key值hash()到一个分区内,分区内如果有其它或之前合并后的元素,调用函数处理两个元素的value值(两个形...
2019-03-12 18:07:57
672
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人