
大数据
zx_love
这个作者很懒,什么都没留下…
展开
-
CentOS7下安装Redash
CentOS7下安装Redash安装docker-ce docker-compose1、安装docker-ce首先删除较旧版本的docker(如果有):yum remove docker docker-common docker-selinux docker-engine-selinux docker-engine docker-ce下一步安装需要的软件包:yum install -y yum-utils device-mapper-persistent-data lvm2..转载 2020-08-20 11:10:14 · 979 阅读 · 0 评论 -
Hadoop与Spark并行度设置问题(mr、spark任务提交参数的设置、spark-submit参数调优)
并行度的影响合理的并行度,不能太小也不要过大。并行度较小:并发度小,执行效率低;(失去分布式计算的意义)并行度过大:资源申请上的劣势。导致ApplicationMaster在向yarn提交资源申请时不能做到数据本地化(分配执行任务的机器不是数据所在机器,yarn resourcemanager在分配资源时选择 数据本地、同机架、集群随机三种方式,优先级从前到后),甚至由于集群剩余资源不足而处于排队等待状态,申请资源时间成为整个任务执行时间的瓶颈;每个task的初始化时间拖了任务执行时间的后腿(一原创 2020-07-02 21:55:58 · 1682 阅读 · 2 评论 -
通俗易懂的Hive知识分享
hive sql通过hive cli或者hive server2(jdbc链接)hive cli:hive -e “your sql” 执行sql并退出hive -S -e “your sql” 静默模式,返回结果省去执行耗时、结果行数等信息hive -f /xx/your_sql.hql 执行指定文件中的sql(进入hive shell模式时,可以使用source指定sql文件)hive外部表与管理表(内部表)管理表 —— hive控制着数据的生命周期(删除表时,数据会被删除),数据存储在默原创 2020-06-28 20:56:54 · 713 阅读 · 0 评论 -
Flink大数据计算框架
本文从flink基本概念、flink的特点有点开始介绍,并详细介绍了flink save point的应用,以及flink提交参数的设置及其含义。。。原创 2019-09-02 21:37:37 · 857 阅读 · 0 评论 -
Hadoop数据存储orc与parquet格式的选择
对于orc与parquet这两种列式存储格式,网上能找到大量的介绍以及对比,此处简单总结一下:orc VS parquet: orc存储压缩率比parquet要高; 一般来说,orc读取效率比parquet要高; parquet支持嵌套数据格式,orc原生不支持嵌套数据类型(但可通过复杂数据类型如map<k,v>间接实现,此处情况即对应第二条中的“特例”,...原创 2019-09-01 17:40:20 · 4445 阅读 · 0 评论 -
【Spark】重分区
重分区的两种方式(coalesce与reparation):dataset(spark2.0以上,dataset/dataframe):coalesce(shuffle=false);reparation(shuffle=true,且可按column进行分区);rdd:coalesce(默认shuffle=false,可传参数,开启shuffle);reparation(shuffle=t...原创 2019-08-31 01:53:08 · 2451 阅读 · 0 评论 -
Flink实时写入MongoDB
通过flink的RichSinkFunction,实现连接MongoDB,实时写入数据(也可以自定义一个类继承RichSinkFunction)此处需注意,由于RichSinkFunction是序列化对象,此时可以使用@transient (private) lazy来表示不需序列化,否则可能会报异常。(其中@trainsient可以避免overhead,lazy可以第一次被调用时正确地初始...原创 2019-08-06 16:17:37 · 9120 阅读 · 0 评论 -
Flink数据写入Elastic Search
需要注意的是,flink连接es时,端口号需要使用tcp端口(一般es默认http端口为9200,tcp端口为9300)。代码如下: //es配置 val config = new java.util.HashMap[String, String] config.put("bulk.flush.max.actions", "1") config.put("c...原创 2019-08-06 15:56:16 · 1174 阅读 · 0 评论 -
Flink连接Zookeeper消费Kafka数据
废话不多说,直接上代码片段,示例代码(scala版本): val env = StreamExecutionEnvironment.getExecutionEnvironment // kafka 配置 val ZOOKEEPER_HOST = "host:prot" val KAFKA_BROKERS = "host:port" val TRANSAC...原创 2019-08-06 15:38:05 · 2554 阅读 · 0 评论 -
SpringData连接ElasticSearch
https://docs.spring.io/spring-data/elasticsearch/docs/3.1.0.RELEASE/reference/html/#repositories.query-methods.details转载 2019-07-09 11:00:20 · 1036 阅读 · 0 评论 -
数据仓库设计与实现入门(一、ODS/DW/BN简介)
一、从数据流的逻辑上来讲,数据可以分为ODS层(原始日志数据),DW层(数据仓库),BN(统计结果数据)Spark/SparkStreaming任务加载原始日志(离线处理flume落地到hadoop集群的hdfs或实时消费kafka数据)提取业务最原始数据,根据业务逻辑生成ODS层数据(分类/分流后的原始日志);再根据业务场景进一步将业务ODS层数据划分到DW层(处理后的数据模型);最后跟...原创 2019-04-02 19:20:23 · 3231 阅读 · 0 评论 -
Spark离线计算优化——leftOuterJoin优化
两个k-v格式的RDD进行leftOuterJoin操作如果数据量较大复杂度较高的话计算可能会消耗大量时间。可以通过两种方式进行优化:1、leftOuterJoin操作前,两个RDD自身进行reduceByKey操作(保证key唯一);2、两个RDD先map成结果k-v格式,再将两个RDD进行reduceByKey操作(避免使用leftOuterJoin操作),示例:RDD1:(a, a1)RDD...原创 2018-06-06 19:13:03 · 3554 阅读 · 0 评论 -
Spark离线计算优化——增量小数据集更新全量大数据集
有两个k-v格式的RDD需要union之后再进行reduceByKey操作(如:要将每日增量几十万的数据更新到全量几亿的数据)优化方案:先将两个RDD公共部分提取出来,然后将公共部分先union再进行reduceByKey,最后将结果和前面没有交集的RDD相加(union)具体做法:将较小的RDD1的key放入set并广播broadcast,然后将大的RDD2过滤filter出含该key较...原创 2018-06-06 18:56:44 · 3897 阅读 · 0 评论 -
Hive SQL查询结果写入指定hdfs路径
将hive查询结果写入指定hdfs路径下:set mapred.reduce.tasks = 1;insert overwrite directory '/xx/xx/'ROW FORMAT DELIMITED FIELDS TERMINATED BY '~'select cols...from tableNamewhere conditions...distribute by ran...原创 2018-06-06 18:32:13 · 10776 阅读 · 0 评论 -
如何合理设置spark-submit参数
基础的一些参数:--executor-cores 2(每台机器核数)--num-executors 20 (executor 节点数,不要太多5-20,如果程序涉及数据交换较多,节点数过多会,大量shuffle write需要跨机器网络传输数据,影响实际执行效率;同时与集群资源有关,申请资源需要合理,不要影响其他业务;集群网络不佳时,节点数过多会扩大对执行效率的影响)--driver...原创 2018-01-24 15:40:05 · 1893 阅读 · 0 评论 -
Hive建立外部表表external table
Hive建表(外部表external):CREATE EXTERNAL TABLE `table_name`( `column1` string, `column2` string, `column3` string)PARTITIONED BY ( `proc_date` string)ROW FORMAT SERDE 'org.apache.hadoop原创 2018-01-22 14:21:13 · 17494 阅读 · 0 评论