
大数据
孙行者Monkey
1.每天进步一丢丢,做个有趣的人 2.种一棵树最好时间是十年前,其次是现在 3.每个人都有一个觉醒期,但觉醒的早晚决定个人的命运 4.知行合一,知道了不去做,等于不知道
展开
-
delta格式的表重建
步骤:1. 创建一张正确表结构的临时表tb_table_tmp2. 再把临时表的表结构及数据写入正式表df = spark.sql("select * from dwd.tb_table")df.write \ .format("delta") \ .mode("overwrite") \ .option("overwriteSchema", "true") \ .option("path", "临时表建表路径") \ .partitionBy('分区字段') \ .save原创 2021-08-25 11:40:11 · 530 阅读 · 1 评论 -
DBeaver连接不上clickhouse
一、问题描述打开dbeaver,出现can‘t load driver ru.yandex.clickhouse.ClickHouseDriver二、百度找到jar包的坐标我去github 找到了这个坐标三、配置驱动右键点击某个clickhouse连接 ,点编辑连接 ,点编辑驱动设置,再点添加工件点击确定后,点测试链接,完美连接,弹出下载页后,下载对应的驱动,可以尽情玩CK啦!!!!!TIP:最好是配置一下阿里的maven,下载快一点,依次点击dbeaver的如下1、窗口–>首选原创 2021-01-14 09:13:42 · 11599 阅读 · 0 评论 -
实用 | 用户画像:标签化就是数据的抽象能力
王兴说过,我们已经进入到互联网的下半场。在上半场,也就是早期的互联网时代,你永远不知道在对面坐的是什么样的人。那个年代大部分人还是 QQ 的早期用户。在下半场,互联网公司已经不新鲜了,大部分公司已经互联网化。他们已经在用网络进行产品宣传,使用电商销售自己的商品。这两年引领下半场发展的是那些在讲 “大数据”“赋能”的企业,他们有数据,有用户。通过大数据告诉政府该如何智慧地管理交通,做城市规划。通过消费数据分析,告诉企业该在什么时间生产什么产品,以最大化地满足用户的需求。通过生活大...原创 2020-07-29 16:53:07 · 571 阅读 · 0 评论 -
实用 | 安装python模块socket.timeout: The read operation timed out解决方案
1、使用pip安装第三方库过慢导致超时无法安装: pip install pandas出现异常: socket.timeout: The read operation timed out2、原因: pip下载的时国外的资源,速度过慢,应该切换至国内镜像3、解决方法: 更换 pip 源自国内镜像,在 pip install 后面添加-i https://pypi.tuna.tsinghua.edu.cn/simple 上面蓝色部分是镜像地址,网上可以...原创 2020-07-24 14:56:35 · 6360 阅读 · 1 评论 -
实用 | 解决Sublime Text3的import无法导入Python模块
一、找到Preferances–>Brows packages,进入文件夹下,新建文件夹,命名为python。二、进入python文件夹,新建文档,命名为Completion Rules.tmPreferences。三、编辑文档,添加内容如下:<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com原创 2020-07-20 09:42:57 · 4874 阅读 · 5 评论 -
实用 | 数据挖掘的十大算法
为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。l 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CARTl 聚类算法:K-Means,EMl 关联分析:Aprioril 连接分析:PageRank.原创 2020-07-16 16:01:03 · 1434 阅读 · 0 评论 -
彪悍给力的分析型数据库~ClickHouse
本文内容较长,分为三个部分:走马观花,死而后生,遥指杏花村;第一章,走马观花,初步了解一下基本特性;第二章,死而后生,介绍ClickHouse的技术架构演化的今生前世;第三章,遥指杏花村,介绍一些参考资料,包括一些俄文资料。第一章,走马观花俄罗斯的‘百度’叫做Yandex,覆盖了俄语搜索超过68%的市场,有俄语的地方就有Yandex;有中文的地方,就有百度么?好像不一定)Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是..原创 2020-06-29 10:48:27 · 1238 阅读 · 1 评论 -
实用 | Sqoop数据导出一致性问题
1)场景1:如Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。官网:http://sqoop.apache.org/docs...原创 2020-02-09 21:15:05 · 1800 阅读 · 0 评论 -
sqoop导出到mysql遇到哪些问题
关于导出update还是insert的问题--update-mode:updateonly 只更新,无法插入新数据allowinsert 允许新增--update-key:允许更新的情况下,指定哪些字段匹配视为同一条数据,进行更新而不增加。多个字段用逗号分隔。--input-null-string和--input-null-non-string:分...原创 2020-02-09 21:13:18 · 536 阅读 · 0 评论 -
实用 | Hive中case when的两种语法
两种表达方式是等效的方法一:casewhen tb1.os = 'android' then 'android'when tb1.os = 'ios' then 'iPhone'else 'PC'end as os,方法二:case tb1.oswhen 'android' then 'android'when 'ios' then 'iPhone'el...原创 2020-01-06 15:21:28 · 597 阅读 · 0 评论 -
Hive的数据倾斜以及优化策略
一、hive的数据倾斜介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。不会产生数据倾斜的场景: ...原创 2020-01-06 14:56:18 · 442 阅读 · 0 评论 -
电商数据仓库的架构、模型与应用实践
一. 数据仓库概念二. 项目需求及架构设计1. 项目需求分析2.项目框架2.1技术选型2.2 系统数据流程设计2.3 框架版本选型2.4 服务器选型2.5 集群资源规划设计2)测试集群服务器规划 服务名称 子服务 服务器 hadoop102 服务器...原创 2019-12-28 14:20:44 · 4391 阅读 · 1 评论 -
Catalyst 优化器
为了解决过多依赖Hive的问题,SparkSQL使用了一个新的SQL优化器替代Hive中的优化器, 这个优化器就是Catalyst, 整个SparkSQL的架构大致如下1.API层简单的说就是Spark会通过一些API接受SQL语句2.收到SQL语句以后, 将其交给Catalyst,Catalyst负责解析SQL, 生成执行计划等3...原创 2019-12-12 21:08:03 · 1256 阅读 · 1 评论 -
实用 | RDD依赖关系
一、Lineage RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。(1)读取一个HDFS文件并将其中内容映射成一个个元组scala> v...原创 2019-11-28 17:46:37 · 437 阅读 · 0 评论 -
kafka的架构图
一、官方文档架构图:二、kafka四大核心1、生产者API允许应用程序发布记录流至一个或者多个kafka的主题(topics)。2、消费者API允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流。3、StreamsAPI允许应用程序充当流处理器(streamprocessor),从一个或者多个主题获取输入流,并生产一个输出流到一个或者多个主题,能够有...原创 2019-11-26 21:25:36 · 4394 阅读 · 0 评论 -
Scala 编译完生成两个class文件的区别
编写一个_04ClassObjectDemo.scala文件object _04ClassObjectDemo{ // 1. 创建一个Person类,添加成员变量 class Person { var name:String = _ var age:Int = _ } def main(args: Array[String]): Unit = { ...原创 2019-11-17 11:00:55 · 707 阅读 · 0 评论 -
实用 | Spark_Yarn模式
一、概述Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMaster...原创 2019-11-15 20:53:55 · 214 阅读 · 0 评论 -
Yarn基本架构&工作机制
YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成YARN基本架构Yarn工作机制工作机制详解:(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnR...原创 2019-10-17 20:00:26 · 317 阅读 · 0 评论 -
CombineTextInputFormat切片机制
CombineTextInputFormat切片机制 框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。1、应用场景: CombineTextInputFormat用于小文件过多的场景,它可以将多个...原创 2019-10-13 21:07:31 · 567 阅读 · 0 评论 -
FileInputFormat切片机制
FileInputFormat切片机制原创 2019-10-12 23:05:43 · 350 阅读 · 0 评论 -
实用 | Job提交流程源码和切片源码详解
Job提交流程源码详解代码:waitForCompletion()submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); // 2 提交job ...原创 2019-10-12 22:38:27 · 367 阅读 · 0 评论 -
实用 | 切片与MapTask并行度决定机制
1、影响MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。2、MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。下面是详细的数据切片与MapTask并行度决定机制...原创 2019-10-12 22:32:29 · 317 阅读 · 0 评论 -
解决Hadoop客户端不能连接HDFS的方法(Caused by: java.lang.ClassNotFoundException)
解决Hadoop不能连接HDFS的方法public class HdfsClient{ @Test public void testMkdirs() throws Exception { // 1 获取文件系统 Configuration configuration = new Configuration(); FileSyste...原创 2019-10-08 21:09:15 · 4369 阅读 · 0 评论 -
大数据需要学习哪些技术?
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:1. Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有...转载 2019-10-06 23:35:35 · 507 阅读 · 0 评论