
大数据
文章平均质量分 54
一代码动乾坤
目前主攻大数据领域的专家。熟悉DSP,DMP等常见在线广告体系、视频新媒体、下线实体数字化、企业级数据管理、数据治理、AI等领域有深耕。最终目标成为一名全栈代码扫地僧。望与大家共勉,一起将快乐代码做成终生事业!
展开
-
DDD领域驱动设计小结
基本概念: 领域驱动设计(简称 ddd)概念来源于2004年著名建模专家eric evans发表的他最具影响力的书籍:《domain-driven design –tackling complexity in the heart of software》(中文译名:领域驱动设计—软件核心复杂性应对之道)一书。,书中提出了“领域驱动设计(简称 ddd)”的概念。 领域驱动设计一般分为两个阶段: 1. 以一种领域专家、设计人员、开发人员都能理解的“通用语言”作为相互交流的工具转载 2022-11-23 10:46:55 · 592 阅读 · 1 评论 -
余弦相似度-字符串相似度计算(scala)
余弦相似度-字符串相似度计算(scala)代码实现原创 2022-06-02 15:21:23 · 446 阅读 · 0 评论 -
jdk1.8,java8,安装包阿里云-百度云下载(windos,mac,linux)
各位兄弟姐妹们,找资源辛苦了,这里阿里云渠道的高速下载链接献上(*^▽^*)Java-JDK1.8阿里云百度云等下载(含平台windos,Mac,linux) - 时光旅行者Java-JDK1.8阿里云百度云等下载(含平台windos,Mac,linux)https://www.top8488.top/java/1225.html Java-JDK1.8阿里云百度云等下载(含平台windos,Mac,linux) - 时光旅行者c...原创 2022-03-23 00:20:22 · 7985 阅读 · 1 评论 -
IDEA-Filesystem Case-Sensitivity Mismatch 文件系统大小写问题
文件系统案例敏感性不匹配2021.1修复,请参阅https://youtrack.jetbrains.com/issue/IDEA-135546Filesystem Case-Sensitivity Mismatch The project seems to be located on a case-insensitive file system. This does not match the IDE setting (controlle...原创 2022-03-07 11:35:13 · 858 阅读 · 0 评论 -
spark rdd无法toDF()解决
首先 toDF需要导入的包//导入隐饰操作,否则RDD无法调用toDF方法 import sparkSession.implicits._ //(你的SparkSession类)然后就可以todf了如果还不行,检查你的RDD 类型对不对,是不是 RDD[样例类] 或者RDD[structType]...原创 2022-01-12 15:39:13 · 5243 阅读 · 2 评论 -
Sublime text3/4格式化json快捷键不生效。
1.打开首选项,快捷键设置(如果你是英文版的,注意关键词key,或者 用拍照翻译软件-有道)2.复制代码进去(可以自定义哦){"keys": ["command+ctrl+j"],"command":"pretty_json"}3.保存!!! 重启。。打开测试 command+ctrl+j ok...原创 2022-01-11 11:35:56 · 5522 阅读 · 2 评论 -
idea中scala变量类型显示提示
idea上的实用功能,我们在写scala的时候有的时候为方便就不会写scala的类型,但是有的时候又很想看最后scala的类型。为了更加便捷,我们可以通过设置idea让工具类帮助我们来自动显示。步骤如下点击settings然后按照1,2,3的步骤点击,将第四步的勾选上就可以了。我用的是idea19版的,不同版本的配置位置可能会有点区别。设置方法如下:settins -->Editor--> Code Style --> scala --Type Annotations 勾选框选部分.原创 2022-01-10 21:55:32 · 1950 阅读 · 1 评论 -
mac修改mysql密码
(1).苹果->系统偏好设置->最下边点mysql 在弹出页面中 关闭mysql服务(点击stop mysql server)(2).进入终端输入: cd /usr/local/mysql/bin/ sudo su 回车后输入以下命令来禁止mysql验证功能 ./mysqld_safe --skip-grant-tables & 回车后mysql会自动重启(偏好设置中mysql的状态会变成running)(3).输入命令 ./mysql 回车后,输...原创 2021-12-28 13:36:03 · 158 阅读 · 0 评论 -
mac安装了mysql终端找不到mysql: command not found
mac安装了mysql,并且成功了。但是当我试图打开命令mysql -u root -ppassword在终端上它显示-bash: mysql: command not found在终端的mac中找不到mysql命令http://11.临时解决,直接用这个/usr/local/mysql/bin/mysql -u root -ppassword 2. 解决方案之所以会出现MySQL或者mysqldump这样的命令找不到,我们可以打开/usr/bin文件夹,发现bin目录中并没有my.原创 2021-12-27 18:02:57 · 6320 阅读 · 2 评论 -
如何数仓维度模型详解-Kimball
数仓模型设计详细讲解来源:51cto 作者:大数据老哥前言今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查...转载 2021-10-27 22:18:36 · 297 阅读 · 0 评论 -
优快云如何查看自己的粉丝详情
csdn查看粉丝链接链接:https://i.youkuaiyun.com/#/uc/fan-listhttps://i.youkuaiyun.com/#/uc/fan-list原创 2021-10-22 23:23:30 · 433 阅读 · 0 评论 -
hive数仓sql面试题2021
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,12、...原创 2021-10-21 22:51:01 · 877 阅读 · 0 评论 -
hive数仓常见面试题2021
1|0面试题:hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别? hive 如何优化?2|0hive 内部表和外部表的区别?未被external修饰的是内部表(managed table),被external修..原创 2021-10-22 10:00:00 · 690 阅读 · 0 评论 -
大数据:阿里数据仓库建模及管理体系OneData什么是阿里onedata
阿里onedata面对炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。 数据仓库模型实施过程: 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功; 其次,进行数据总体架构设计,主要根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;原创 2021-10-20 00:10:45 · 2923 阅读 · 1 评论 -
数据仓库和数据集市的概念、区别与联系
数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据(一般公司会保存1年的历史数据)。• 数据仓库中的数据必须以一定时间段为单位进行统一更新。–不断增加新的数据内容–不断删去旧的数据内容–更新与时间有关的综合数据数据集市建立数据集市的原因:数据仓库是一种反映主题的全局性数据组织(一般企业都会建立有企业级的数据仓库)。但是,全局性数据仓库往往太大,在实际应用中将它们按.原创 2021-10-19 19:58:19 · 1227 阅读 · 0 评论 -
HDFS常用命令学习
文章目录课程大纲(HDFS详解)学习目标:HDFS基本概念篇1.1HDFS前言 1.2HDFS的概念和特性HDFS基本操作篇2.1HDFS的shell(命令行客户端)操作 2.1.1 HDFS命令行客户端使用 2.2 命令行客户端支持的命令参数 2.3 常用命令参数介绍HDFS原理篇hdfs的工作机制3.1 概述 3.2 HDFS写数据流程 3.2.1 概述 3.2.2 详细步骤图 3.2.3 详细步骤解析 3.3. HDFS读数据流程 3.3.1 概述 3.3原创 2021-10-19 19:24:43 · 358 阅读 · 0 评论 -
Hadoop常见问题解决-hdfs-mr
Hadoop常见问题与解决办法问题1:reduce预处理阶段shuffle时获取已完成的map的输出失败次数超过上限 问题描述: 问题剖析: 解决方案: 问题2:Too many fetch-failures 问题描述: 问题剖析: 解决方案: 问题3:处理MR速度特别的慢 问题描述: 问题剖析: 解决方案: 问题4:能够启动datanode,但无法访问,也无法结束 问题描述: 问题剖析: 解决方案: 问题5:节点断联转载 2021-10-19 19:21:57 · 748 阅读 · 0 评论 -
hdfs-bug:DataXceiver error processing WRITE_BLOCK operation
报错信息以及截图如下:calculation112.aggrx:50010:DataXceiver error processing WRITE_BLOCK operation src: /10.1.1.116:36274 dst: /10.1.1.112:50010java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:203)原创 2021-10-19 19:14:24 · 2022 阅读 · 0 评论 -
[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChang
1.安装hive后无法启动,报错如下[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline原因是hadoop目录下存在老版本jline:/hadoop-2.6.5/share/hadoop/yarn/lib:-rw-r--r-- 1 wkz wkz 87325 Mar 10 18:10 jline-原创 2021-10-18 10:05:00 · 387 阅读 · 0 评论 -
Hive.GROUPING SETS
如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。 而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度或多级层次的分析,上卷(roll up)或下钻(drill down)一类就很有分析价值。 我们有时...转载 2021-10-15 17:12:45 · 206 阅读 · 0 评论 -
什么是数据湖 Data Lake
什么是数据湖 Data Lake ?背景:随着近几年机器学习的兴起对数据的需求更加灵活,如果从数据仓库中提数会有一些问题。比如:数据都是结构化的(做算法的经常要理解数仓模型,甚至要深入到做了什么业务处理,很多处理都不是他们想要的);数据是经过处理的可能并不是算法想要的结果;算法同学与数仓开发同学沟通成本较大等。数据湖定义:是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关...原创 2021-10-14 09:54:19 · 636 阅读 · 0 评论 -
最新2021java面试题总结
包含的模块:本文分为十九个模块,分别是:Java 基础、容器、多线程、反射、对象拷贝、Java Web 、异常、网络、设计模式、Spring/Spring MVC、Spring Boot/Spring Cloud、Hibernate、MyBatis、RabbitMQ、Kafka、Zookeeper、MySQL、Redis、JVM如下图所示:共包含 208 道面试题,本文的宗旨是为读者朋友们整理一份详实而又权威的面试清单,下面一起进入主题吧。=======================原创 2021-08-28 17:23:38 · 211 阅读 · 0 评论 -
JAVA的23种设计模式
一、什么是设计模式 设计模式(Design pattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。 毫无疑问,设计模式于己于他人于系统都是多...原创 2021-08-28 17:13:47 · 479 阅读 · 0 评论 -
【java】HashMap 一文快速理解
摘要HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK(Java Developmet Kit)版本的更新,JDK1.8对HashMap底层的实现进行了优化,例如引入红黑树的数据结构和扩容的优化等。本文结合JDK1.7和JDK1.8的区别,深入探讨HashMap的结构实现和功能原理。简介Java为数据结构中的映射定义了一个接口java.util.Map,此接口主要有四个常用的实现类,分别是HashMap、Hashtable、LinkedHashMap和Tre转载 2021-08-27 23:30:12 · 327 阅读 · 0 评论 -
什么是拉链表
什么是拉链表在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大;表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;拉链历史转载 2021-08-22 22:30:59 · 141 阅读 · 0 评论 -
数据仓库数据库三范式,轻松理解
数据库三范式,轻松理解官方定义:第一范式(1NF):数据库表中的字段都是单一属性的,不可再分。我的理解:第一范式这个不用說了,只要是关系数据库都满足第一范式官方定义:第二范式(2NF):数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖我的理解:在第二范式中组合主键(AB)【注明:也叫做复合主键】里面的A或者B 与其他字段不能存在组合重复,为解决这个问题,通常的做法是咱们不用组合主键,添加一个ID,做为单一主键即可满足第二范式。如果不想添加ID,请满足组合主键(AB)里面的A或者B 与其他字原创 2021-08-20 01:30:52 · 259 阅读 · 0 评论 -
数据仓库一致性维度和一致性事实
在Kimball的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念:总线架构(Bus Architecture),一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。 总线架构 多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus Architecture)。多维体系结构的创始人是数据仓库领域中最有实践转载 2021-08-18 23:54:07 · 1388 阅读 · 0 评论 -
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进(转载)
提效 7 倍,Apache Spark 自适应查询优化在网易的深度实践及改进(转载)本文基于 Apahce Spark 3.1.1 版本,讲述 AQE 自适应查询优化的原理,以及网易数帆在 AQE 实践中遇到的痛点和做出的思考。前言自适应查询优化(Adaptive Query Execution, AQE) 是 Spark 3.0 版本引入的重大特性之一,可以在运行时动态的优化用户的 SQL 执行计划,很大程度上提高了 Spark 作业的性能和稳定性。AQE 包含动态分区合并、Join 数据倾斜自转载 2021-05-24 13:56:18 · 220 阅读 · 0 评论 -
IDEA中Git的用户名修改
IDEA中Git的用户名修改进入Terminal输入 git config user.name 获取当前的用户名修改用户名输入 git config --global user.name "用户名" 或者 git config user.name "用户名"原创 2021-04-30 17:18:13 · 383 阅读 · 1 评论 -
IDEA下的Terminal 乱码(unicode 编码)
IDEA下的Terminal 乱码(unicode 编码)在使用IDEA进行开发的时候,难免会用到Git,两个窗口切换来切换去的很不方便,为了简单,我将IDEA自带的Terminal设置为Git的,这样就能达到在IDEA上敲Git命令的效果。这里简单的介绍下具体的配置流程以及使用Git会引起的Unicode的解决方案。配置IDEA使用Git的Terminal# 解决使用IDEA Terminal引起的中文 Unicode编码问题乱码现象如下:解决方案:在Git的安装目录下的.原创 2021-04-29 13:54:32 · 591 阅读 · 0 评论 -
2021-03-29
maxcomputer多路输出(MULTI INSERT)MaxCompute SQL支持在一个语句中插入不同的结果表或者分区实现多路输出。命令格式如下:FROM from_statementINSERT OVERWRITE | INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)]select_statement1 [FROM from_statement][INSERT OVERWRITE | INTO转载 2021-03-29 10:41:34 · 191 阅读 · 0 评论 -
CentOS7如何关闭防火墙
CentOS7如何关闭防火墙因为 CentOS 7.0默认使用的是firewall作为防火墙查看CentOS7防火墙状态firewall-cmd --state停止firewallsystemctl stop firewalld.service禁止firewall开机启动systemctl disable firewalld.service ...原创 2020-11-17 16:15:32 · 201 阅读 · 0 评论 -
CentOS下载
CentOS下载http://mirror.hostlink.com.hk/centos/7.8.2003/isos/x86_64/原创 2020-11-11 13:35:56 · 170 阅读 · 0 评论 -
数值类型正则表达式匹配正确检查
随拿随用只js正则表达式,反正平时工作我是不写正则的,大神请自动绕行;验证数字的正则表达式集验证数字:^[0-9]*$验证n位的数字:^\d{n}$验证至少n位数字:^\d{n,}$验证m-n位的数字:^\d{m,n}$验证零和非零开头的数字:^(0|[1-9][0-9]*)$验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$验证有1-3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$验证非零的正整数:^\+?[1-9][0-9]*$验证非零的负整数:^\-[原创 2020-11-09 18:01:39 · 298 阅读 · 0 评论 -
Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.spark-submit提交脚本:[spark@master work]$ more submit.sh #! /bin/bashjars=""for file原创 2020-10-26 16:50:33 · 845 阅读 · 0 评论 -
Failed to start mysqld.service: Unit not found
Failed to start mysqld.service: Unit not found输入命令systemctl start mysql.service要启动MySQL数据库是却是这样的提示Failed to start mysqld.service: Unit not found解决方法如下:首先需要安装mariadb-serveryum install -y mariadb-server启动服务systemctl start mariadb.service添加到开机原创 2020-10-26 11:25:38 · 5868 阅读 · 0 评论 -
Hive创建临时表
Hive从0.14.0开始提供创建临时表的功能,表只对当前session有效,session退出后,表自动删除。相关语法:CREATE TEMPORARY TABLE ...实例:注意要点:1、如果创建的临时表表名已存在,那么当前session引用到该表名时实际用的是临时表,只有drop或rename临时表名才能使用原始表2、临时表限制:不支持分区字段和创建索引从Hive1.1开始临时表可以存储在内存或SSD,使用hive.exec.temporary.table.st.原创 2020-10-23 14:47:21 · 3000 阅读 · 0 评论 -
Jps指令—使用详解
Jps命令—使用详解jps是jdk提供的一个查看当前java进程的小工具, 可以看做是JavaVirtual Machine Process Status Tool的缩写。非常简单实用。 命令格式:jps [options ] [ hostid ] [options]选项:-q:仅输出VM标识符,不包括classname,jar name,arguments in main method-m:输出main method的参数-l:输出完全的包名,应用主类名...转载 2020-10-14 16:07:52 · 1399 阅读 · 0 评论 -
sql中with as 的用法说明
sql语句中with as 的用法说明–针对一个别名with tmp as (select * from tb_name)–针对多个别名withtmp as (select * from tb_name),tmp2 as (select * from tb_name2),tmp3 as (select * from tb_name3),…–相当于建了个e临时表with e as (select * from scott.emp e where e.empno=7499)selec转载 2020-10-12 17:46:27 · 1241 阅读 · 0 评论 -
hive3新特性
1,Hive 3新特性一:不再支持Mr,取而用Tez查询引擎,且支持两种查询模式:Container和LLAP2,Hive 3新特性二:Hive CLI不再支持(被beeline取代)3,Hive 3新特性三:SQL Standard Authorization不再支持,且默认建的表就已经是ACID表。4,Hive 3新特性四:支持 “批查询”(TEZ)或者 “交互式查询”(LLAP)。Hive 3其他特性:1、物化视图重写;2、自动查...原创 2020-09-28 09:40:40 · 1908 阅读 · 0 评论