
大数据
文章平均质量分 67
LvJinYang
serious
展开
-
Doris新增字段后立马向新增字段updat和insert显示没有该新增字段或者新增字段没有updata和insert数据
Doris新增字段后无法update问题原创 2022-08-19 11:27:46 · 1934 阅读 · 0 评论 -
卡方检验基于sparkml采用Java语言开发
卡方检验基于sparkml采用Java语言开发什么是卡方检验卡方检验,是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 卡方检验主要有以下两种作用:1) 皮尔森独立性检验(Pearson’s independence test)验证从两个变量抽出的配对观察值组是否互相独立。例如:例如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关。2)适度检验(Goodness of原创 2022-03-23 14:59:10 · 3297 阅读 · 1 评论 -
LinearRegression线性回归基于sparkml采用Java语言开发
LinearRegression线性回归基于sparkml采用Java语言开发什么是线性回归?以下来自知乎马同学(10 封私信 / 80 条消息) 马同学 - 知乎 (zhihu.com)的高赞回答(10 封私信 / 80 条消息) 如何解释「线性回归」的含义? - 知乎 (zhihu.com)回归大致可以理解为根据数据集D,拟合出近似的曲线,所以回归也常称为拟合(fit),像下列右图一样拟合出来是直线(y=w*x+b)的就称为线性回归“回归”这个词源于高尔顿,他采集了一千多组父子身高,发现高个子原创 2022-03-02 15:05:26 · 1634 阅读 · 0 评论 -
PCA主成分分析基于sparkml采用Java语言开发
PCA主成分分析基于sparkml采用Java语言开发什么是PCA?以下解释来源于知乎回答(10 封私信 / 76 条消息) 论智 - 知乎 (zhihu.com)PCA主元分析,主要用于数据降维寻找所有产品中很不相同的属性(特征),也就是寻找尽可能体现产品差异的属性,并且可以通过这些属性预测或者重建原本产品的特征(feature)x轴为feature1,Y轴为feature2,根据产品的feature1和feature2值得到产品(蓝点)在坐标中的散列图(假设他们是相关的)在蓝点中画一条直线原创 2022-02-24 16:13:14 · 826 阅读 · 0 评论 -
spark2跑批File does not existhdfsnameserviceluserxxx
spark2跑批File does not exist:hdfs://nameservicel/user/xxx/.sparkStaging/aoolication_XXX/spark_conf.zip解决:spark.yarn.preserve.staging.files=true原创 2021-05-10 11:23:44 · 690 阅读 · 0 评论 -
Spark和Hive中时间计算的差别
Spark和Hive中时间计算的差别String beginTimeSql = "select from_unixtime(unix_timestamp(date_sub('"+invokeBean.getBusinessDate()+"',"+value+"-1 ),'yyyy-mm-dd'),'yyyymmdd')";hive:select from_unixtime(unix_timestamp(date_sub('2020-07-15',60-1 ),'yyyy-mm-dd'),'yyyy原创 2020-09-04 15:00:59 · 741 阅读 · 1 评论 -
SQL的坑length(trim(null))
SQL的坑length(trim(null))起因:测试的时候没有拿到对应的数据select case when length(trim('XN00901001,XN0090'))>length(trim(null)) then 'XN00901001,XN0090' else null end as custids from dual;这种会返回null,不会返回XN00901001,XN0090需要改为select nvl(length(trim(null)),0) from dua原创 2020-09-01 21:57:57 · 1875 阅读 · 0 评论 -
Flink
Flink概述之前的流处理都是以微批的形式来处理流,延迟较高Flink 是构建在数据流之上的有状态的计算框架(structure Streaming也有状态)第三代大数据分析方案2013年7月Storm开始在Apache孵化,2014年9月Storm成为Apache顶级项目(发展缓慢)。成为了当时最为主流的实时流处理框架。Storm以其低延迟高吞吐以及精准一次语义的处理,迅速的在各大互联网...原创 2019-10-22 09:01:05 · 2668 阅读 · 0 评论 -
SparkHAStandalone集群构建
Standalone集群构建基础环境准备物理资源:CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSAA172.XX.XX.90CentOSBB172.XX.XX.91CentOSCC172.XX.XX.92节点与主机映射关系主机节点服务CentOSAANameNode、ZKFC、Zoo...原创 2019-10-22 08:53:44 · 212 阅读 · 0 评论 -
Structured Streaming
Structured Streaming基于SQL On Streaming有状态窗口基于eventTime什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Stru...原创 2019-10-22 08:48:52 · 224 阅读 · 0 评论 -
DStream
Spark DStreamsDStreams是什么?是构建在Spark RDD之上的一款流处理工具。言外之意Spark DStream并不是严格意义的流处理。底层通过将RDD在时间轴上拆解成多个小的RDD-macro batch(构建在RDD之上的微批,严格意义上并不是真正的流),掺水了流&批处理计算类型数据量级计算延迟输入数据输出计算形式批处理MB=...原创 2019-10-22 08:46:03 · 3642 阅读 · 0 评论 -
Spark SQL
Spark SQLSpark SQL是构建在Spark RDD之上一款ETL(Extract Transformation Load)工具(类似Hive-1.x-构建在MapReduce之上)。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为...原创 2019-10-22 08:44:07 · 176 阅读 · 0 评论 -
Spark
Spark框架概述是一个快如闪电的同一的分析引擎(只做计算,不做存储),仅仅是一款分析引擎,不提供存储服务快:相比较于一代离线分析框架MapReduce(基于磁盘的迭代,map读(都要),map中间的结果放入磁盘)而言Spark基于内存计算较快统一:Spark提供了统一的API访问接口,实现类批处理和流处理的统一,并且提供了ETL功能SQL。(一站式的解决方案)提供了对大规模数据集的全栈...原创 2019-10-22 08:41:00 · 505 阅读 · 0 评论 -
Scala
Scala大数据中两个重要概念一:分布式,垂直分割保证各司其职(洗菜,切菜,炒菜…)二:集群,水平扩展解决高并发(多个人洗菜,多个人切菜,多个人炒菜…)idea出品的Kotlin改变了安卓开发1、引言Scala编程语言(大数据领域 Spark Kafka)特点:1.面向对象编程语言(优先考虑传递数据)(落脚点:把现实问题抽象为实体类,Service建模)2.面向函数式编程,专门为...原创 2019-10-22 00:05:06 · 786 阅读 · 0 评论 -
nc有时候连不上
nc有时候连不上#如果网络连不上,看一下端口是否被占用,如果占用需要换端口[root@CentOS ~]# netstat -an | grep 9888[root@CentOS ~]# netstat -an | grep 8765原创 2019-10-21 09:08:07 · 3491 阅读 · 0 评论 -
Flink因为过期方法打包失败
Flink因为过期方法打包失败异常Failed to execute goal net.alchim31.maven:scala-maven-plugin:4.0.1:compile (scala-compile-first) on project flink_state: Execution scala-compile-first of goal net.alchim31.maven:sca...原创 2019-10-17 23:41:47 · 678 阅读 · 0 评论 -
ZooKeeper学习笔记
ZooKeeper(面试必问)(java编程)一、概述Apache ZooKeeper是一个可靠高效的分布式应用的协调服务系统,主要解决分布式系统存在的一些通用问题。比如分布式系统集群管理、集群选举、配置中心、统一的命名服务、分布式同步(分布式锁)等问题。分布式集群的优点:数据的分布式存储,分布式的并行计算分布式集群的问题:映射产生的中间节点之间的网络传输,Yarn的HA集群为了不发生单点...原创 2019-09-21 23:19:57 · 289 阅读 · 0 评论 -
VMware中Hadoop的IP动态改变了导致连不上hadoop
VMware中Hadoop的IP动态改变了导致连不上hadoop1:修改Linux虚拟机中地址映射cd /usr/hadoop-2.6.0/vi /etc/hosts修改为 新IP hadoop2:修改Windows地址映射C:\Windows\System32\drivers\etc修改为 新IP hadoop...原创 2019-09-02 07:50:17 · 861 阅读 · 0 评论 -
Hadoop学习笔记
架构(40%) 配置(30%) 编程(30%)Hadoop笔记互联网的发展8、90年 书信95年-2000年 email2000年-2010年 2G、3G半智能手机(塞班)2010年 4G2019年 5G(万物皆物联,物联网,人工智能,神经网络) 数据的存储,数据的挖掘,数据的分析 大数据应用最好的时代大数...原创 2019-09-21 22:32:12 · 311 阅读 · 0 评论 -
HBase学习笔记
HBase一、概述HBase是一个依据Hadoop的数据库,它可靠、分布式适合结构化大数据存储,是用来存储大数据集的存储系统,建立在Hadoop的HDFS的基础之上。HBase是Google开源实现,它开源,分布式,数据多 版本,基于列存储的非关系型数据库,建立在Hadoop的HDFS的基础之上。HDFS来源Google的GFSMapReduce来源Google的MapReduceHB...原创 2019-09-21 22:25:51 · 295 阅读 · 0 评论 -
MapReduce学习笔记
MapReduce一、什么是Yarnhttps://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.htmlApache Hadoop YARN (Yet Another Resource Negotiator,另⼀种资源协调者)是⼀种新的 Hadoop 资源管理器,它是⼀个通⽤资源管理系统,可为上层应⽤提供统...原创 2019-09-21 22:43:11 · 431 阅读 · 0 评论 -
Flume学习笔记
Flume一、概述http://flume.apache.org/Flume是一个分布式、可靠、高可用的高效的日志数据收集、聚合以及传输系统,它简单和灵活的架构是基于数据流的。Flume具备强大的容错保证机制,有多种容错和恢复保证。Flume使用简单可扩展的数据模型允许开发在线分析处理应用。架构:数据源:某个网络服务,APP(application应用),Web Log一个Flume...原创 2019-09-21 22:48:40 · 290 阅读 · 0 评论 -
Storm学习笔记
Apache Storm为什么使用免费开源分布式实时计算系统jStorm阿里自己封装(开源在GitHub)redis16384个槽位一、概述http://storm.apache.org/Apache Storm是一款免费开源的分布式实时计算的框架(流处理)Apache Storm可以非常容易并且可靠的处理无界的流数据,进行实时的分析处理。Apache Storm支持多种编程语...原创 2019-09-21 22:52:37 · 1238 阅读 · 0 评论 -
Git学习笔记
Git项目的安全性太低不能协同开发不能版本回退项目版本过多,出现混乱git是什么git是一款分布式版本控制及协同开发工具版本控制工具的分类目前分两类集中式版本控制系统 SVN核心图:分布式版本控制系统 Gitgit的仓库和版本库的概念git的安装安装完git后需要执行以下指令$ git config --global user...原创 2019-09-21 23:02:09 · 182 阅读 · 0 评论 -
Hive学习笔记
Hive大数据课程Hive编程给notepad++加一个插件远程操作Linux将一个Hadoop高可用集群的一个节点修改为伪分布式集群克隆修改网卡#修改静态IPvi /etc/sysconfig/network-scripts/ifcfg-ens33#重启systemctl restart network修改服务器的主机名(简化连接服务器操作)#添加自定义主机...原创 2019-09-21 23:05:51 · 433 阅读 · 0 评论 -
Kafka学习笔记
三天半Kafka(用的很多,微服务,面试)一、概述http://kafka.apache.org/所有集合类型都是Iterable流计算原理都是一样的,这个学会了,spark,flink就好学了分布式流数据平台(流数据:连续的,源源不断的;对数据实时的)MapperReducer批处理(数据是有限的)Kafka具备三项关键能力:发布和订阅(Record),类似于消息队列(MQ...原创 2019-09-21 23:17:01 · 1098 阅读 · 1 评论