
大数据相关
本专栏主要知识点有:Hadoop、Spark。 Hadoop的知识点是:HDFS、MapReduce、Hbase 、Hive、Flume等;Spark的知识点有:Spark Streaming、RDD、Scala、SparkSql
zhangvalue
在奋进的路上,大家都是独行者!
展开
-
Java上传本地文件到HDFS
Java上传本地文件到HDFS/** * @ Author zhangsf * @CreateTime 2022/2/9 - 4:33 PM */package SparkWordCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;public class CopyFile { public原创 2022-02-09 16:45:21 · 1843 阅读 · 0 评论 -
HBase和HDFS的关系
问题:关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?1、首先了解一下 HDFS文件存储系统和HBASE分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoop database即Hadoop数据库。它是一个适合于非结构化数据存储的数据库,HBase基于列的而不是基于行的模式。HBase是Google Bigtable的开源实现,类似Goo原创 2021-01-06 14:12:55 · 2251 阅读 · 0 评论 -
数据质量原因分析
在进行数据统计时,经常会对数据的准确性产生质疑,如果出现较为明显的偏差,就很容易发现数据是不对的。但如果数据只有小幅度的偏差,就很难感受到,造成数据质量的原因有几种,下面分别说明:1. 网络异常网络异常是导致数据质量的直接原因之一。举几个栗子,比如我们在使用APP时,可能因为网络异常,导致用户的操作行为并没有被及时发送到统计服务器端;或者这些服务是SaaS服务,在一些网络的高峰期,此时有大批量的用户向服务提供商发送行为数据,这样就容易导致网络拥堵,就像春运期间在12306网站抢车票一样,容易导致某些原创 2021-01-06 14:10:33 · 1641 阅读 · 0 评论 -
Flink基础之流处理架构
目录前言:1、传统架构与流处理架构2、消息传输层和流处理层3、消息传输层的理想功能3.1、兼具高性能和持久性3.2、将生产者和消费者解耦4、支持微服务架构的流数据4.1、数据流作为中心数据源4.2、欺诈检测:流处理架构用例4.3、给开发人员带来的灵活性5、不限于实时应用程序6、流的跨地域复制前言: 作为新型系统,Flink 扩展了“...原创 2020-01-04 22:24:01 · 1047 阅读 · 0 评论 -
Flink基础之为什么选择Flink
目录前言:1、连续事件处理的目标2、流处理技术的演变Lambda 架构概述:优势和局限性3、初探Flink批处理与流处理4、为什么选择Flink前言:我们渴望按照流的方式处理数据,但要做好很困难;随着大规模数据在各行各业中出现,难度越来越大。这是一个属于物理学范畴的难题:在大型 分布式系统中,数据一致性和对事件发生顺序的理解必然都是有限的。伴随着方法和技术的演化...原创 2020-01-04 21:52:12 · 728 阅读 · 0 评论 -
Permission denied (publickey,password,keyboard-interactive).
最近一段时间没有在本机上使用hadoop环境,启动hadoop的时候出现错误Permission denied (publickey,password,keyboard-interactive).具体的如下:问题原因:发现之前配置的在主机上免密登录主机自身,有问题,即执行还需要输入密码ssh localhost还需要输入密码才可以解决办法:重新配置一下免密登...原创 2019-12-28 20:56:27 · 47496 阅读 · 3 评论 -
记录一下Hadoop等项目启动指令
记录一下项目启动指令之前配置的环境一直没用使用,有一些生疏了配置的环境放在了 .base_profile中一、启动hadoopalias start-hadoop='$HADOOP_HOME/sbin/start-all.sh'start-hadoop启动成功的标识二、启动sparkalias start-spark=' $SPARK_HOME/sbin/s...原创 2019-12-28 20:18:05 · 276 阅读 · 0 评论 -
大数据平台数据集市
数据集市的作用:是提供面向业务条线的基础数据,通过集成开发环境、调度系统、京东分析师等工具提供数据服务,主要包括以下几类:资源独享,各个业务线资源独立;应用层app表加工,用以支持报表服务;临时、周期性数据提取,包括明细和汇总级数据;数据推送服务,用以支持线上系统数据计算;大数据应用、数据挖掘类需求;特殊类型的ETL计算,如实时库存查询就是为了能够更好的为各条线提供数据应用服务。为了让...原创 2019-11-21 14:09:54 · 3801 阅读 · 0 评论 -
MapReduce
一、将map输出作为输入传给reducer的过程称为shuffle二、map任务产生的中间结果写入本地硬盘,而非HDFS,reduce的输出通常存储在HDFS实现可靠存储三、Hadoop可以为map任务的输出制定一个合并函数,函数的输出作为reduce函数的输入四、Hadoop讲MapReduce的输入数据化成等长的数据块,简称为分片,并未每一个分片构建一个map任务。1.数据流...原创 2019-10-18 18:59:49 · 2028 阅读 · 0 评论 -
数据倾斜
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。症状和原因:· 操作:join,group by,count di...原创 2019-10-18 10:24:14 · 465 阅读 · 0 评论 -
列式存储和行式存储的区别
1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表:Ø Row-based storage stores atable in a sequence of rows.Ø Column-based storage storesa table in ...转载 2019-07-26 10:34:42 · 1359 阅读 · 0 评论 -
Apache Kylin
“麒麟出没,必有祥瑞。” —— 中国古谚语Kylin思维导图前言随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸式的增长,大数据时代已经来临。但是海量数据的收集只是大数据技术的第一步,如何让数据产生价值才是大数据领域的终极目标。Hadoop的出现解决了数据存储问题,但如何对海量数据进行OLAP查询,却一...转载 2019-06-24 15:09:02 · 460 阅读 · 0 评论 -
Mac安装Flink1.8
安装前查看java的版本号,推荐使用java8+安装flinkbrew install apache-flink查看安装flink信息brew info apache-flink看到flink安装到的位置及基本信息文件还是比较大的有320M ,其中要求Java1.8及以上启动flink进入web交互界面./libexec/bin/start-c...原创 2019-06-21 10:27:26 · 1838 阅读 · 0 评论 -
ETL
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常在数据仓库,但其对象并不限于数据仓库。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目...转载 2019-06-17 21:53:18 · 431 阅读 · 0 评论 -
ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet
在启动了hbase之后进入hbase shelllist出现了如上错误而且发现jps各个服务都启动了原因是由于hadoop的安全模式打开了,解决方法:hdfs dfsadmin -safemode leave再重新启动HBase就可以了...原创 2019-05-01 23:07:07 · 9221 阅读 · 13 评论 -
hadoop由于格式化namenode太频繁导致datanode启动不起来
找到配置文件core-site.xml配置文件中进入hdfs的tmp文件夹将里面的data和name文件夹清空再次重新启动就OK原创 2019-05-01 23:05:30 · 590 阅读 · 0 评论 -
Cannot autogenerate id of type java.lang.Integer for entity
在直接对MongoDB中插入实体对象的时候出现了Cannot autogenerate id of type java.lang.Integer for entityorg.springframework.dao.InvalidDataAccessApiUsageException: Cannot autogenerate id of type java.lang.Integer for...原创 2019-04-30 11:39:30 · 9735 阅读 · 3 评论 -
mongodb忘记了admin的账号密码
一开始的错误如下:发现创建一个db的username和pwd发现权限不够,就是使用admin来进行,结果发现admin的账号密码错误Error:couldn't add user:command createUser requires authentication手动修改admin的user和pwd//首先看一下mongo的配置文件在哪sudu find / -name mo...原创 2019-04-22 09:56:19 · 16354 阅读 · 1 评论 -
flume启动 exception in thread "main" java.lang.OutOfMemoryError: Java heap space
flume启动 exception in thread "main" java.lang.OutOfMemoryError: Java heap space解决方法:进入到/usr/local/Cellar/flume/1.8.0/libexec/conf 目录下编辑: vimflume-env.sh添加一行再保存退出重启 flume就OK...原创 2019-04-14 21:33:37 · 1741 阅读 · 2 评论 -
hbase.NamespaceExistException: org.apache.hadoop.hbase.NamespaceExistException: ctcc2
Hbase 创建表出现异常org.apache.hadoop.hbase.NamespaceExistException: org.apache.hadoop.hbase.NamespaceExistException: ctcc2原因:是由于hdfs的重新建立/hbase文件夹后zookeeper还保留着上一次的Hbase设置,所以造成了冲突hbase将数据存储在hdfs上,...原创 2019-04-14 20:48:02 · 2337 阅读 · 0 评论 -
启动 flume的时候:错误:找不到org.apache.flume.tools.GetJavaProperty
搜了一些方法最后发现下面方法可行:增加如下红色部分vim flume-ng在第110行添加如下:2>/dev/null | grep hbase保存,退出!具体原因不详!...原创 2019-04-14 19:17:00 · 1988 阅读 · 3 评论 -
Mac10.14安装Elaticsearch 6.7.0遇到的问题
Mac10.14安装Elaticsearch 6.7.0遇到的问题 记录一下在通过brew install elasticsearch 安装成功之后启动 elasticsearch的时候出现了ERROR: Cluster name [elasticsearch_zhangsf] subdirectory exists in data paths [/usr/local/var/lib/...原创 2019-04-11 14:28:31 · 841 阅读 · 0 评论 -
Mac10.14安装MongoDB 4.0.2并运行
1️⃣、先安装monogdbbrew install monogdbMongoDB 将被安装在 /usr/local/Cellar/mongodb/4.0.2安装完 MongoDB 后,需要配置一下 MongoDB ,不然是无法启动服务端的。2️⃣、需要创建在根目录下创建data/db 文件夹sudo mkdir /data/db/ -p如果出现 permissio...原创 2019-04-10 14:32:14 · 783 阅读 · 0 评论 -
Mac10.14安装zookeeper并启动
查看可用版本使用命令$ brew info zookeeper查看可用版本信息:直接使用brew安装zookeeper安装brew install zookeeper安装完成之后进入配置/usr/local/etc/zookeeper目录下面的zoo.cfgever:~ zhangsf$ cd /usr/local/etc/zookeeper/ever:zookee...原创 2019-04-10 12:58:05 · 774 阅读 · 0 评论 -
ERROR: Unable to write in xxx/logs. Aborting.
在进行Hadoop节点格式化时候出现Starting resourcemanagerERROR: Unable to write in /home/zhang/opt/hadoop-3.1.0/logs. Aborting.原因:权限不够加入-R 参数,将读写权限传递给子文件夹chmod -R 777 /logs或者出现了Cannot create direct...原创 2018-07-30 20:42:58 · 19499 阅读 · 6 评论 -
Tomcat优化之配置线程池高并发连接
原理:在使用和配置tomcat的线程池之前明白线程池的原理,类似于操作系统中的缓冲区的概念,它的流程如下:先启动若干数量的线程,并让这些线程都处于睡眠 状态,当客户端有一个新请求时,就会唤醒线程池中的某一个睡眠线程,让它来处理客户端的这个请求,当处理完这个请求后,线程又处于睡眠状态。可能你也许会 问:为什么要搞得这么麻烦,如果每当客户端有新的请求时,我就创建一个新的线程不就完了?这也许是个不错的方...原创 2018-11-12 14:25:22 · 5384 阅读 · 1 评论 -
-bash: ./startup.sh: Permission denied
执行tomcat的时候出现了 -bash: ./startup.sh: Permission denied解决方法:用命令chmod 修改bin目录下的.sh权限chmod u+x *.sh再次执行ok!!!原创 2018-07-22 11:55:01 · 625 阅读 · 0 评论 -
Port already in use: 1099 的解决办法
启动tomcat时 错误: 代理抛出异常 : java.rmi.server.ExportException: Port already in use: 1099的解决办法java.rmi.server.ExportException: Port already in use: 1099; nested exception is: java.net.BindException: Address...原创 2017-07-07 16:07:06 · 10724 阅读 · 2 评论 -
阿里云Centos7.3安装git
1、安装依赖sudo yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker注意:perl-ExtUtils-MakeMaker 也是这些安装列表中的一员,不要因为显示的换行造成大家认为是两条执行命令。2、下载Gitwget htt...原创 2018-07-03 20:51:20 · 2194 阅读 · 0 评论 -
spark-2.3.0和Hadoop2.6.5完全分布式安装和部署——分布式集群(参考记录)
自己使用的环境版本:Windows10+Ubuntu18.04 LTS +VMware14 Pro+Hadoop2.6.5+Spark-2.3.0+JAVA1.8+scala2.11+MobaXterm(远程连接工具)包含,Ubuntu服务器创建、远程工具连接配置、Ubuntu服务器配置、Java环境配置、scala环境配置 Hadoop文件配置...原创 2018-06-11 17:42:20 · 5284 阅读 · 0 评论 -
阿里云Centos7服务器上安装Docker
安装Docker执行如下命令即可进行安装:curl -fsSL https://get.docker.com/ | sh安装完成之后会有一个提示:就是当要以非 root 用户可以直接运行 docker 时,需要执行sudo usermod -aG docker zhangsf命令,然后重新登陆此时再次登陆执行还是会报错“Cannot connect to the...原创 2018-06-28 20:53:05 · 4526 阅读 · 0 评论 -
Mac上安装Mongodb4.0.2及测试【ok】
brew install mongodb查看mongodb的版本mongod -version手动添加mongod到环境变量中:修改mongodb配置文件,配置文件默认在 /usr/local/etc 下的 mongod.conf不过dbpath默认是在 /data/db启动mongodb会报错exception in initAndListen: ...原创 2019-01-08 10:54:32 · 1541 阅读 · 0 评论 -
macOS安装Solr
homebrew安装Solrbrew install solr查看solr安装路径一般默认是安装到/usr/local/bin/solr下面的。which solr启动solrsolr start在浏览器中访问,默认端口是8983. 出现如下界面表示Solr已经在mac上安装成功了http://localhost:8983/solr/#/...原创 2019-01-02 22:31:59 · 975 阅读 · 0 评论 -
Mac10.14 上安装Redis 以及 redis可视化工具RDM
redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与...原创 2019-01-02 16:01:26 · 2836 阅读 · 0 评论 -
Kafka的安装与配置
Mac中kafka2.1.0安装和测试kafka的安装,在安装kafka会将其依赖的zookeeper下载brew install kafka进入到/usr/local/Cellar 路径之下会看见软件位置/usr/local/Cellar/zookeeper/usr/local/Cellar/kafka其中的配置文件都在kafka路径之下的config 目录里面...原创 2019-01-05 11:58:22 · 977 阅读 · 0 评论 -
Error while executing topic command : Replication factor: 1 larger than available brokers: 0.
sudo fuser -k 2181/tcp 杀死进程必须在zookeeper之后启动kafka服务器原创 2019-01-06 11:10:45 · 2341 阅读 · 0 评论 -
Scala中:class,Object,Trait的区别
class在scala中,类名可以和对象名为同一个名字,该对象称为该类的伴生对象,类和伴生对象可以相互访问他们的私有属性,但是他们必须在同一个源文件内。类只会被编译,不能直接被执行,类的申明和主构造器在一起被申明,在一个类中,主构造器只有一个所有必须在内部申明主构造器或者是其他申明主构造器的辅构造器,主构造器会执行类定义中的所有语句。scala对每个字段都会提供getter和setter方法,...原创 2018-12-08 21:57:59 · 557 阅读 · 0 评论 -
Hive throws: WstxParsingException: Illegal character entity: expansion character (code 0x8)
错误在第3202行打开hive-site.xml位于第3202行,vim hive-site.xml +3202发现是一个解释性质的说明文档,里面包含的特殊字符 for&#8;<description> Ensures commands with OVERWRITE (such as INSERT OVERWRITE) acquire Exclu...原创 2018-11-21 09:38:29 · 4288 阅读 · 0 评论 -
Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083
org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083. at org.apache.thrift.transport.TServerSocket.<init>(TServerSocket.java:109) at ...原创 2018-11-21 10:47:29 · 2965 阅读 · 0 评论 -
用通俗易懂的大白话讲解Map/Reduce原理
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop:1.什么是Map/Redu...转载 2018-12-09 23:27:54 · 504 阅读 · 0 评论