
大数据
文章平均质量分 51
Hadoop的基本应用
带着希望活下去
这个作者很懒,什么都没留下…
展开
-
六大主流大数据采集平台架构分析
采集中间件分析转载 2023-03-02 23:29:42 · 2757 阅读 · 0 评论 -
windows下安装Hadoop环境
1. 下载Hadoop环境包解压2.设置windows环境原创 2022-04-12 19:26:36 · 265 阅读 · 0 评论 -
kafka创建topic是报错:replication factor: 1 larger than available brokers: 0
因为好久没创建过kafka topic 经排查是zookeeper的地址有问题因此地址需要一致:kafka-topics.sh --create --topic test --zookeeper hadoop112:2181/kafka --partitions 5 --replication-factor 1原创 2022-01-12 00:20:14 · 1489 阅读 · 0 评论 -
UDF和GenericUDF区别
Java开发转了大数据,竟然被拉去做了非结构的ETL抽取,真的是比做后端伤脑筋,没有可借鉴的框架,只能根据数据抽取,第一份大数据实习,写完抽取代码后,需要写成UDF和UDTF进行使用。记录一下UDF和GenericUDF的区别:UDF属于基础的UDF:简单的udf实现很简单,只需要继承udf,然后实现evaluate()方法就行了。evaluate()允许重载。...原创 2022-01-06 17:40:00 · 3046 阅读 · 0 评论 -
hive自定义函数所涉及的源码参考
1. hive udtf的函数中的实体源码参考:Hive之ObjectInspector详解原创 2022-01-06 11:39:07 · 967 阅读 · 0 评论 -
hive下进行查询自定义函数的方法
在hive中,经常需要查询自定义的以及系统的函数使用方法,一般情况下在hive中使用下面三个命令即可:1.查看所有的函数:show functions;2. 查看date相关的函数:(模糊查询)show functions like 函数名示例:show functions like '*date*' (模糊查询)3.粗粒度查看函数的使用方法:desc function 函数名示例:desc function round;4. 细粒度查看函数使用方法:desc f.原创 2021-12-21 14:18:50 · 4069 阅读 · 0 评论 -
解决使用Maven测试Spark Scala出错:java.lang.NoClassDefFoundError
解决方法:添加依赖<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --><dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.0</...原创 2021-12-08 16:17:51 · 682 阅读 · 0 评论 -
Spark和Scala的版本查看
1. 进行使用Spark程序操作出现版本错误提示,进行spark和scala的版本查看2.前往maven进行查看spark和scala版本查看3. spark3.0 以后,不再支持 scala2.11spark3.0 以后,只能用 scala2.12...原创 2021-12-08 14:16:51 · 3839 阅读 · 0 评论 -
spark执行出错--记录class scala.collection.mutable.WrappedArray overrides final method toBuffer.
问题描述class scala.collection.mutable.WrappedArray overrides final method toBuffer.本质上是因为我们使用的SDK和Spark版本不兼容导致的,例如我的spark版本是spark 2.3.4,而我使用了scala-sdk 2.13.2,就导致了这个错误。PS: 吐槽一下sdk向后兼容做的真的不太好(CUDA也是)解决办法下载适合你的spark版本的scala-sdk版本,这里给出一份版本对应关系表。spark版本 ..转载 2021-12-06 16:15:19 · 331 阅读 · 0 评论 -
Kylin、druid、presto、impala四种即席查询对比--(转载)
一、什么是即席查询即席查询是用户根据自己的需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表。普通查应用查询是定制开发的,即席查询是用户自定义查询条件理解:快速的执行自定义SQL(可能无法提前运算和预测)重点关注:数据存储格式和架构理解了什么是即席查询之后,下面会从定义、框架原理、优化等几个方面介绍这四个框架、最后会做一个对比,面对不同的业务选择合适的框架二、Kylin (over)1、定义:Apache kylin是一个开源分布式分析引擎、提供Hadoop、Spark之翻译 2021-12-02 16:30:56 · 2632 阅读 · 0 评论 -
UDTF内写Main函数测试报错找不到主题类
最近接手其他人的项目,使用自定义UDTF来完成复杂异构数据的解析操作,根据文档进行测试之前的测试用例,发现Main函数识别不到。<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.3.2</version> <scope>provided</scop原创 2021-11-30 12:21:34 · 322 阅读 · 0 评论 -
大数据之-Kylin搭建
在搭建Kylin的时候,需要确保HDFS、yarn、hive、zookeeper、hbase等部署完毕。原创 2021-11-17 14:22:37 · 1180 阅读 · 0 评论 -
安装superset
## **Superset安装及使用**Superset官网地址:http://superset.apache.org/使用miniconda1)下载Miniconda(Python3版本)下载地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh2)安装Miniconda(1)执行以下命令进行安装,并按照提示操作,直到安装完成。```[atguigu@hadoop102 lib]$ ba原创 2021-11-11 20:52:13 · 2568 阅读 · 1 评论 -
安装superset出现的各种依赖模块找不到
1.No module named wtforms.compat查找不到,原因是因为wtforms升级了3.0.0版本的原因,重新下载指定版本 2.3.3版本即可解决 pip install WTForms==2.3.32.No module named 'dataclasses'安装dataclasses最终初始化数据库终于成功...原创 2021-11-10 21:33:03 · 1849 阅读 · 1 评论 -
Hive中get_json_object的使用
get_json_object(string json_string, string path)说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。每次只能返回一个数据项。data ={ "store": { "fruit":[{"weight":8,"type":"apple"}, {"weight":9,"type":"pear"}],原创 2021-10-30 12:47:32 · 861 阅读 · 0 评论 -
Hive元数据服务介绍
这个问题是因为没有启动hive的元数据服务;一般来说 hive进行连接Mysql数据库的时候有两种方式:1.使用元数据服务进行连接2.使用JDBC直接连接Mysql查看日志:不能使用任何的URIs服务连接到元数据空间;这个看一下hive-site.xml配置表因为使用了元数据服务metastore.uris所以在进行hive使用的时候都会进行连接,查询元数据。...原创 2021-10-28 15:21:34 · 854 阅读 · 0 评论 -
数据仓库--搭建环境kafka-flume-hdfs
1. 进行搭建数据采集2. 数据从log日志进行flume 收集到kafka上面 file-flume-kafka (测试通过)3. 数据从kafka到flume进行上传至hdfs中 (出现数据channel有问题,数据上传不到kafka)最终检查发现 flume脚本 kafka-flume-hdfs出现问题,出现问题出错,修改完毕之后数据正确运行一般出现这种情况需要检查一下数据链路从哪里断掉的,然后分析原因。...原创 2021-10-22 23:19:17 · 241 阅读 · 0 评论 -
zookeeper出现没有找到路由主机
1.执行中出现错误bin/zkServer.sh startJMX enabled by default Using config: /opt/zookeeper/zookeeper-3.4.5/bin/../conf/zoo.cfg Starting zookeeper ... /opt/zookeeper/zookeeper-3.4.5/bin/zkServer.sh: 第 103 行:[: /tmp/zookeeper: 期待二元表达式 STARTED原因是配置文件中zoo.cfg 有个多原创 2021-10-21 12:27:33 · 653 阅读 · 0 评论 -
Zookeeper集群的启动和关闭脚本
function start(){ for host in hadoop102 hadoop103 hadoop104do ssh $host "source /etc/profile;/export/servers/zookeeper-3.4.5/bin/zkServer.sh start" echo "======$host zookeeper is running========"done}function stop(){ for .原创 2021-08-25 13:16:56 · 301 阅读 · 0 评论 -
Hadoop相关问题解决--记录
Hive1.查询hivemeta信息,查到的numRows为-1cdh 不限 不限 不限 在hivemeta库中可以通过以下sql查询表的元数据信息SELECT * FROM TABLE_PARAMS WHERE tbl_id = 45857其中numRows会被用来统计为表的行数,但是发现有些表查出来行数为-1可能原因可能是因为这个表新建后没有通过这种方式插入过数据,所以表没有进行过统计,默认信息即为numRows=-1解决方案使用命令ANALYZE.转载 2021-07-23 15:32:42 · 6334 阅读 · 1 评论 -
hive在进行Beeline连接报错
报错信息:21/07/23 21:58:17 [main]: WARN jdbc.HiveConnection: Failed to connect to hadoop102:10000Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.i原创 2021-07-23 14:08:08 · 2790 阅读 · 1 评论 -
Hive仓库报错com.google.common.base.Preconditions.checkArgument
问题:初始化的时候hive报错解决:排查后发现是hive内依赖的guava.jar和hadoop内的版本不一致造成的,更换为相同的版本就ok了cp $HADOOP_HOME/share/hadoop/common/lib/guava-27.0-jre.jar $HIVE_HOME/lib/rm $HIVE_HOME/lib/guava-19.0.jar...原创 2021-07-22 18:15:54 · 1301 阅读 · 0 评论 -
Docker内安装Hadoop Hive等大数据框架
参考文章docker安装大数据框架原创 2021-07-22 16:10:40 · 376 阅读 · 0 评论 -
yarn启动resouceManager报错 Illegal capacity of 0.4 for children of queue root
问题:进行配置多队列容器,启动yarn resourceManager报错:排查:在初始化队列的时候忘记写入子队列原创 2021-07-20 19:29:28 · 1040 阅读 · 2 评论 -
windows下进行调试Hadoop报错org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;)
出现问题:解决路径: 1. 检查环境变量是否配置正确 增加用户变量HADOOP_HOME,下载的zip包解压的目录,然后在系统变量path里增加 %HADOOP_HOME%\bin 即可。 2. 检查hadoop版本,查看pom文件中 hadoop的版本号和windows的hadoop是否一致。(我的是这个问题 pom引用的是3.1.3版本的 环境变量是3.0.0的,替换POM文件的版本正常解决)...原创 2021-07-20 09:31:40 · 347 阅读 · 0 评论 -
大数据--操作HDFS权限错误--记录
问题描述:Permission denied: user=dr.who, access=READ_EXECUTE,inode="/user":root:supergroup:drwx-wx-wx说明只有root用户能进行读写操作 ,目前user为dr.who 权限不允许分析在浏览器查看目录和删除目录及文件,为什么会是dr.who,dr.who其实是hadoop中http访问的静态用户名,并没有啥特殊含义,可以在core-default.xml中看到其配置.hadoop.ht...原创 2021-07-12 16:22:31 · 342 阅读 · 0 评论 -
大数据--Hadoop集群搭建--3
因为在进行集群的时候,需要访问不同的服务器,为了方便使用,这里我们会使用到SSH进行免密登陆。一、SSH的配置 生成公钥和私钥: ssh-keygen -t rsa 将公钥拷贝到要免密登录的目标机器上 ssh-copy-id hadoop102ssh-copy-id hadoop103ssh-copy-id hadoop104.ssh文件夹下(~/.ssh)的文件功能解释表2-4known_hosts 记录ssh访问过计算机的公钥(public ..原创 2021-07-12 11:33:42 · 257 阅读 · 2 评论 -
大数据-MapReduce-出现MapReduce job被kill掉
参考文章:MapReduce job被kill掉出现问题如图:经分析也能看出问题点所在进行扩充节点内存就可以了,mapreduce运行中发现有任务被kill掉,多半是因为内存分配不足造成,所以需要修改内存配置。首先在yarn-site.xml中添加下面内容:<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>22528</value>...原创 2021-07-09 00:57:58 · 792 阅读 · 0 评论 -
大数据--HDFS--NameNode中FSImage和Edits
目录思考:NameNode中的元数据是存储在哪里的?Fsimage和Edits解析利用oiv oev查看FsImage 和 editsCheckPoint时间设置思考:NameNode中的元数据是存储在哪里的?首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带.原创 2021-07-08 12:44:08 · 732 阅读 · 6 评论 -
大数据之Hadoop-安装JDK和Hadoop--2
在Linux系统下的opt目录中查看软件包是否导入成功ls /opt/software/看到如下结果:解压JDK到/opt/module目录下tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/5. 配置JDK环境变量(1)新建/etc/profile.d/my_env.sh文件sudo vim /etc/profile.d/my_env.sh添加如下内容#JAVA_HOMEexport JAVA_H...原创 2021-06-29 19:46:46 · 446 阅读 · 1 评论 -
大数据之虚拟机配置--1
*克隆虚拟机**,虚拟机配置要求如下:*(1)单台虚拟机:内存4G,硬盘50G,安装必要环境sudo yum install -y epel-releasesudo yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static(3)修改克隆虚拟机的静态IPsudo vim /etc/sysconfig/network-scripts/ifcfg-ens33改成DEVICE=ens原创 2021-06-29 19:40:14 · 783 阅读 · 0 评论 -
Flink进行POJO报错
1. flink在进行类型转换的时候,忽然进行报错2. 类似上面原因就是flink没识别到自身的POJO属性值,我们可以按照要求进行修改为满足条件的POJO属性值。类似这样 ,我犯的错误是没有自身空的构造函数导致报错这个可以作为参考点public class Sensor implements Serializable { // 传感器名称 private String id; // 时间戳 private Long timestamp; // 传感器.原创 2021-06-20 14:18:07 · 981 阅读 · 0 评论 -
Hadoop知识点概念分享
经过多年的发展形成了 Hadoop1.X 生态系统,其结构如下图所示:HDFS:Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统(HDFS)。HDFS 是一种分布式文件系统,数据被保存在计算机集群上,HDFS 为 HBase 等工具提供了基础。MapReduce:Hadoop 的主要执行框架是 MapReduce,它是一个分布式、并行处理的编程模型,MapReduce 把任...原创 2020-05-04 23:14:22 · 181 阅读 · 0 评论