
大数据
文章平均质量分 52
小獾哥
技术为我赋能
展开
-
2023大数据面试题+附答案
2023大数据面试题+附答案。原创 2023-04-26 23:19:37 · 8817 阅读 · 3 评论 -
kafka集群报错处理
kafka中Cluster ID不一致,导致的报错处理原创 2022-11-27 18:40:29 · 948 阅读 · 0 评论 -
nifi 内存溢出解决方案
问题描述: 在使用nifi的SplitJson处理器进行数据处理时,发生了jvm内存溢出。问题原因: nifi默认的jvm内存太小了,调大一些就好了。解决办法:修改jvm内存vim /home/.../nifi-1.9.2/conf/bootstrap.conf内容如下:# JVM memory settingsjava.arg.2=-Xms16gjava.arg.3=-Xmx16g清空缓存数据rm -rf $NIFI_HOME/*repository重启nifi$N原创 2022-02-12 16:36:47 · 2236 阅读 · 3 评论 -
A0-00.大数据集群规模预估
适用于中小型企业,仅供参考!!!一、磁盘容量预估用户数基本固定总用户数(个):A每个用户每天产生的数据条数(条):B每条数据的大小(KB):C日均数据总量(TB):D = A·B·C/1024/1024/1024数据保留时间(天):E副本数(个):F预留大小(百分比):G数仓分层(扩容倍数):H历史数据量(TB):I压缩(snappy):20%计算公式所需磁盘总量(TB) = D·E·F(1+G)H+I压缩后:D·E·F(1+G)H+I*20%举例:原创 2021-09-27 13:00:49 · 1030 阅读 · 3 评论 -
A0-04.HBase集群搭建
前提:在搭建HBase集群之前要确保zookeeper集群已正常运行,zookeeper搭建过程可参考白熊的A0-03.Zookeeper集群搭建一、搭建HBase集群MyNode01机器(icebear用户)下载HBase安装包http://archive.apache.org/dist/hbase/上传并解压HBase安装包cd /home/bgd/softtar -xzvf hbase-1.2.0-cdh5.14.2.tar.gz -C /home/bgd/install原创 2021-09-22 10:30:43 · 229 阅读 · 0 评论 -
A0-03.Zookeeper集群搭建
前提:在搭建Zookeeper集群前,确保Hadoop集群已搭建完毕!可参考白熊的A0-02.Hadoop集群搭建一、Zookeeper集群搭建MyNode01机器(icebear用户)下载安装包http://zookeeper.apache.org/releases.html#download上传并解压zookeeper安装包cd /home/bgd/softtar -zxvf zookeeper-3.4.5-cdh5.14.2.tar.gz -C /home/bgd/insta原创 2021-09-17 09:35:37 · 242 阅读 · 0 评论 -
A0-02.Hadoop集群搭建
前提:白熊搞了三台笔记本,并将其统一刷成了centos7.6的系统,下面是Hadoop集群的详细安装过程。一、安装ifconfig服务三台机器都要执行以下命令yum install -y net-tools.x86_64二、将三台服务器的IP地址改为静态IP更改配置文件,添加以下内容MyNode01# 笔记本刷linux系统,只需更该连接wifi的那个网络即可# 打开配置文件vi /etc/sysconfig/network-scripts/ifcfg-ens33#原创 2021-09-15 12:11:34 · 315 阅读 · 0 评论 -
A0-01.本地集群环境介绍
Hadoop集群搭建一、集群基础信息集群数量:3台MyNode01系统:Centos7.6内存:16GB硬盘:1TMyNode02系统:Centos7.6内存:12GB硬盘:500GBMyNode03系统:Centos7.6内存:12GB硬盘:500GB二、软件包版本系统CentOS-7-x86_64-DVD-1810.isoCDH框架版本:5.14.2Hadoophadoop-2原创 2021-09-14 11:12:22 · 4466 阅读 · 1 评论 -
sparkSQL中对每行数据的某几个字段做MD5加密
需求: 有一张很大的表,需要对每一行数据的某几列(a, b, c, d)特定字段值做MD5加密,并将加密字段重新命名,放在每行数据的后面。实现:具体代码val result: DataFrame = spark.sql(s"select a, b, c, d, md5(concat_ws('|', a, b, c, d)) as hash_code from temp_table")result.printSchema()result.show()函数解释 concat_ws(’|原创 2021-08-05 14:48:46 · 1777 阅读 · 0 评论 -
Spark程序 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/fs/CanUnbuffer
问题描述: 当本地运行spark程序时,报错:Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/fs/CanUnbuffer解决办法: 不要慌,用maven打包后放在测试服务器上试试~原创 2021-07-14 15:45:18 · 622 阅读 · 0 评论 -
开启spark程序报错: java.lang.ClassNotFoundException: org.apache.co
错误信息: Caused by: java.lang.ClassNotFoundException: org.apache.commons.configuration.Configuration错误原因: 缺少commons依赖解决办法: 在pom中添加如下信息<dependency> <groupId>commons-configuration</groupId> <artifactId>commons-configuration</原创 2021-05-30 19:08:22 · 1151 阅读 · 0 评论 -
kafka集群开启后,只运行了2个,其中有一个没能正常运行,解决办法
问题描述: 在开启了Kafka集群后,发现有一个始终不能开启,单独启动也不行。原因分析: 查看日志,发现是broker.id不一致造成的。仔细一想,node01被我重新配置过,信息都是从node02上copy过来的,现在node02的id已经被使用了。解决办法: 在配置文件meta.properties上修改node01的broker.id,这个文件在你配置server.properties里面的log.dirs路径中。vim /bgd/install/kafka/kafka-logs/meta.pr原创 2021-05-29 11:15:58 · 2834 阅读 · 2 评论 -
Hbase集群重启后,其中一个没起来,单独启动也不行
问题描述:Hbase集群重启后,突然其中一个没起来,单独启动也不行,三台机器的时间也同步,不存在时间上的问题。原因分析:很可能是没有正确关闭集群导致的。开集群的步骤和关集群的步骤刚好是相反的。解决办法:重启一遍集群,不是重启hbase集群,而是整个大数据集群。从开启hadoop开始、zookeep、hbase等,重新走一遍。...原创 2021-05-05 14:17:49 · 648 阅读 · 1 评论 -
docker搭建三节点的hadoop集群(包含:hdfs、yarn、zookeeper、mapreduce程序测试)
好处: 利用docker搭建集群,对于我这种身无分文的人来说,简直是一种福利。废话不多说,开干~前置环境: 安装了docker的centos7服务器一台。目的: 利用docker配置一个三节点的hadoop集群,一主二从。具体操作如下:宿主机端拉取centos8镜像(发布文章时,默认就是是centos8)docker pull centos宿主机端创建网段docker network create --subnet=172.200.0.0/16 hadoopNet在宿主机上原创 2020-11-30 23:16:25 · 1213 阅读 · 0 评论 -
Python量子模拟器
目前IBM推出的qiskit是非常棒的Python量子模拟器,直接使用pip install qiskit命令即可完成安装,具体量子傅氏变换的代码及注释整理如下:Python环境下安装pip install qiskit具体代码# coding=utf-8import mathfrom qiskit import QuantumRegister, ClassicalRe...原创 2019-10-30 10:22:13 · 1370 阅读 · 0 评论