- 博客(537)
- 资源 (8)
- 收藏
- 关注
转载 bigdata_flink错误本-错误记录
一,flink集群启动失败。 二,UnsupportedFileSystemSchemeException: Hadoop is not in the classpath/dependencies. 三,javademo错误 四,flink wordcount没有输出 五,Hadoop is not in the classpath/dependencies. 六,结果写入hdfs报错 七,命令行提交per job报错 八,运行滚动窗口demo报错 九,使用flink sql时报错 十,使
2023-04-08 11:47:59
558
原创 大数据安全认证
它同样是做细粒度的权限控制。但相比较于Sentry而言,它能支持更丰富的组件,包括于 HDFS, Hive, HBase, Yarn, Storm, Knox, Kafka, Solr and NiFi。Sentry首先是由Cloudera公司内部开发而来的,初衷是为了让用户能够细粒度的控制Hadoop系统中的数据(这里主要指HDFS,Hive的数据)。平台用户的用户认证一般会采用kerberos,负责数据的权限管理一般采用大数据权限管理框架(sentry或是Ranger)。Kerberos认证。
2022-10-19 17:13:13
1401
转载 Hadoop 3.X 纠删码介绍和使用
Hadoop 3.x引入了纠删码技术(Erasure Coding),它可以提高50%以上的存储利用率,并且保证数据的可靠性。
2022-10-18 16:38:51
405
原创 Hbase、Kudu和Clickhouse对比
总结:Hbase更适合非结构化的数据存储;在既要求随机读写又要求实时更新的场景,Kudu+Impala可以很好的胜任,当然再结合CDH就更好了,瓶颈并不在Kudu,而在Impala的Apache部署,特别麻烦。详见 Apache集群安装Impala如果只要求静态数据的极速查询能力,Clickhouse则更好。
2022-10-18 15:55:32
614
原创 虚拟机报错:ping不通百度
如果某台Linux服务器ping不通域名, 如下提示: [root@localhost ~]# pingwww.baidu.comping: unknown hostwww.baidu.com首先确定已经连接上路由器,并且路由器能够访问外网,可以通过访问网关进行确定 [root@localhost ~]# ping 8.8.8.8 PING 192.168.1.1 (192.168.1.1) 56(84) bytes of data. 64 bytes from 192.168.1.1: icmp_...
2022-04-06 11:26:57
1366
原创 IDEA快捷键
1)快速生成程序入口:main输入main->回车def main(args: Array[String]): Unit = {}2)自动补全变量:.var输入1.var->回车val i: Int = 23)快速打印:.sout输入1.sout->回车println(1)4)快速生成for循环:遍历对象.for输入1 to 3.forfor (elem <- 1 to 3) {}5)查看当前文件的结构:Ctr.
2022-02-16 22:39:00
842
原创 如何实现通过java实现类似于linux中Tree的输出
如何实现类似于linux中Tree的输出import java.io.File;import java.util.Scanner;public class Tree { public static int depth = 0; public static void main(String[] args) { boolean flag=true; while (flag) { System.out.println("-----
2021-04-09 10:56:12
300
原创 解决VM 与 Device/Credential Guard 不兼容,全网有效解决思路
1,看了微软的官网,每个方法都尝试一下,奈何还是不行。2,最后尝试下面这个博主的方式,okhttps://segmentfault.com/a/1190000023554965
2021-03-17 14:54:53
968
1
原创 zookeeper和kafka的SASL认证
1. 搭建Kafka集群时, 对ZooKeeper认证与权限控制http://ohmycat.me/2019/05/08/kafka-with-zookeeper-authentication.html2. zookeeper和kafka的SASL认证以及生产实践https://developer.aliyun.com/article/7084493. zookeeper(client-server身份认证-SASL配置)https://bbs.huaweicloud.com/blogs
2020-10-27 17:14:41
1097
原创 如何给博客园添加动漫人物?
第一步:第二步:在页面找到这个,添加如下代码代码:<script> //鼠标在消息上时jQuery(document).ready(function ($) { $("#message").hover(function () { $("#message").fadeTo("100", 1); });});//鼠标在上方时jQuery(document).ready(function ($) { //..
2020-10-27 15:16:51
1451
原创 leetcode_136_只出现一次的数字
题目路径:https://leetcode-cn.com/problems/single-number/解题思路: public int singleNumber(int[] nums) { int temp=nums[0]; for (int i = 1; i < nums.length; i++) { temp = temp ^ nums[i]; } return temp; ..
2020-10-26 17:15:08
307
原创 Kafka如何手动维护偏移量?
0:需求描述-手动维护kafka偏移量-做一个单词计数1.环境准备三台虚拟机:node01,node02,node03三台机器已经安装kafka集群。mysql用来存取kafka的偏移量 CREATE TABLE `t_offset` ( `topic` VARCHAR(255) NOT NULL, `partition` INT(11) NOT NULL, `groupid` VARCHAR(255) NOT NULL, `
2020-10-10 17:30:33
921
原创 kafka帮助文档
#启动kafka/export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/server.properties#停止kafka/export/servers/kafka_2.11-1.0.0/bin/kafka-server-stop.sh#查看topic信息/export/servers/kafka_2.11-1.0.0/bin/kafka-t..
2020-10-10 14:10:11
373
原创 hbase参数配置优化
hbase.rootdir 这个目录是region server的共享目录,用来持久化Hbase。URL需要是’完全正确’的,还要包含文件系统的scheme。例如,要表示hdfs中的/hbase目录,namenode运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认:file:///tmp/hbase-${user.name}/hbasehbase.master.port Hbase...
2020-09-28 14:51:47
848
原创 hbase与redis对比
HBase和Redis的功能上比较相似。都是nosql类型的数据库。但是在适用场景上,两者还是有比较明显的区别的。下面基于读写性能、数据类型、数据量、部署难易、数据可靠性、应用场景、两者的结合等多个维度来比较一下两者。读写性能:HBase写快读慢,HBase的读取时长通常是几毫秒,而Redis的读取时长通常是几十微秒。性能相差非常大。数据类型:HBase和Redis都支持KV类型。但是Redis支持List、Set等更丰富的类型。数据量:Redis支持的数据量通常受内存限制,而H
2020-09-28 14:49:54
943
原创 Apache Hive(3)
Apache Hivejson数据的解析内置函数get_json_object 一次可以解析出一个json值json_tuple 可以解析出多个扩展:如果是json数组呢?思路:想法把json数组转换成为array 交给explode来炸开 结合 json_tuple 来使用regexp_replace('json数组', '\\}\\,\\{','\\}\\;\\{') --把json数组中的分隔符替换成为;regexp_replace('asdas','
2020-09-25 17:30:13
254
原创 Apache Hive(2)
修改表的操作增加分区第一步手动创建新增分区的目录第二步把该分区目录加载到hive表信息中ALTER TABLE t_user_p ADD PARTITION (guojia='riben') location '/user/hive/warehouse/itcast.db/t_user_p/guojia=riben';hive中错误的分类Error while compiling statement 编译期间的错误 sql语法错误 Error while processing
2020-09-25 17:20:13
247
原创 数据仓库 Hive
数据仓库 Hive数据仓库是什么?集成化的数据分析平台如何由来?为了分析数据 分析的结果支持企业的决策特点本身不生产数据 也不消费数据 数据分析的平台4个特性面向主题性主题是一个抽象概念 数据综合体 跟你分析的需求相关集成性确定分析的主题之后 寻找跟主题相关的各个数据源数据 经过抽取转化加载(ETL)最终把数据变成格式统一干净规整的数据 填充数据仓库的主题下面非易失性数仓是数据分析的平台 不是数据创造的平台 分析数据的规律 而不是修
2020-09-25 17:16:51
347
原创 HDFS的其他功能
不同集群之间的数据复制在我们实际工作当中,极有可能会遇到将测试集群的数据拷贝到生产环境集群,或者将生产环境集群的数据拷贝到测试集群,那么就需要我们在多个集群之间进行数据的远程拷贝,hadoop自带也有命令可以帮我们实现这个功能。集群内部文件拷贝scpcd /export/softwares/scp -r jdk-8u141-linux-x64.tar.gz root@node-2:/export/跨集群之间的数据拷贝distcpcd /export/servers
2020-09-25 14:46:29
223
原创 如何下载cdh版本的软件包
由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载,以下两个地址是官方文档说明,请仔细查阅https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_maven_repo.htmlhttps://www.cloude
2020-09-25 14:37:32
1369
原创 Hadoop MapReduce
Hadoop MapReduce理解mapreduce思想核心:分而治之 先分再合两个阶段map阶段(分):如果任何可以拆分并且没有依赖 那么就把复杂的任务拆分成小任务拆分成小任务之后 可以并行计算 提高处理效率reduce阶段(合):把map阶段的各个局部结果进行汇总 得到最终的结果来源:来源于生活 包括Google和hadoop团队在内 都是把这种思想提炼处理 应用于大数据处理Hadoop MapReduce设计构思如何面对大数据的处理场景
2020-09-25 14:25:19
256
原创 hadoop hdfs
hadoop hdfshdfs特性首先,它是一个文件系统 用于存储文件的 提供统一命名空间的目录树结构 便于用户操作文件系统其次,它是一个分布式文件系统 分布式意味着多台机器 当中有不同的角色 各司其职 共同配合。master slave 主从架构主角色:namenode 管理文件系统元数据(目录树结构 文件和块的对应信息)从角色:datanode 负责具体数据块存储 定时向nn进行块的汇报分块存储hadoop 2.x block size = 128Mh
2020-09-25 12:47:46
256
原创 Hadoop_1
Hadoop1hadoop是什么狭义上特指Apache 的一款软件 java语言开发 开源软件 大数据问题解决处理平台Hadoop HDFS:分布式文件系统 解决了海量数据存储问题Hadoop MapReduce:分布式计算框架 解决了海量数据的计算问题Hadoop YARN:资源管理任务调度系统广义上特指hadoop 生态圈 包括了大数据解决的各个不同步骤的软件甚至一些非apache 的项目也会处于生态圈中hadoop的优点和应用优点:扩容能
2020-09-25 12:43:10
258
原创 CentOS如何快速安装docker
centos6.x$ sudo yum install http://mirrors.yun-idc.com/epel/6/i386/epel-release-6-8.noarch.rpm$ sudo yum install docker-ioCentOS7.xCentOS7 系统 CentOS-Extras 库中已带 Docker,可以直接安装:$ sudo yum install docker安装成功Docker 服务,设置开机自启动。$ sudo service doc
2020-09-21 19:47:37
237
原创 leedcode_1. 两数之和
问题:给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。示例:给定 nums = [2, 7, 11, 15], target = 9因为 nums[0] + nums[1] = 2 + 7 = 9所以返回 [0, 1]解题思路: 这道题本身如果通过暴力遍历的话也是很容易解决的,时间复杂度在 O(n2),由于哈希查找的时间复...
2020-08-22 20:18:29
142
原创 成为一个网络抓取专家以下5个技巧
互联网是21世纪的魔盒。搜索信息很容易。只需在浏览器中输入几个单词,就能获得所需的所有信息。丰富的数据不能转化为有目的或结构化的信息。如果您选择手动组织数据,那么您应该准备好长时间的艰苦工作,以及在此过程中可能出现的错误。这就是web抓取发挥作用的地方。无论你身处哪个行业,你都需要数据——这就是为什么科技公司能从数据中赚大钱的原因。要加入这个行列,你需要提高自己的网络抓取技能。无论你是一个想要提高技能的业余爱好者,还是这个行业的老手,这里有5个技巧可以帮助你成为一个专业的网络...
2020-08-22 09:51:30
355
转载 Python感知器算法的完整指南
Artificial neural networks are highly used to solve problems in machine learning. The perceptron algorithm is the simplest form of artificial neural networks. Machine learning programmers can use it to create a single Neuron model to solve two-class classi
2020-08-22 09:26:37
499
原创 四、Spark性能调优
目录1.常规性能调优常规性能调优一:最优资源配置常规性能调优二:RDD优化RDD复用RDD持久化RDD尽可能早的filter操作常规性能调优三:并行度调节常规性能调优四:广播大变量常规性能调优五:Kryo序列化常规性能调优六:调节本地化等待时长2.算子调优算子调优一:mapPartitions算子调优二:foreachPartition优化数据库操作算子调优三:filter与coalesce的配合使用算子调优四:repartition解决Spar.
2020-07-14 13:54:02
531
原创 三、HBase的优化(后期继续优化)
HBase高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。1) 关闭HBase集群(如果没有开启则跳过此步) $ bin/stop-hbase.sh 2) 在conf目录下创建backup-masters文件 $ touch conf/backup-mas
2020-07-14 12:05:53
876
原创 二、Hive调优
目录1.Fetch抓取(默认就有)2.本地模式(小数据集适用)3.表优化小表、大表Join (大表放右边)大表Join大表 (处理空key-过滤/替换)MapJoin (在Map端进行小表join,避免数据倾斜)Group By (Map端聚合,避免Reduce数据倾斜)Count(Distinct) 去重统计 (先group by再count避免job时间过长)避免笛卡尔积 (避免只有一个Reducer)行列过滤 (不使用select *)动态分区调整分区
2020-07-14 10:29:06
343
原创 一、Hadoop企业优化
MapReduce 跑的慢的原因Mapreduce 程序效率的瓶颈在于两点:1)计算机性能 CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(5)大量的不可分块的超大文件(6)spill次数过多(7)merge次数过多等。3)JVM优化:JVM重用mapred.job.reuse.jvm.num.tasks,默认是 1,表示一个 JVM..
2020-07-14 09:35:25
194
转载 神奇的网站
(1)恶作剧大合集1. 在线抠图、证件照生成器 :t.cn/A67EE9UQ2.爱情小说生成器 :http://t.cn/ExN4qpW3.Cp短打生成器 :http://t.cn/Aid6pD1l4.爱豆翻牌体验器:http://t.cn/EoTPp7G5.口罩头像生成器:http://t.cn/A6vsVTFl6.今日吃什么:http://t.cn/zjgiYLq7.记仇表情生成器:http://t.cn/R3ZmNPa8.万能表情包生成器:http://t.cn/Ebu
2020-06-17 16:54:43
3916
原创 Java 语言编码规范(Java Code Conventions)
1 介绍• 1.1 为什么要有编码规范编码规范对于程序员而言尤为重要,有以下几个原因:- 一个软件的生命周期中,80%的花费在于维护- 几乎没有任何一个软件,在其整个生命周期中,均由最初的开发人员来维护- 编码规范可以改善软件的可读性,可以让程序员尽快而彻底地理解新的代码- 如果你将源码作为产品发布,就需要确任它是否被很好的打包并且清晰无误,一如你已构建的其它任何产品为了执行规范,每个软件开发人员必须一致遵守编码规范。每个人。• 1.2 版权声明本文档反映的是 Sun ..
2020-06-16 18:44:43
1424
原创 Git的基本使用
Git的安装与基本操作:10分钟搭建自己的Git仓库:https://mp.weixin.qq.com/s/6GyYlR9lpVcjgYmHMYLi0wIDEA中的Git操作,看这一篇就够了!:码云帮助中心https://gitee.com/help
2020-06-09 09:55:20
181
转载 Elasticsearch干货
Elasticsearch学习,请先看这一篇引用题记:Elasticsearch研究有一段时间了,现特将Elasticsearch相关核心知识、原理从初学者认知、学习的角度,从以下9个方面进行详细梳理。欢迎讨论……1. 带着问题上路——ES是如何产生的?(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbas.
2020-05-29 18:36:50
289
gitbook相关.zip
2020-03-09
json解析工具.zip
2019-06-23
.m2解决方法
2018-05-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人