大数据_meavoChen的博客-优快云博客

大数据

关注

文章平均质量分 62

关注数：文章数：22 文章阅读量：40032 文章收藏量：142

作者: meavoChen

这个作者很懒，什么都没留下…

展开

专栏收录文章

linux上如何用yum安装openjdk1.8，踩坑汇总

linux上如何用yum安装openjdk1.8

原创 2022-06-01 00:30:52 · 4033 阅读 · 0 评论
快速使用腾讯云服务器安装单机版kafka，全过程跑通

快速安装单机版kafka，全过程跑通

原创 2022-06-01 00:18:06 · 740 阅读 · 0 评论
linux安装jdk后jps: command not found怎么办

jps: command not found

原创 2022-05-31 23:41:36 · 820 阅读 · 0 评论
hive建表导入数据，用hive查询表无数据，而用persto查询有数据

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入mr和tez跑出来的数据不一样，mr丢数据？欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑

原创 2021-04-28 21:35:53 · 1866 阅读 · 1 评论
SparkStreaming+Kafka如何限速的问题

SparkStreaming消费Kafka数据的时候，当有大量初始化数据时会拖累整个streaming程序的运行，问有什么办法？总体来说这个问题大概有两种解决思路：1.在Spark端设置限速；2.在Kafka端设置限速。1.Spark端设置限速Spark端限速的方法，主要的思路是设置不同的参数，比如在Direct模式下设置spark.streaming.kafka.maxRatePerPartition，receiver模式下设置spark.streaming.receiver.maxRate

原创 2021-01-26 14:53:59 · 552 阅读 · 0 评论
Kafka Consumer多线程消费

01 概述关于Kafka Java Consumer多线程消费的实现，多个线程可能拿到相同分区的数据，而消费的顺序会破坏消息本身在分区中的顺序，因而扰乱位移的提交。使用KafkaConsumer的pause和resume方法来防止这种情形的发生。另外，本次我会编写一个测试类用于验证消费相同数量消息时，单线程消费速度要远逊于多线程消费。这一次，我编写了5个java文件，它们分别是：***OrdinaryConsumer.java：***普通的单线程Consumer，用于后面进行性能测试对比用。***

原创 2021-01-22 14:09:31 · 1591 阅读 · 1 评论
kakfa获取到当前最新消息的offset

业务场景IOT领域，假设有用户访问页面，只需要当前时刻的数据，不关心之前设备的数据。所以通过获取当前kafka的broker里的最新offset，然后consumer消费最新的offset来获取最新的时刻数据。一 simlpeAPI实现public class GetOffsetShellWrap { private static Logger log = LoggerFactory.getLogger(GetOffsetShellWrap.class); private Strin

原创 2020-08-18 15:24:00 · 579 阅读 · 0 评论
kafka自定义分区，数据流向指定分区，消费者组的消费者消费指定分区（java）

业务场景参考在IOT领域，传感器设备的数据向服务器发送数据，预想一个类型的数据放一个topic里，但是根据实际情况。kaka的topic数越多，吞吐量性能下降厉害。所以想象将分区做个自定义，然后消费者组的消费者消费指定分区，达到这一目的。一自定义kafka分区public class SimplePartitioner implements Partitioner { private final AtomicInteger atomicInteger = new AtomicIntege

原创 2020-08-18 14:58:01 · 1782 阅读 · 1 评论
cdh安装的kafka在linux里面创建topic主题报错:Replication factor: 1 larger than available brokers: 0

遇到问题用CDH搭建的kafka集群，想通过linux的kafka直接创建topic主题来测试一下kafkakafka-topics --zookeeper localhost:2181 --create -replication-factor 1 --partitions 3 --topic test直接报错20/07/17 14:30:54 INFO zookeeper.ZooKeeper: Client environment:user.dir=/opt/cloudera/parcels/K

原创 2020-07-17 14:46:10 · 690 阅读 · 0 评论
手把手教你！0基础小白也可以使用谷歌服务器搭建自己的博客网站

准备工作visa卡（用于谷歌的认证）fan（翻）qiang（墙）工具（用于登陆谷歌）一申请及注册谷歌云1.登录Google Cloud官网并进行账户注册：https://cloud.google.com/ ,我们在官网首页点击免费试用进行注册：2.我们进行国家和地区资料填写，我们在右侧栏可以看到12个月有效期的300刀赠额说明。国家地区选择真实所在地，这里我选择中国，勾选同意条款，点击同意并继续：3.我们接下来进行个人资料和信用卡资料的填写，个人资料和信用卡资料如实填写就好了。4.

原创 2020-07-08 11:20:22 · 9035 阅读 · 0 评论
kafka0.11的生产者幂等性设计与事务

0.11版本在 2017 年 6 月，社区发布了 0.11.0.0 版本，引入了两个重量级的功能变更：一个是提供幂等性 Producer API 以及事务（Transaction） API；另一个是对 Kafka 消息格式做了重构。前一个好像更加吸引眼球一些，毕竟 Producer 实现幂等性以及支持事务都是 Kafka 实现流处理结果正确性的基石。没有它们，Kafka Streams 在做流处理时无法向批处理那样保证结果的正确性。当然同样是由于刚推出，此时的事务 API 有一些 Bug，不算十分稳定。另

原创 2020-07-07 16:11:23 · 508 阅读 · 0 评论
亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第五步：配置HDFS的HA）

5.1，环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。5.2，配置Namenode 的HA5.2.1，进入HDFS界面，点击“启用High Availability”5.2.2，输入NameService名称，这里设置为：nameservice1，点击继续按钮。5.2.3，设置另一个NameNode节点，这里设置为：cdh-node3.grc。设置JournalNode节点，这里设置为：cdh-node[2-6].grc，一共5个节点。注意：Nourna

原创 2020-07-07 13:54:37 · 239 阅读 · 0 评论
亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第四步： spark2.x安装）

说明：【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行四 spark安装升级2.x4.1 spark1.6自带的安装报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user/root":hdfs:supergroup:drwxr-xr-x切换到hdfs的超级管理员启动su - hdfssudo -u

原创 2020-07-03 14:23:21 · 212 阅读 · 0 评论
亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第三步： CDH安装）

说明：【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行三 CDH安装3.1 打开web打开7180端口，账号密码都是admin3.2 安装警告Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10。当前设置为 30。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf，以在重启后保存该设置。您可以继续进行安

原创 2020-07-03 14:13:30 · 267 阅读 · 0 评论
亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第二步： ClouderaManager安装）

二、 ClouderaManager安装2.1 安装Cloudera Manager Server、Agent【all】mkdir /opt/cloudera-manager【1】tar xvzf cloudera-manager*.tar.gz -C /opt/cloudera-manager2.2 创建用户cloudera-scm【all】useradd --system --no-create-home --shell=/bin/false --comment "Cloudera SCM

原创 2020-07-03 13:51:14 · 333 阅读 · 0 评论
亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第一步：环境准备）

说明：【all】【所有机器】【123】表示所有节点都执行【1】表示只有1号节点执行一、环境准备1.1 网络配置配置网络信息【all】vi /etc/sysconfig/network--每个文件都配置不同，要修改datalinux1、datalinux2、datalinux3NETWORKING=yesHOSTNAME=datalinux2GATEWAY=192.168.1.11.2 配置hosts映射【all】vi /etc/hosts--每个hosts都配置相同192.168

原创 2020-07-03 11:21:26 · 274 阅读 · 0 评论
Cloudera怎么配置Namenode的HA（高可用）

1，环境信息基于 Cloudera Manager5安装部署CDH5.X 文章的环境信息。2，配置Namenode 的HA2.1，进入HDFS界面，点击“启用High Availability”2.2，输入NameService名称，这里设置为：nameservice1，点击继续按钮。2.3，设置另一个NameNode节点，这里设置为：cdh-node3.grc。设置JournalNode节点，这里设置为：cdh-node[2-6].grc，一共5个节点。注意：NournalNode必须设置&

原创 2020-06-10 15:44:56 · 943 阅读 · 0 评论
centos7安装mysql报“没有可用软件包 mysql-server”怎么办？

第一步：安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步：下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 第三步：安装mysql-community-release-el7-5.noarch.rpm包[root@master ~]# rpm -ivh mysql-community-r.

原创 2020-06-04 14:16:28 · 13764 阅读 · 11 评论
一文读透Spark中foreachRDD、foreachPartition和foreach

foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同，foreachRDD作用于DStream中每一个时间间隔的RDD，foreachPartition作用于每一个时间间隔的RDD中的每一个partition，foreach作用于每一个时间间隔的RDD中的每一个元素。在Spark 官网中，foreachRDD被划分到Output Operations on DStreams中，所有我们首先要明确的是，它是一个输出操作的算子，然后再来看官网对它的含义解释

转载 2020-05-20 13:39:09 · 578 阅读 · 0 评论
spark调优核心--spark shuffle调优全剖析(收藏)

Shuffle调优一：调节map端缓冲区大小在Spark任务运行过程中，如果shuffle的map端处理的数据量比较大，但是map端缓冲的大小是固定的，可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况，使得性能非常低下，通过调节map端缓冲的大小，可以避免频繁的磁盘IO操作，进而提升Spark任务的整体性能。map端缓冲的默认配置是32KB，如果每个task处理640KB的数据，那么会发生640/32 = 20次溢写，如果每个task处理64000KB的数据，机会发生64000/32=20

原创 2020-05-19 10:12:55 · 179 阅读 · 0 评论
超详细！全注释！java代码对hbase进行建表（create），插入数据（put），查询数据（get）以及扫描（scan）

一.导入核心jar包hbase/lib/下的115个jar包二.编写代码package com.shsxt.ly;import java.io.IOException;import java.io.InterruptedIOException;import java.util.ArrayList;import java.util.Iterator;import java.uti...

原创 2019-11-28 21:20:06 · 768 阅读 · 0 评论
HBase的数据模型的各个名词解读!

HBase的数据模型RowKey是数据的唯一标识默认由64k的数据组成,但是实际使用中按照用户的需求自由定义分配空间的时候使用多少分配多少,但是rowkey设计的时候够用就行当我们插入数据的时候,HBase会按照RowKey的字典序给我们排序HBase中的数据默认按照rowkey有序注意字典的排序规则TimeStamp数据的版本控制器它是基于HDFS储存的一...

原创 2019-11-27 10:16:36 · 288 阅读 · 0 评论

大数据

作者: meavoChen

linux上如何用yum安装openjdk1.8，踩坑汇总

快速使用腾讯云服务器安装单机版kafka，全过程跑通

linux安装jdk后jps: command not found怎么办

hive建表导入数据，用hive查询表无数据，而用persto查询有数据

SparkStreaming+Kafka如何限速的问题

Kafka Consumer多线程消费

kakfa获取到当前最新消息的offset

kafka自定义分区，数据流向指定分区，消费者组的消费者消费指定分区（java）

cdh安装的kafka在linux里面创建topic主题报错:Replication factor: 1 larger than available brokers: 0

手把手教你！0基础小白也可以使用谷歌服务器搭建自己的博客网站

kafka0.11的生产者幂等性设计与事务

亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第五步：配置HDFS的HA）

亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第四步： spark2.x安装）

亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第三步： CDH安装）

亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第二步： ClouderaManager安装）

亲手搭建！从0到1搭建CDH集群(centos6.5+CDH5.16+jdk1.8+mysql5.7)（第一步：环境准备）

Cloudera怎么配置Namenode的HA（高可用）

centos7安装mysql报“没有可用软件包 mysql-server”怎么办？

一文读透Spark中foreachRDD、foreachPartition和foreach

spark调优核心--spark shuffle调优全剖析(收藏)

超详细！全注释！java代码对hbase进行建表（create），插入数据（put），查询数据（get）以及扫描（scan）

HBase的数据模型的各个名词解读!