大数据组件_me凡的博客-优快云博客

大数据组件

关注

关注数：文章数：23 文章阅读量：59548 文章收藏量：80

作者: me凡

这个作者很懒，什么都没留下…

展开

专栏收录文章

Doris或StarRocks Jmeter压测

测试介绍：1. 配置化sql where条件（5个线程，每个线程执行不同的where条件，通过csv文件实现）2. 实现固定并发数执行几分钟（如果只是固定并发数执行一次，压测是不合格的，QPS是达不到你设置的并发数）整个测试涉及到的大概这么多1. Jmeter JDBC连接Doris或StarRocks兼容mysql协议，通过jdbc方式连接说是要加个mysql-connect的jar包2. csv配置化比如我3个线程执行3...

原创 2022-05-17 11:29:54 · 3811 阅读 · 0 评论
致大数据开发者的一句忠言

时间：2022年4月20号背景：在公司一年半后选择离职，三月份找了将近一个月的工作，最终算是拿到满意的offer找工作的感受：四年工作经验，三份工作经历，面的是大数据开发岗，因为过往工作内容比较繁琐，集群运维，Flink实时，数据治理，数仓报表都做过，就是因为什么都做过，貌似简历里没办法体现某一个方向的深度，但找工作，还是要着重某个方向，过往的Java工作也少，编程功底一般，终结就是：亮点没有，缺点很明显。这次找工作让我有一种快要失业的感觉，多少有点恐慌。对大数据行业的浅解：大数据分数仓（离线，

原创 2022-04-20 15:42:22 · 2446 阅读 · 0 评论
Apache superset直连hive如何配置yarn资源队列参数(已解决）

对于小公司来说，superset这款BI工具相当优秀，丰富的数据源，炫酷的dashboard能满足基本查询要求现在关注下查询hive，superset可以直接对接hive或者通过presto由于公司大数据集成设置有资源队列，即 mapred.job.queue.name，在直接对接hive的时，如果不配置此参数，任务无法提交到yarn上解析运行如何配置呢？环境：集成了ldap的hive，资源队列划分在这个URI里是配置不了资源队列的，资源队列配置配置如下"connect_.

原创 2020-09-23 16:28:16 · 1198 阅读 · 0 评论
flume自定义拦截器：根据业务数据中的时间戳实现数据在hdfs中的正确分区

业务场景：埋点数据落hive表，且埋点数据中带有数据产生时的时间字段业务流程：kafka->flume->hdfs->hive问题：晚到的埋点数据会落到哪个分区中 9点产生的埋点数据由于数据上报或者flume sink的延迟会落到9点的分区中么？答案是不会的flume抽取到的数据也成为event，event分为header和body，如果你flume sink...

原创 2020-03-20 11:39:35 · 1407 阅读 · 0 评论
flume hdfs sink报错: java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITY

集群环境：CDH 6.2.0Hadoop 3.0.0在使用flume hdfs sink时报错，java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITYflume sink在相应目录下创建了.tmp文件，但无法写入数据2020-03-16 18:32:44,757 (SinkRunner-PollingRunner-Default...

原创 2020-03-17 10:57:30 · 1149 阅读 · 0 评论
sparkthrift服务隔段时间正常退出

CDH6.2集成sparkThrift服务参考https://blog.youkuaiyun.com/qq_34864753/article/details/102729859公司网络组为了安全起见购买了华为的防火墙，安装上后启动的sparkThrift服务隔2小时10分钟后就会断开，而且是正常断开sparkThrift日志2020-01-17 13:25:25 INFO HiveS...

原创 2020-01-18 10:16:26 · 1235 阅读 · 2 评论
kafka集群监控（kafka_exporter&prometheus&Grafana）

为了更直观的展示kafka实时消息生产速率以及某一topic下group_id与当前kafka之间的消息积压情况，采用kafka_exporter，promehues，grafana将相关指标实时展示1. 下载 kafka_exporter(所在机器需与kafka集群网络相通)wgethttps://github.com/danielqsj/kafka_exporter/release...

原创 2020-01-13 11:07:28 · 19170 阅读 · 12 评论
Superset 集成mysql数据库及报错 No module named 'MySQLdb'解决

superset安装请参考https://blog.youkuaiyun.com/qq_34864753/article/details/93517511这是superset添加数据源的界面点击Test Connection 报错No module named 'MySQLdb'"需要安装 mysqlclient ，过程不会是一帆风顺的，报错，最初是机器没开外网（公司安全管控比较严...

原创 2019-12-20 14:54:27 · 2476 阅读 · 5 评论
kafka同一个topic和gruopid下的双flume客户端消费测试

业务场景：单个flume客户端无法消费某个数据量很大的topic，因此起两个flume去消费同一个topic数据流：kafka--->flume---->oss(阿里云的分布式存储服务，可以是hdfs)01.conf 和 02.conf配置的topic和group.id以及数据存储路径都保持一致，不同的是文件前缀01.conf配置02.conf配置我这边在...

原创 2019-12-19 18:11:37 · 760 阅读 · 0 评论
sentry权限查看

搭建的CDH集成了sentry，通过HUE来设置相关权限，具体角色有哪些权限呢？如何查看？1. 进入sentry所在数据库跟权限相关的就下两个表

原创 2019-12-10 17:43:32 · 1149 阅读 · 0 评论
kerberos环境下的presto集群安装

1. 没有kerberos环境的presto集群安装请参考https://blog.youkuaiyun.com/Alongpo/article/details/89499400kerberos安装需更改 /catalog 下的hive.properties文件,其余参考1 即可

原创 2019-12-03 17:57:17 · 329 阅读 · 0 评论
apache druid压力测试（工具:jmeter）

1. 官网下载http://jmeter.apache.org/2. 解压进入bin目录，双击ApacheJMeter.jar 运行程序3.添加以下服务线程组：这里你可以设置线程数和循环次数等http请求：http信息头管理器汇总报告/汇总图/查看结果树都是查看请求状态和请求结果的，重要的是汇总图，可以看到请求的响应时间，下面的图是测试800个并发结...

原创 2019-11-19 14:37:34 · 1311 阅读 · 0 评论
Apache Druid删除深度存储（Deep Storage）中的数据

参考https://blog.youkuaiyun.com/Alongpo/article/details/89604655Druid安装及demo测试请参考https://blog.youkuaiyun.com/qq_34864753/article/details/100080664假如我们只想保留Druid中某张表7天的数据，为了减少磁盘开销，删除前7天的数据1. 设置表的保留规则参考...

原创 2019-11-01 17:17:00 · 1990 阅读 · 0 评论
CDH启用Kerberos导致hdfs,yarn等页面无法访问解决

CDH启用Kerberos，导致namenode和resourcemanager等页面无法访问，访问页面的时候报错Problem accessing /cluster. Reason解决方案：将hdfs/yarn的配置中这个勾选去掉，重启服务即可...

原创 2019-10-31 13:39:17 · 2956 阅读 · 0 评论
CDH 6成功启动spark-thrift服务（CDH 6.2.0）

因为CDH自身集成的spark不包含thrift服务，因公司业务需求，需在集成了Kerberos&LDAP的CDH集群中启用spark-thrift服务吐槽一句，百度出来的都是没用的，还是翻墙找到解决方案的1. 下载spark 安装包，并解压wget https://www-eu.apache.org/dist/spark/spark-2.4.4/spark-2.4.4...

原创 2019-10-24 19:24:45 · 3785 阅读 · 23 评论
superset超详细安装文档+安装过程中报错解决+30s查询时间限制解决

系统自带的是python2.7，此次安装的python环境是python3.6，所以会用到Anaconda此博客参考了https://blog.youkuaiyun.com/Alongpo/article/details/893168271.安装anaconda （Anaconda3-4.4.0-Linux-x86_64.sh）下载地址 https://mirrors.tuna.tsin...

原创 2019-06-25 11:02:10 · 3672 阅读 · 2 评论
zookeeper安装

见连接https://note.youdao.com/ynoteshare1/index.html?id=5670dd2469e1c12a0b89d86ee3c98b2c&type=note

转载 2019-07-09 11:32:43 · 184 阅读 · 0 评论
Hadoop namenode启动之后datanode启动不了

在将非HA的namenode转为 HA的配置过程中执行格式语句，启动的时候发现namenode起了，datanode没启动hadoop namenode -formatsbin/start-dfs.sh1. 查看日志 hadoop/logs下一般是由于namenode和datanode的clusterID不相同2.解决方法第一种（在没有重要数据的情况下） ...

原创 2019-07-16 10:41:32 · 779 阅读 · 1 评论
Hue权限管理实操

1. 收回某个user的rolerevoke role role_name from user user_name;2.收回某个role的某张表的权限revoke select on table table_name from role role_name;3.查看user下的roleshow role grant user user_name;4，创建视图，创建ro...

原创 2019-07-17 10:43:44 · 809 阅读 · 1 评论
Imply方式安装0.15.0版本Druid和实例（hdfs2druid）分享

删除druid中的数据可参考https://blog.youkuaiyun.com/qq_34864753/article/details/1028613221. 下载imply ，解压https://imply.io/get-startedtar -xzf imply-3.0.12.tar.gzimpy quickstart链接地址（供参考）https://docs.imply.i...

原创 2019-08-26 17:19:26 · 1171 阅读 · 6 评论
Apache Druid(0.15.0版本)数据迁移/数据保留规则实际使用指南（更新中）

1. 数据迁移(两个Druid集群间数据迁移) 参考https://blog.youkuaiyun.com/u012164361/article/details/87881926 1.1拷贝老集群segments到新集群指定目录下（由于公司有oss，我这边就用oss做了中间存储，老Druid集群 HDFS Deep Storage目录下数据--->OSS--->新hdfs集群...

原创 2019-09-05 11:33:02 · 1920 阅读 · 0 评论
CDH以及原生态HUE下载条数限制修改（默认10w行）

1.CDH版需要到CDH的Cloudera Manager中进入HUE配置hue_safety_valve.ini 的 Hue 服务高级配置代码段（安全阀）配置项然后加入[beeswax]download_row_limit=500就可以限制下载条数到500条了，设置成-1则不对下载条数限制。回到CDH界面会提示过期配置需要重启，然后重启即可生效2. 原生态版本然后重...

原创 2019-10-10 11:38:40 · 1256 阅读 · 0 评论
hive 问题总结

1.org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Exception thrown when executing queryFAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: MetaExc...

原创 2019-07-02 16:56:32 · 4589 阅读 · 0 评论

大数据组件

作者: me凡

Doris或StarRocks Jmeter压测

致大数据开发者的一句忠言

Apache superset直连hive如何配置yarn资源队列参数(已解决）

flume自定义拦截器：根据业务数据中的时间戳实现数据在hdfs中的正确分区

flume hdfs sink报错: java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITY

sparkthrift服务隔段时间正常退出

kafka集群监控（kafka_exporter&prometheus&Grafana）

Superset 集成mysql数据库及报错 No module named 'MySQLdb'解决

kafka同一个topic和gruopid下的双flume客户端消费测试

sentry权限查看

kerberos环境下的presto集群安装

apache druid压力测试（工具:jmeter）

Apache Druid删除深度存储（Deep Storage）中的数据

CDH启用Kerberos导致hdfs,yarn等页面无法访问解决

CDH 6成功启动spark-thrift服务（CDH 6.2.0）

superset超详细安装文档+安装过程中报错解决+30s查询时间限制解决

zookeeper安装

Hadoop namenode启动之后datanode启动不了

Hue权限管理实操

Imply方式安装0.15.0版本Druid和实例（hdfs2druid）分享

Apache Druid(0.15.0版本)数据迁移/数据保留规则实际使用指南（更新中）

CDH以及原生态HUE下载条数限制修改（默认10w行）

hive 问题总结