
大数据组件
me凡
这个作者很懒,什么都没留下…
展开
-
Doris或StarRocks Jmeter压测
测试介绍:1. 配置化sql where条件 (5个线程,每个线程执行不同的where条件,通过csv文件实现)2. 实现固定并发数执行几分钟(如果只是固定并发数执行一次,压测是不合格的,QPS是达不到你设置的并发数)整个测试涉及到的大概这么多1. Jmeter JDBC连接Doris或StarRocks兼容mysql协议,通过jdbc方式连接说是要加个mysql-connect的jar包2. csv配置化比如我3个线程 执行3...原创 2022-05-17 11:29:54 · 3629 阅读 · 0 评论 -
致大数据开发者的一句忠言
时间:2022年4月20号背景:在公司一年半后选择离职,三月份找了将近一个月的工作,最终算是拿到满意的offer找工作的感受:四年工作经验,三份工作经历,面的是大数据开发岗,因为过往工作内容比较繁琐,集群运维,Flink实时,数据治理,数仓报表都做过,就是因为什么都做过,貌似简历里没办法体现某一个方向的深度,但找工作,还是要着重某个方向,过往的Java工作也少,编程功底一般,终结就是:亮点没有,缺点很明显。这次找工作让我有一种快要失业的感觉,多少有点恐慌。对大数据行业的浅解:大数据分数仓(离线,原创 2022-04-20 15:42:22 · 2431 阅读 · 0 评论 -
Apache superset直连hive如何配置yarn资源队列参数(已解决)
对于小公司来说,superset这款BI工具相当优秀,丰富的数据源,炫酷的dashboard能满足基本查询要求现在关注下查询hive,superset可以直接对接hive或者通过presto由于公司大数据集成设置有资源队列,即 mapred.job.queue.name,在直接对接hive的时,如果不配置此参数,任务无法提交到yarn上解析运行如何配置呢?环境:集成了ldap的hive,资源队列划分在这个URI里是配置不了资源队列的,资源队列配置配置如下"connect_.原创 2020-09-23 16:28:16 · 1158 阅读 · 0 评论 -
flume自定义拦截器:根据业务数据中的时间戳实现数据在hdfs中的正确分区
业务场景:埋点数据落hive表,且埋点数据中带有数据产生时的时间字段业务流程:kafka->flume->hdfs->hive问题:晚到的埋点数据会落到哪个分区中 9点产生的埋点数据 由于数据上报或者flume sink的延迟会落到9点的分区中么?答案是不会的flume抽取到的数据也成为event,event分为header和body,如果你flume sink...原创 2020-03-20 11:39:35 · 1380 阅读 · 0 评论 -
flume hdfs sink报错: java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITY
集群环境:CDH 6.2.0Hadoop 3.0.0在使用flume hdfs sink时 报错,java.lang.NoSuchFieldError: IGNORE_CLIENT_LOCALITYflume sink在相应目录下创建了.tmp文件,但无法写入数据2020-03-16 18:32:44,757 (SinkRunner-PollingRunner-Default...原创 2020-03-17 10:57:30 · 1132 阅读 · 0 评论 -
sparkthrift服务隔段时间正常退出
CDH6.2集成sparkThrift服务 参考https://blog.youkuaiyun.com/qq_34864753/article/details/102729859公司网络组为了安全起见购买了 华为的防火墙,安装上后 启动的sparkThrift服务隔2小时10分钟后就会断开,而且是正常断开sparkThrift日志2020-01-17 13:25:25 INFO HiveS...原创 2020-01-18 10:16:26 · 1204 阅读 · 2 评论 -
kafka集群监控(kafka_exporter&prometheus&Grafana)
为了更直观的展示kafka实时消息生产速率以及某一topic下group_id与当前kafka之间的消息积压情况,采用kafka_exporter,promehues,grafana将相关指标实时展示1. 下载 kafka_exporter(所在机器需与kafka集群网络相通)wgethttps://github.com/danielqsj/kafka_exporter/release...原创 2020-01-13 11:07:28 · 19021 阅读 · 12 评论 -
Superset 集成mysql数据库及报错 No module named 'MySQLdb'解决
superset安装请参考https://blog.youkuaiyun.com/qq_34864753/article/details/93517511这是superset添加数据源的界面点击Test Connection 报错No module named 'MySQLdb'"需要安装 mysqlclient ,过程不会是一帆风顺的,报错,最初是机器没开外网(公司安全管控比较严...原创 2019-12-20 14:54:27 · 2364 阅读 · 5 评论 -
kafka同一个topic和gruopid下的双flume客户端消费测试
业务场景:单个flume客户端无法消费某个数据量很大的topic,因此起两个flume去消费同一个topic数据流:kafka--->flume---->oss(阿里云的分布式存储服务,可以是hdfs)01.conf 和 02.conf配置的topic和group.id以及数据存储路径都保持一致,不同的是文件前缀01.conf配置02.conf配置我这边在...原创 2019-12-19 18:11:37 · 734 阅读 · 0 评论 -
sentry权限查看
搭建的CDH集成了sentry,通过HUE来设置相关权限,具体角色有哪些权限呢?如何查看?1. 进入sentry所在数据库跟权限相关的就下两个表原创 2019-12-10 17:43:32 · 1128 阅读 · 0 评论 -
kerberos环境下的presto集群安装
1. 没有kerberos环境的presto集群安装请参考https://blog.youkuaiyun.com/Alongpo/article/details/89499400kerberos安装需更改 /catalog 下的hive.properties文件,其余参考1 即可原创 2019-12-03 17:57:17 · 320 阅读 · 0 评论 -
apache druid压力测试(工具:jmeter)
1. 官网下载http://jmeter.apache.org/2. 解压进入bin目录,双击ApacheJMeter.jar 运行程序3.添加以下服务线程组:这里你可以设置线程数和循环次数等http请求:http信息头管理器汇总报告/汇总图/查看结果树都是查看请求状态和请求结果的,重要的是汇总图,可以看到请求的响应时间,下面的图是测试800个并发结...原创 2019-11-19 14:37:34 · 1286 阅读 · 0 评论 -
Apache Druid删除深度存储(Deep Storage)中的数据
参考https://blog.youkuaiyun.com/Alongpo/article/details/89604655Druid安装及demo测试请参考https://blog.youkuaiyun.com/qq_34864753/article/details/100080664假如我们只想保留Druid中某张表7天的数据,为了减少磁盘开销,删除前7天的数据1. 设置表的保留规则参考...原创 2019-11-01 17:17:00 · 1965 阅读 · 0 评论 -
CDH启用Kerberos导致hdfs,yarn等页面无法访问解决
CDH启用Kerberos,导致namenode和resourcemanager等页面无法访问,访问页面的时候报错Problem accessing /cluster. Reason解决方案: 将hdfs/yarn的配置中这个勾选去掉,重启服务即可...原创 2019-10-31 13:39:17 · 2922 阅读 · 0 评论 -
CDH 6成功启动spark-thrift服务(CDH 6.2.0)
因为CDH自身集成的spark不包含thrift服务,因公司业务需求,需在集成了Kerberos&LDAP的CDH集群中启用spark-thrift服务吐槽一句,百度出来的都是没用的,还是翻墙找到解决方案的1. 下载spark 安装包,并解压wget https://www-eu.apache.org/dist/spark/spark-2.4.4/spark-2.4.4...原创 2019-10-24 19:24:45 · 3741 阅读 · 23 评论 -
superset超详细安装文档+安装过程中报错解决+30s查询时间限制解决
系统自带的是python2.7,此次安装的python环境是python3.6,所以会用到Anaconda此博客参考了https://blog.youkuaiyun.com/Alongpo/article/details/893168271.安装anaconda (Anaconda3-4.4.0-Linux-x86_64.sh) 下载地址 https://mirrors.tuna.tsin...原创 2019-06-25 11:02:10 · 3599 阅读 · 2 评论 -
zookeeper安装
见连接https://note.youdao.com/ynoteshare1/index.html?id=5670dd2469e1c12a0b89d86ee3c98b2c&type=note转载 2019-07-09 11:32:43 · 177 阅读 · 0 评论 -
Hadoop namenode启动之后datanode启动不了
在将非HA的namenode转为 HA的配置过程中执行格式语句,启动的时候发现namenode起了,datanode没启动hadoop namenode -formatsbin/start-dfs.sh1. 查看日志 hadoop/logs下一般是由于namenode和datanode的clusterID不相同2.解决方法第一种 (在没有重要数据的情况下) ...原创 2019-07-16 10:41:32 · 770 阅读 · 1 评论 -
Hue权限管理实操
1. 收回某个user的rolerevoke role role_name from user user_name;2.收回某个role的某张表的权限revoke select on table table_name from role role_name;3.查看user下的roleshow role grant user user_name;4,创建视图,创建ro...原创 2019-07-17 10:43:44 · 791 阅读 · 1 评论 -
Imply方式安装0.15.0版本Druid和实例(hdfs2druid)分享
删除druid中的数据可参考https://blog.youkuaiyun.com/qq_34864753/article/details/1028613221. 下载imply ,解压https://imply.io/get-startedtar -xzf imply-3.0.12.tar.gzimpy quickstart链接地址(供参考)https://docs.imply.i...原创 2019-08-26 17:19:26 · 1155 阅读 · 6 评论 -
Apache Druid(0.15.0版本)数据迁移/数据保留规则实际使用指南(更新中)
1. 数据迁移(两个Druid集群间数据迁移) 参考https://blog.youkuaiyun.com/u012164361/article/details/87881926 1.1拷贝老集群segments到新集群指定目录下(由于公司有oss,我这边就用oss做了中间存储,老Druid集群 HDFS Deep Storage目录下数据--->OSS--->新hdfs集群...原创 2019-09-05 11:33:02 · 1879 阅读 · 0 评论 -
CDH以及原生态HUE下载条数限制修改(默认10w行)
1.CDH版需要到CDH的Cloudera Manager中进入HUE配置hue_safety_valve.ini 的 Hue 服务高级配置代码段(安全阀)配置项然后加入[beeswax]download_row_limit=500就可以限制下载条数到500条了,设置成-1则不对下载条数限制。回到CDH界面会提示过期配置需要重启,然后重启即可生效2. 原生态版本然后重...原创 2019-10-10 11:38:40 · 1238 阅读 · 0 评论 -
hive 问题总结
1.org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Exception thrown when executing queryFAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: MetaExc...原创 2019-07-02 16:56:32 · 4561 阅读 · 0 评论