
大数据
文章平均质量分 65
冰帆<
这个作者很懒,什么都没留下…
展开
-
分享构建属于自己的数字图书馆历程
起初为了方便获取书籍资源和方便的云同步,笔者选择了在用户体验和出版物数量上首屈一指的微信读书 APP,本人也贡献了至少5年的年费。但随着学习的深入,微信读书内的书籍逐渐无法满足我的阅读需要(尤其是外文图书的缺失),更致命的是,微信读书会在部分书籍的版权到期后选择下架书籍,就算已下载到设备里的书,也会随之消失,包括所有的批注和笔记。本文将为读者分享笔者最近半年来为实现阅读自由而构建的解决方案,希望能帮助书友们构建自己的数字图书馆。原创 2023-09-30 20:25:26 · 1973 阅读 · 0 评论 -
继续深挖挖矿病毒solr中毒途径
今天突然通过grafana 集群的网卡流量异常,查看hadoop集群有dr.who用户执行yarn 任务。原创 2023-02-23 11:37:28 · 620 阅读 · 0 评论 -
清除挖矿病毒solr记录
solr病毒cpu占用100%,导致node节点挂掉,正常情况下,一般node节点不会挂掉,进入节点,发现果然node挂掉。原创 2023-02-20 10:17:55 · 1620 阅读 · 2 评论 -
hivesql失败告警发送到企业微信
离线数仓一般情况下都是通过写hive sql方式,利用调度系统再hive sql脚本,进行数仓分层,而调度系统是针对任务粒度的,而且一般都不支持发送到企业微信,针对这一痛点,本文利用hivehook 监听hive sql,将hive sql 的错误信息发送到kafka,另外python 程序实时kafka的数据,并发送到企业微信。流程图如下:Hook是一种在处理过程中拦截事件,消息或函数调用的机制。Hive hooks是绑定到了Hive内部的工作机制,提供了使用hive扩展和集成外部功能的能力。原创 2022-12-21 18:08:19 · 343 阅读 · 0 评论 -
使用clickhouse kafka表引擎消费kafka写入clickhouse
本文使用seatunnel 消费kafka数据写入clickhouse文章的kafka topic,用另一种方式写入clickhouse,也是练习下clickhouse kafka引擎。本文也默认已安装了kafka与clickhouse,这方面的安装文档很多,这里不做详述;前提准备 kafka :2.7.0;通过filebeat 写入kafka一、kafka数据格式使用kafka 命令查看数据格式:{},},},},"ecs": {},"host": {},"log": {原创 2022-12-15 17:50:47 · 2693 阅读 · 0 评论 -
grafana+prometheus监控tomcat项目
公司的web项目,有几个经常出现内存溢出宕机,正好搭建了prometheus和grafana,借助prometheus 插件实时监控tomcat内存情况,超过阈值告警发送到企业微信,实现自动化了解项目情况。原创 2022-11-24 11:25:18 · 1446 阅读 · 2 评论 -
获取全国统计用区划代码和城乡划分代码并写入数据库
2)如果中途失败,从mysql中读取上次写入最后一条记录处,继续开始。2、抓取过程中会经常连接失败导致。1)从第一级开始,依次抓取直到第五级,依次往复迭代,直接完成。3、失败后无法从失败处继续。看到2021年已经更新,正好拿原来的代码看看是否还能跑。3)防止多次连接导致,服务器判断为爬虫,ip禁用。那为了能顺利完成任务,需要对原有代码进行改造优化。若有需要完整代码或者mysql 导入脚本,请私我。代码测试:1、网站由原来的gbk转换为utf-8。4、python 核心代码。2、mysql 表结构。原创 2022-11-23 22:14:59 · 1702 阅读 · 8 评论 -
hadoop集群搭建教程
6台主机规划hadoop集群,安装hadoop,yarn,hbase,hue等,详细步骤,敬请审阅。原创 2022-11-23 17:57:56 · 2894 阅读 · 0 评论 -
监控RocketMQ消费数据延迟告警发送企业微信
当前安装的rocketMQ 版本:3.4.6架构:2主2从阿里云主机安装RocketMQ 集群支持外网访问本文结合实际业务场景介绍了监控rocketmq消费者组消息堆积,将RocketMQ消费者组消费数据写入mysql,并向企业微信发送告警,作为抛砖引玉,大家可以结合自己场景,修改脚本做其他业务的监控。若有疑问,可以留言咨询。原创 2022-10-24 18:03:57 · 1373 阅读 · 0 评论 -
采集日志通过logstash写入hdfs
本文是大数据架构技术架构图的一个重要分支,大数据的采集服务一般通过web接口的上报方式,web接口,1、写到kafka,2、通过log4j日志文件,两种方案各有优劣,1、直接写kafka,项目依赖比较重,需要加kafka组件,2、写log4j日志的方式,不需要引入kafka组件,实际项目中通过log4j配置每小时滚动生成日志比较多,我是目前采用方案2,实际如下图。原创 2022-10-24 17:08:35 · 1045 阅读 · 2 评论 -
superset安装使用说明
Apache Superset是一款由Python语言为主开发的开源时髦数据探索分析以及可视化的报表平台;她支持丰富的数据源,且拥有多姿多彩的可视化图表选择。官网 :https://superset.apache.org/国内支持的镜像站 :豆瓣:https://pypi.douban.com/simple/ 等开发语言:Python为主。原创 2022-10-24 14:59:31 · 2211 阅读 · 0 评论 -
阿里云主机安装RocketMQ 集群支持外网访问
背景:因公司迁移机房,需要在云主机上部署一套和本地一样的rocketMQ,原本计划直接购买云rocketMQ,云rocketMQ仅支持5.0.0,本地rocketMQ 是3.4.6,公司多个服务都使用本地的3.4.6版本的RocketMQ,所以需要再云上搭建一套简易版RocketMQ集群,并支持外网访问。准备:两台开通外网的云主机,带宽100M,16G内存,500G硬盘,两台成本1000+设置主机名,安装jdk,配置免密等等,前期的准备工作。因为是只有两台,所以规划是2m-noslave。原创 2022-10-20 11:42:51 · 1164 阅读 · 0 评论 -
grafana+prometheus监控hbase
链接:https://pan.baidu.com/s/1B2PWimrpCQ9MqOedPvXdaA?3、在grafana import hbase dashboard id:12722。在启动prometheus需要添加--web.enable-lifecycle。将文件放到Hbase 安装目录的conf 和lib下。具体有需要了解hbase其他配置的可以留言。2、prometheus添加hbase配置。1、准备工作hbase 1.2.0。即完成hbase的监控界面。原创 2022-10-20 11:06:07 · 1086 阅读 · 0 评论 -
grafana监控nginx日志
用到组件:nginx ,filebeat,logstash,elasticsearch,grafana。需要注意的是最新的dashboard需要选择7.10+的elasticsearch,保存数据源后。2、filebeat 将nginx日志发往logstash,编辑filebeat.yml。本人喜欢研究新技术,并有丰富的大数据经验,希望和各位小伙伴探讨技术。看图还是比较炫酷的,那怎么才能够展示这样的大屏,咱们一步一步拆解。4、在kibana中查看elasticsearch数据。1、nginx代理设置。原创 2022-10-20 10:21:01 · 3866 阅读 · 4 评论 -
hadoop 新增数据节点,hbase 新增regionserver 步骤
hadoop新增节点datanode,hbase 新增regionserver步骤原创 2022-07-01 00:25:04 · 1124 阅读 · 0 评论 -
大数据技术架构图
大数据技术架构图原创 2022-06-29 22:54:25 · 771 阅读 · 0 评论 -
按日期时间段补数命令
按日期时间段补数命令原创 2022-06-29 22:31:33 · 230 阅读 · 0 评论 -
xsync:集群批量同步文件命令
xsync:集群批量同步文件命令原创 2022-06-29 22:12:48 · 189 阅读 · 0 评论 -
shell 批量在远端主机上执行命令
shell 批量在远端主机上执行命令原创 2022-06-29 22:05:17 · 587 阅读 · 0 评论 -
hbase修复表不能读写的问题
hbase表修复原创 2022-06-29 21:54:56 · 603 阅读 · 0 评论 -
hbase regionserver节点下线
hbase 下架regionserver步骤原创 2022-06-29 20:56:05 · 1098 阅读 · 0 评论 -
datax 离线同步SqlServer 到Mysql
DataX 实战 sqlserver to mysql原创 2022-06-27 23:34:37 · 1959 阅读 · 0 评论 -
seatunnel 消费kafka数据写入clickhouse
seatunnel 消费kafka 数据写入clickhouse原创 2022-06-27 22:57:53 · 2637 阅读 · 0 评论