- 博客(51)
- 收藏
- 关注

转载 转:一位资深程序员大牛给予Java初学者的学习路线建议
Java学习这一部分其实也算是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了,直接来谈每个阶段要学习的内容甚至是一些书籍。这一部分的内容,同样适用于一些希望转行到Java的同学。 在大家看之前,我要先声明两点。1、由于我本人是Java后端开发出身,因此所推荐的学习内容是Java W
2018-01-28 19:50:59
246
原创 解决Hadoop审计日志hdfs-audit.log过大的问题
新搭建的Hadoop环境没怎么用,就一个环境天天空跑,结果今天运维告诉我说有一台服务器磁盘超过80%了,真是太奇怪了,平台上就跑了几个spark测试程序,哪来的数据呢?终于发现在Hadoop的日志目录下,有一堆hdfs-audit.log日志,并且每个都有好几百M,删除之后,跟目录瞬间从81%减低到了42%;过了几天后,再检查服务器,发现磁盘根目录使用率没有明显增大,问题完美解决了~问题是暂时解决了,可这样不是长久之计,审计日志还在写,过几天还得来删除。用df查看,是根目录,还不是数据盘;
2023-08-02 18:25:13
3093
1
原创 解决一个Yarn异常:Alerts for Timeline service 2.0 Reader
环境是用Ambari搭建的大数据环境,版本是2.7.3,Hdp是3.1.0;我们用这一套组件搭建了好几个环境,都有这个异常告警,但hive、spark都运行正常,可以正常使用,所以也一直没有去费时间解决这个告警问题。
2023-08-02 18:12:24
1282
2
原创 解决一个Sqoop抽数慢的问题,yarn的ATSv2嵌入式HBASE崩溃引起
新搭建的一个Hadoop环境,用Sqoop批量抽数的时候发现特别慢,我们正常情况下是一个表一分钟左右,批量抽十几个表,也就是10分钟的样子,结果发现用了2个小时:查看yarn日志发现有如下情况:主要有两个情况:经网上查询得知,这个是因为,需要重置HBASE数据库步骤如下。
2023-08-02 17:54:46
2326
原创 苹果手机没法访问Fildder代理服务怎么办
Fildder4--Tools--Options--HTTPS--Actions--"Reset All Certifcates" 或 在windows证书管理中挨个找到DO_NOT_TRUST_FiddlerRoot并删除。重启fildder后,手机就可以下载证书了, 下载后手机提示要在设置APP的描述文件那里信任证书,浏览器访问http://ip:port后无响应,白屏,或有“无法使用跳转网络”的提示。设置-通用-VPN与设备管理-DO_NOT_TRUST_FiddlerRoot,
2023-07-02 20:00:20
1501
原创 国产自研开源大数据管理平台DataSophon
上面是贴的官方的介绍文案,从支持的组件来看,的确非常全面,可以说部署大数据集群,只要这一个平台就够了。同类型的平台,CDH被Ambari收购了,HDP不给下载了,要想使用CDH或者HDP只能去下载之前别人保存的安装包,Ambari公司把CDH跟HDP合并一下,又搞出一个收费版本CDP来,DataSophon出来的可以说是正当其时。官网:https://datasophon.github.io/datasophon-website/
2023-07-02 01:23:55
4094
3
原创 用4c8g单机ClickHouse完美解决亿级数据量企业画像查询毫秒级响应
ClickHouse是一个开源免费的,面向列的MPP架构数据分析数据库(大规模并行处理),由俄罗斯Yandex为OLAP和大数据用例创建。打开页面第一次查询,会慢一些,大概在2s以内,其它的查询基本上在200ms以内,虽然首次查询慢了一些,但满足合同需求,问题不大。用下来整体感觉还是很惊艳的,因为单机扛住了亿级数据量的查询。
2023-07-02 01:18:45
1165
原创 Flink CDC、OGG、Debezium等基于日志开源CDC方案对比
CDC 的全称是,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC。我们目前通常描述的CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术。
2023-06-17 01:11:04
6233
原创 任务调度器-DolphinScheduler调优-并发设置
这是两个非常有用的参数,通过控制并发的任务和流程,从而控制同一时间需要的资源,避免任务一下全部拉起来,导致资源耗尽使进程退出;设置了并发后,等于是把资源使用的峰值给抹平了,master-server和worker-server没有再出现进程退出和内存分配失败的异常。
2023-06-01 22:43:00
2468
原创 任务调度器-DolphinScheduler配置告警
调度器必不可少的就是任务失败告警,前面已经安装好了DolphinScheduler,今天在海豚上配置一下告警试试,海豚支持短信告警、邮件告警等等,告警类型非常丰富,因为工作上用到邮件和钉钉进行沟通交流,所以今天试试邮件告警以及钉钉告警配置。
2023-06-01 22:21:48
6286
2
原创 任务调度器-DolphinScheduler3集群安装
dolphinscheduler-master master模块,提供工作流管理和编排服务。dolphinscheduler-worker worker模块,提供任务执行管理服务。dolphinscheduler-alert 告警模块,提供 AlertServer 服务。dolphinscheduler-api web应用模块,提供 ApiServer 服务。
2023-05-23 22:13:51
649
原创 Python爬虫-使用Scrapy框架爬取某网站热点新闻排行并保存数据库
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。
2023-05-19 22:18:44
2257
7
原创 Python爬虫-使用PlayWright模拟百度登录
Playwright是2021年微软开源的一个项目「playwright-python」。针对 Python 语言的纯自动化工具,它可以通过单个API自动执行 Chromium,Firefox 和 WebKit 浏览器,同时支持以无头模式、有头模式运行。并且最牛的功能是可以通过录制自动生成代码,就是打开录制功能后,用鼠标在页面上操作,它可以根据你的操作生成相应的代码,而且这个代码可直接运行。下面我就来试试这个牛逼克拉斯的功能。
2023-05-19 21:40:10
1805
原创 ClickHouse离线集群安装与使用
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。是现在比较火的一个大数据分析组件,可用于报表底层数据、实时数据库等场景。
2023-05-15 00:43:39
1347
3
原创 ES的可视化工具-Kibana的安装和使用
Kibana 是为 Elasticsearch设计的开源分析和可视化平台。你可以使用 Kibana 来搜索,查看存储在 Elasticsearch 索引中的数据并与之交互。你可以很容易实现高级的数据分析和可视化,以图表的形式展现出来。下面是Kibana的安装步骤,控制台可以非常方便的来调用es的api,强烈推荐使用!
2023-05-14 18:00:15
2114
1
原创 缓存架构的读写顺序
常见的缓荐架构如上,写操作的顺序是(1)淘汰cache (2)写数据库读操作的顺序是(1)读cache,如果cache hit则返回 (2)如果cache miss,则读从库 (3)读从库后将数据放回cache
2023-05-14 17:47:54
118
原创 数据标准的“六性”
规范性:数据内容、命名、格式、取值等规范统一。如时间信息都以yyyy-mm-dd格式存储,或者“性别”属性中,应使用“M”、“F”表示,还是用“1”,“0”表示,还是用“男”、“女”表示。 完整性:数据完整、没有缺失(包括看得见的缺失和看不见的缺失)。如人员信息完整涵盖性别、年龄等,或者身份证号码不能为空。 唯一性:同源或跨源的数据在信息含义上是一致不冲突的。如同一个人的性别都是一致的。 一致性:记录和字段都没有重复。如同一个ID没有重复记录。 准确性:数据内容及其含义是正确的。例如年龄在合理范
2023-05-14 17:40:45
2649
原创 Kettle中调用API接口时,URL中中文乱码的解决办法
region=" + encodeURIComponent(广东)var url = "http://xxx.xxx.xxx.xxx:8080/getdata?region=广东"
2023-05-14 17:35:46
559
原创 数据仓库、数据湖、数据中台、数据中台的概念区别
传统数据仓库,第一次明确了数据分析的应用场景应该用单独的解决方案去实现,不再依赖于业务的数据库。在模型设计上,提出了数据仓库模型设计的方法论,为后来数据分析的大规模应用奠定了基础。 大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台 数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。 数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用
2023-05-14 11:59:49
170
原创 使用Flink MySQL cdc分别sink到ES、Kafka、Hudi
进入hudi目录,修改hudi/pom.xml,修改对应组件的版本,由于flink使用的是scala-2.11版本,spark3.x版本以上默认使用scala-2.12预编译,为了节省时间,我们在此使用spark2.4.8以scala-2.11预编译的版本,对应的hadoop版本为2.7。- 修改hadoop-2.7.3/etc/hadoop/hdfs-site.xml,如果目录不存在,给创建上。- 修改hadoop-2.7.3/etc/hadoop/mapred-site.xml。
2023-05-14 11:53:04
1846
原创 服务器配置选择以及带宽配置选择
每个页面20k字节*100万个页面/1024=19531M字节=19G字节,19531M/9.6小时=2034M/小时=578K字节/s,如果请求是均匀分布的,需要5M(640K字节)带宽(5Mb=640KB 注意大小写,b是位,B是字节,差了8倍),但所有请求不可能是均匀分布的,当有高峰时5M带宽一定不够,X2倍就是10M带宽。表示一天中有80%的请求发生在一天的40%的时间内。24小时的40%是9.6小时,有80%的请求发生一天的9.6个小时当中(很适合互联网的应用,白天请求多,晚上请求少)。
2023-05-14 11:22:05
467
转载 关于 Apache Doris 和 DorisDB、StarRocks 的关系
2013 年,我们把 Doris 进行了 MPP 框架的升级,并将新系统命名为 Palo ,2017 年我们以百度 Palo 的名字在 GitHub 上进行了开源,2018 年贡献给 Apache 基金会时,由于与国外数据库厂商重名,因此选择用回最初的名字,这就是 Apache Doris 的由来。从 2021 年下半年开始,我们就在努力地筹备 Apache Doris 毕业的事宜,横在我们面前的阻碍,其中最重要的事情之一就是 DorisDB 对 Apache Doris 的品牌侵权问题。
2023-05-14 11:19:13
10829
原创 ES报错FORBIDDEN/12/index read-only / allow delete (api)的解决办法
错误:blocked by: [FORBIDDEN/12/index read-only / allow delete (api)];
2023-05-14 11:01:39
808
原创 ElasticSearch的常用API接口
查看集群状态:http://xxx.xxx.xxx.xxx:19200/_cat/health?v 统计集群信息:http://xxx.xxx.xxx.xxx:19200/_cluster/stats?human&pretty 查看节点状态:http://xxx.xxx.xxx.xxx:19200/_cat/nodes?v 统计节点:http://xxx.xxx.xxx.xxx:19200/_nodes/stats 索引监控:http://xxx.xxx.xxx.xxx:19200/_cat
2023-05-14 10:59:28
392
原创 Spark插入hive表动态分区提示分区数不能大于1000的解决办法
移动要在参数前面加上spark.hadoop,不然不起作用。1.hive分区数不能大于1000。
2023-05-14 10:56:13
856
原创 HBase的RowKey设计原则
HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于scan。然而糟糕的rowkey设计是热点的源头。热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作)。大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个RegionServer上的其他region,由于主机无法服务其他region的请求。
2023-05-14 10:50:45
1053
原创 设置Mysql密码有效期
按这样设置了密码有效期后,3个月就得改一次密码,是不是很繁琐,有一些账号没有必要频繁的修改密码,那该怎么办呢?这个配置是以天为单位,这里是90天,3个月过期;用户特定策略:禁用密码过期。那就设置密码永不过期吧~
2023-05-14 09:04:34
4034
原创 设置Mysql密码复杂度
这一行的意思是数据库重启的时候自动加载密码复杂度插件,不配置的话,一般没问题,但遇到数据库迁移的话,可能会启动数据库失败,为保险起见,还是加上这一行。密码负责度策略,这里设置为1,中复杂度。开启密码复杂度验证插件。
2023-05-14 08:59:32
2726
原创 Mysql安装后如何查询默认密码
Mysql安装后,会自动给root用户生成一个默认密码,一般安装过程中会有提示,但如果安装过程中没注意,那安装后就没法用root登录了。如果是其它用户安装的,需要把/root替换成其它用户的home目录,比如oper用户,默认的home目录就是/home/oper/
2023-05-14 08:41:04
2175
原创 Java中触发主GC条件
由于是否进行主GC由JVM根据系统环境决定,而系统环境在不断的变化当中,所以主GC的运行具有不确定性,无法预计它何时必然出现,但可以确定的是对一个长期运行的应用来说,其主GC是反复进行的。
2023-05-13 18:19:45
936
原创 Oracle12c的启停顺序和命令
4、$lsnrctl reload 重启监听器,此命令可以代替lsnrctl stop,lsnrctl start。2、$lsnrctl start [listener-name] 启动所有的监听器,可以指定名字来启动特定的监听器。3、$lsnrctl stop [listener-name] 关闭所有的监听器,可以指定名字来关闭特定的监听器。5、lsnrctl hep 可以显示所有可用的监听器命令。1、$lsnrctl status:检查当前监听器的状态。
2023-05-13 18:14:00
999
原创 安装使用Oracle中出现的一些问题
2.关闭数据库重启时出现:Specified value of MEMORY_TARGET is too small, needs to be at least 1536M。修改pfile中的MEMORY_TARGET为1536M。停止数据库,从pfile创建spfile。使用spfile启动:startup。用pfile启动,成功。
2023-05-13 18:10:56
441
原创 Oracle 12c安装
安装必须的安装包:结果如下: 安装不成功的再使用yum install xxx来安装,安装后如下: 修改操作系统参数:使用如下命令生效:修改文件句柄数配置vim /etc/security/limits.conf加入如下值配置swap分区,由于我的默认有3G,所以暂不做处理。创建用户组和密码:设置许可, /etc/selinux/config关闭防火墙创建目录,授权在root用户下执行:在Oracle用户下执行:执行安装程序:等待一会儿,弹出安装界
2023-05-13 18:08:23
1776
原创 常用的intellij的快捷键
选中文本,按Ctrl+Shift+F7 ,高亮显示所有该文本,按Esc高亮消失。ctrl+shift+enter(智能完善代码 如 if())ctrl+shift+backspace(最后编辑的地方)ctrl+shift+up/down(移动行、合并选中行)ctrl+shift+space(new 后面自动提示)ctrl+alt+t(自动生成try,catch)ctrl+shift+i(快速查看实现)alt+shift+c(最近变更历史)ctrl+shift+/ (注释)ctrl+shift+v(粘贴)
2023-05-13 17:40:55
771
spark原理示意图.rar
2023-05-14
HBase用户手册-v2.2.docx
2023-05-14
Hive使用手册Hive使用手册
2023-05-14
spark原理示意图,执行计划,shuffle,架构,检查点,缓存,广播
2023-05-05
ChatGPT研究框架2023
2023-03-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人