自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

前方的路在刚开始

头像是一个暗恋我的女生

  • 博客(653)
  • 资源 (1)
  • 收藏
  • 关注

原创 python 通过 Flask 实现 接口demo

教育的力量大于天赋的力量。The power of education is greater than the power of genius. -------伏尔泰目录准备条件windows版 无参请求 有参get请求Linux版(这里用的CentOS)后台运行准备条件1.肯定你得先有python2.然后你得有flask (没...

2020-01-07 18:38:12 2048 1

原创 电商项目框架选择

接下来,我就要用生动形象的语言以及苍白无力的技术给大家描述一下京东官网的 制作。先来个自我介绍,我是一位在京东工作了3年的java程序员。毕业于麻省理工大学计算机系。不说出来你可能觉得我不流弊,可能不会看我的博客。接下来给大家讲讲,我是怎么写京东的。 首先要知道,我做的是什么,电商平台,电商平台会遇到的问题,访问量超级大,需要高并发,高可用的特性。为了解决这个问题,...

2019-06-16 18:56:16 1881 4

原创 火山dts迁移工具使用

登录后选择生态工具。(数据库传输服务DTS)选择专有网络(一般上云到火山都是专有网络)(他们产研有bug,先选对象会导致失败)【先选】结构迁移,全量,这些。然后确认订单迁移就行。注意数据库权限,要求。预检查,没问题就忽视。

2025-03-28 16:31:17 131

原创 软件行业怎么跟上风口

又免费又好用,你会不用吗?但是他发的每次都是只是论文,所以大家都是按照他的开发。不管是大数据,还是Ai大模型的transform架构。google就是风口。这家公司领先行业至少10年。所以多看google论文吧。

2025-03-04 13:48:04 101

原创 假设你是领导人,外包公司,如何降低成本,增加收入?

2、面试,先考各种证书,与各个公司合作,在程序员驻场的时候,就让销售去谈单。面试上了,就用以个人的理由,换专业的人来接手,收尾。一个主项目,另外就是其他问题单,例如扩容协助解决下。我们是一个项目一个人,我们怎么做到盈利的,总所周知,外包项目薄利,拿不到单就只能裁人。1、住宿,外包项目住宿驻场的报销是一个大开支,薄利多销的情况下,如果搞不定那是赔钱的。这对我们程序员不好的就是,没有一个完整项目,为了公司的首款,而放弃自己的完整经验能力。租房一般有那种中介,隔断房,或者公寓,这种我们最多报销一下被子。

2025-03-03 11:48:54 120

原创 迁移过程中,hive元数据字段校对

有时候在迁移过程中,源端字段可能被修改了,这些都存储在元数据库里,通常我们一般配置的hive元数据库都是mysql。所以我们最快的速度查出结果,就是在mysql里查。然后对比2端表的md5就可以找到哪个表有问题了,再针对这下表结构有问题的,进行修改字段。首先连接hive3.0版本的mysql。

2025-02-28 18:18:12 281

原创 hivePB级迁移方案

2、distcp -i -skipcrccheck 源端到目标端,迁移。8、任务校验,客户跑完任务后,校验指定分区的count数和内容的md5。3、元数据迁移,建表,替换location地址,或者导出db。1、评估磁盘空间大小、调整副本数、设置heapsize大小。9、任务改造,如果md5不一样,说明此表需要做任务改造。7、根据ditcp不对的,进行补数脚本,删分区,重拉。6、校验历史分区脚本,表结构,大小,文件数。11、校验成功后,切任务,跑当天的数据。5、配置增量T-1迁移或者T-2。

2025-02-27 09:45:55 331

原创 hive迁移补数脚本细粒度 表名-分区唯一键

假设我通过对数脚本发现,这些表对不上。假设检测出来是这样的(这些表存在于源端,但不存在目标端)我们需要从源端迁移过去。

2025-02-20 11:34:09 560 1

原创 为什么要搭建集群?

新的版本已经出来了,你想升级,但是你也没有多余的机器,于是你取消了一台机器,然后把他安装起来,一台一台的跑过去,校验后没问题,然后瞬间切换业务,在把剩下的集群下掉。当你的计算资源不够,你刚好从网吧搞了些二手的辣鸡机器,你想把他扩展进去,提高计算能力,集群也可以不停机,动态扩展。有了集群,我可以停止一台集群,然后给他加上资源,在恢复他,然后一台一台的停止。你发现这个版本的集群的参数没有优化,那你修改完参数后,要一台一台重启生效,才不影响业务。我以前的认知是因为,集群可以防止,当单台挂掉,他还能提供服务。

2025-02-17 17:41:35 200

原创 hive全量迁移脚本

input_table.txt要保证,里面是一个个表名,并且他们都在同一个hdfs库的目录下。

2025-02-17 16:02:54 356

原创 防火墙过滤漏洞问题

centos7,很多情况下,修复漏洞很麻烦。比如集群内部全部端口访问, 但是不让集群外部的访问,只让集群外部的访问几个端口。

2025-02-13 18:40:47 133

原创 Hive增量迁移方案与实操PB级

客户一共1PB数据,每天新增10T,有些表只保留3天。

2025-02-13 18:06:48 409

原创 HDFS核对迁移的历史数据是否正确

分区数量、最近分区、最老分区、表文件数量、表文件大小、表字段是否一样、统计日期。

2025-02-12 15:13:51 441

原创 增量hdfs数据追平

1、假设客户只改了最近的分区。他不会去修改历史的分区表,如果大量改历史的分区表,那纯纯把hive当mysql用了。这样我们就只能找出变动的表,然后删除,重新迁移。2、此处是确保他们不会大量改历史分区,只有少部分改(删除,重新迁移),但是他们会改最近分区,我们不能确保他的任务迁移过程中,修改了数据。所以这里我们删除的是最新分区的数据,然后在进行对表update(这样也可以把新增的表迁移过来)。

2025-02-10 15:00:42 209

原创 设置keytab票据的过期时间

设置过期时间,注意不能设置过去的时间。然后找到你要修改的票据。首先进入kdc的服务。

2025-02-10 10:39:18 106

原创 hdfs和hive数据迁移后校验脚本

先谈论校验方法,本人腾讯云大数据工程师。

2025-01-23 14:43:32 905

原创 hdfs distcp迁移发现越来越慢,heap内存不够

当我迁移了490T数据的时候,平时每天可以迁移35T的(24小时),这次通过yarnapp-list一看。于是修改hadoop-env.sh的NNHeap,改成了64G,再重启hdfs发现就很快了。数据越来越大,但是hdfs默认的nnheap默认是4G(hadoop3)。然后jmap-heappid。发现内存占用基本满了,他默认只有4G。后面通过jps,找到namenode的pid。持续了23小时,但是只迁移了百分之30。怀疑是nnheap满了。

2025-01-17 17:36:27 92

原创 hadoop常用命令

hdfs dfs -ls hdfs://ip地址:端口号/(查看指定集群的目录,需要有相关访问权限--如互信,如票据)yarn application -kill {application_Id}(id可以通过-list看到)查看提交到资源调度器的任务(任何用yarn资源的都可以看,比如spark、tez、mapreduce)(-s是返回合并所有文件后结果,-h是自动转换为可见的单位,不加-h返回的是字节数)hdfs dfs -ls /(查看本集群的目录)hdfs dfs -du -s -h /目录。

2025-01-17 09:44:42 713

原创 hadoop3.3和hive4.0安装——单节点

log4j:WARN No appenders could be found for logger (org.apache.hadoop.mapreduce.v2.app.MRAppMaster).lohadoop3.3x和hive4.0安装部署为什么我要安装hive4.0,因为阿里云镜像只有hive4.0软件相互兼容性版本系统centos7uname -a如果内核3.0以上可以用安装jdk1.8以上的版本(配置好环境变量)hadoop3.3.x与hive4.0.x1.请自行安装java2.关闭防火墙。

2025-01-15 18:33:31 644

原创 hive迁移后修复分区慢,怎么办?

二级分区:altertableXXaddpartition(etl_yn=2024,etl_mn=01);使用hive自带的修复分区命令(一般修复分区比迁移时间长一点),可能要花24小时。我有个30TB的分区表,客户给的带宽只有600MB,按照150%的耗时来算,大概要迁移17小时。改用addpartition后,1000个分区的表,10min内。Hive增量迁移:创建表结构+数据迁移(distcp)+修复分区。例如之前修复一个1000个分区的表,需要8h。上面是他的方案,我实战测试下。

2025-01-14 18:16:49 827

原创 未来行业,创业方向

教育,有人不要孩子,有人要孩子,从基因上来看,你生了孩子,你就会去爱他,想他好,花钱让他接受更好的教育。很多大学生毕业找不到工作,企业少了,人多了,竞争压力大了,很多二本都学不到什么(学术和工业脱轨),还有大专和职高。娱乐,普通人,一个月3000,未来没有什么可以想的,或者毕业后没有工作,或者有钱人没有什么事干,这部分就会催生出娱乐。电视,游戏,运动,旅游。长生,大多数普通人,因为经济原因,不能生孩子,导致老龄化严重,上一辈赚到钱的,总有一天会挂,剩下的就是投身于看病了,比如陪诊、养老、海外医疗。

2025-01-14 11:29:53 296

原创 HDFS迁移distcp,源端数据新增,致迁移失败处理

在某些情况下,比如数据已知是正确的,或者你确定不需要CRC检查的精确性,你可能想要跳过这个步骤以加快读取速度。默认他会进行CRC校验,如果此时出现了数据新增,那么迁移一定会失败,在业务没有割接前,我们通常只是迁移历史数据,所以不需要校验,那就得加上-skipcrccheck。distcp -skipcrccheck hdfs://xxxx源端 hdfs://xxx目标端。这样他就不会去对比源端是否在迁移过程中变更,等业务交接完,停止源端,再迁移增量数据即可。在Hadoop的HDFS(分布式文件系统)中,

2025-01-14 09:41:16 480

原创 大数据组件常用端口(hdfs端口、hive端口、yarn端口)

记得改完要重启对应的服务1、不要记端口用多了自然习惯了为什么?因为端口没意义,只是映射一个地址而已,每套环境都可能有区别,比如CDH的8088,hadoop3的50070,腾讯的TBDS,华为,这些都不一样。2、怎么去查端口?查hdfs-site.xml文件,hdfs-site.xml里面的dfs.namenode(有一个地址,,这个就是web界面的地址,方便大家页面看hdfs的信息)查core-site.xml修改namenode的端口号查yarn-site.xml。

2025-01-13 18:13:48 335

原创 Hive迁移,小表(10G以下的),分区快速修复批量脚本

这里就要修复分区了,如果是大表,几十T这种,迁移可能花了24小时,那么你修复分区也可能花这么久,这种表就得手动分区比较快。hive迁移要迁移元数据(mysql),要迁移实际数据hdfs,迁移完后如果有分区,通常是不能访问的。建议第一次,先在下面的table.txt,提供几张小表,测试下,然后没问题,在一次性丢几千张表进去。大表就只有那么多张,其他大部分都是小表,比如我这个小表有2000张。成功,之后自己beeline去hive里面查下就行了。用法,准备一个含所有表名的txt。

2025-01-13 17:42:50 498

原创 hdfs迁移,distcp表不存在,检查脚本

有时候用distcp迁移,客户给了一个待迁移的表,但是里面有临时表,或者客户给的是旧表,实际并不存在,就会导致迁移失败。这里是一个检查脚本,可区分出哪些表不存在,哪些表存在,然后迁移存在的表。然后会生成2个文件,存在的.txt和 不存在的.txt。hdfs需要检查的表的路径.txt。

2025-01-13 11:51:35 229

原创 Kafka性能测试

kafka是一个大数据消息队列(可以看做为缓存软件):能够读写数据:1、测试生产者每秒往kafka写入的最大吞吐量 2、测试消费者每秒从kafka里获取消息最大吞吐量。

2025-01-08 17:44:18 1248

原创 hdfs查看纠删码

有2个地方可以看,一个是namenode界面,一个是后台。2、hdfs namenode界面。纠删码可以节省存储空间。

2025-01-08 14:40:44 230

原创 kafka查看topic是否成功创建命令

首先进入到kafka服务的bin目录下,指定kafka的zookeeper地址,需要端口(kafka依赖它)然后就能从打印的日志中看到了。

2025-01-08 10:20:50 102

原创 hive数据迁移

bandwidth100-m100代表每个map传送的宽带是每秒100mb,-m指的是启动100个map。同步方式很多,导出sql,用工具navicat,同步脚本。hive有2种表方式,磁盘和关系型数据库,一般我们都是用mysql,2者操作一样。hive有2种存储方式,存磁盘或者hdfs,2者操作一样,磁盘就scp过去。然后进入迁移后的表,迁移数据后,进入hive在将这个建表sql建立一下。,那么需要在迁移后的表,迁移数据后,进行分区修复。如果迁移失败,导致没有元数据,那么需要重新建表。

2025-01-07 18:47:05 1144

原创 兄弟们不是我最近不写博客了

而是因为,在这个公司太tm忙了,也学不到什么新知识,做的是交付的东西,部署,运维。感觉什么也学不到啊。

2025-01-03 19:00:24 92

原创 kyuubi连接hive或者spark,高可用方式

beeline -u "jdbc:hive2://xxxx:kyubi端口号/数据库名;kyuubi.engine.type=HIVE_SQL" -n "名字" -p。kinit -kt xxx.keytab xxx名字。kinit -kt xxx.keytab xxx名字。有2种,kerbers票据和ldap。

2024-12-26 18:58:44 432

原创 个人接入支付宝sdk接口全流程

有时候你可能想卖某个商品,你写了个自动化程序,别人付款了,就会自动把商品给他,那你怎么知道他付款了呢?你需要一个通知,再比如,你有一个线下场所,你是个大老板,坐在办公室,前台在收款,你想听到悦耳短信收入消息,再或许你想分析用户付款情况,用作生意上的决策。这些在代码上都很简单实现,问题是,你怎么能获取到你的收入信息?OK,支付宝已提供回调接口,别人付款成功,支付宝就把相关信息,请求到你自己的代码接口中。你需要申请一个开通一个线下的二维码,过程比较简单,审核也快(10分钟内)。

2024-12-19 10:58:39 314

原创 Hive执行命令报错Permission denied: user [xxx] does not have [USE] privilege on [Unknown resource!!

存在ranger策略的条件下,通过beeline连接后,执行showdatabase报错。勾选这个Policy Name旁边的normal。在ranger中加入相关策略。(这个在本文无参考价值)

2024-12-18 11:50:30 425

原创 大数据之kerbers认证

kerbers认证,他需要一个票据,要连接kdc服务器。连接后,你就可以访问对应的服务,比如hdfs、或者hive等。

2024-12-13 11:37:33 209

原创 累,源自于什么

今天很累,没有睡午觉,看着办公电脑右下角的时间,15:05,距离下班还有4个小时,我已然无事可做,等待着客户提出问题,以及新机器的到来,在下周。不能玩手机的我,不能看小说的我,不能做非公司事情的我,无事可做。坐在电脑前,思绪已经飞走。累,仿佛小时候在上英语课一样,句句听不懂,课文句句看不懂,没有思绪,累,想闭上眼睡一觉,这都是奢侈。时间滴答滴答的过去,太慢了。虚无缥缈的累,无事可做的累,强行集中精神但又无事可做的矛盾。

2024-12-06 15:09:41 132

原创 k8s入门(不教部署,部署跟着文档来就行了)

k8s全称他是干啥的,自己去网上查。文章目的是快速上手。控制它的客户端命令叫做kubectl如果你是运维或者半个运维(大数据),下面的命令需要背下来。

2024-11-20 17:26:45 699 1

原创 Caused by :kudu.client.RecoverableException:Service unavailable:Time out:cou

在用cdh的kudu-backup迁移备份的时候出现这个错。

2024-10-31 14:11:21 293

原创 linux常用命令

权限有10个drwxrwxrwx,如果第一个是d,代表他是文件夹,否则是文件,第一个套rwx代表的是所属用户对他的读写执行权限。find (查找文件,find /查找范围 -name '*文件名' 通配符* 将查找的内容,全部copy过来,find / -name '*xxx*' -exec {} copy xxx目录 \;sed -i "s/替换前内容/替换后内容/g" 文件名 (s代表start开始,g代表global替换全局,否则会替换第一个,-i表示直接在原文中修改,建议。

2024-10-29 17:39:46 270

原创 离线挂载yum源

这种方法不需要httpd等资源服务器。需要在所在的节点上有yum的iso镜像。有多台机器,可以分发过去。如果有多余的软件包,你就上传到update_rpm下。创建文件夹,文件夹要与上面的配置做映射。yum install wget成功。1.创建本地local。

2024-10-29 10:17:04 301

原创 linux替换某个文件的某段内容命令

里面的库是abc,我想把这个abc给替换掉,改成hahaha。echo "正在处理文件: $file"# 查找所有包含 "abc" 的文件并执行替换。如果想写个脚本指定整个文件夹中的内容替换。echo "请提供文件夹路径"# 检查是否提供了文件夹路径。echo "替换完成"假设文件是a.sql。

2024-10-21 15:10:43 710

Amp it up 阮一峰推荐的

Amp it up 阮一峰推荐的

2023-06-08

everything-1.4,windows版

官方版,超快检索,绿色,解压即用

2022-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除