自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 数仓开发团队日常1

盛夏的阳光透过高耸的银行大楼玻璃幕墙,在大理石地面上投下斑驳的光影。李明远站在城市商业银行总行大厦前,抬头望着这座在城市金融区并不算高的建筑,却感到一种莫名的压迫感。他整了整领带,深吸一口气,迈步走进了旋转门。"北京大学计算机科学硕士,分布式系统方向,校招进入银行信息科技部。"李明远在心里默念着自己的简历要点,仿佛这样能给自己多一些信心。毕业后选择进入银行而非互联网公司,让他的许多同学感到不解。但李明远有自己的考量——金融行业的数据价值和应用前景,这是他在研究生期间逐渐形成的兴趣方向。

2025-04-05 17:26:08 450

原创 第七期:银行中台生死劫 - 监管指挥棒下的组织变形记

银保监会发布的《商业银行中台建设指引》2025版对银行中台架构提出了严格要求,包括信贷中台与互联网平台的物理隔离、数据来源标识和10年操作日志保存等规定。为适应监管要求,银行正在进行组织重构,建立三线防御体系,配备监管合规官,并实施监管AI代码扫描。各类银行需提升监管科技投资占比,国有大行须达到12%,股份制银行9%,城商行6%。银行通过自动化合规引擎、监管报送机器人等科技手段提升合规能力,但需警惕过度中台化带来的业务同质化风险,已有银行因将核心风控能力完全集中到中台而被限制新产品备案。

2025-02-07 17:07:56 397

原创 中国城商行信贷业务数仓建设白皮书(第五期:智能决策体系构建)

中国城商行信贷业务数仓建设第五期聚焦智能决策体系构建,通过多层次技术架构实现信贷业务的全流程智能化管理。核心采用"Flink+Drools"构建实时决策流引擎,支持规则热加载与CEP复杂事件处理,结合Grafana实现决策过程可视化监控。在多目标优化层面,建立收益-风险Pareto前沿模型,运用遗传算法动态平衡资本收益与风险敞口,通过Scala实现的参数调制器实现策略动态调优。监管合规方面搭建双活沙盒环境,通过Docker集群实现生产数据镜像与脱敏处理,集成EAST5.0合规校验模块,采用Jenkins流水

2025-02-07 17:01:28 675

原创 第六期:开放银行突围战 - API经济下的跨域经营合规框架

开放银行发展进入关键阶段,监管框架日益完善。人行修订版规范将API分为查询、交易和决策三个安全等级,并制定严格的认证和管控标准。在合作生态方面,银行通过车机系统预装、数据分成等创新模式开展场景金融,同时采用云网点和联合贷款方案突破属地经营限制。数据安全领域,联邦学习成为主流技术路径,通过"原始数据不出域"等三大铁律确保合规。在防御体系上,结合边缘计算、区块链和量子密钥等新技术构建纵深防线。战略规划设定API日均调用2.1亿次等具体指标,预计收获期可实现17.3亿元收益。值得注意的是,跨境数据流动必须通过特定

2025-02-06 17:28:00 529

原创 中国城商行信贷业务数仓建设白皮书(第四期:机器学习中台建设)

中国城商行信贷业务数仓建设白皮书第四期聚焦机器学习中台建设,构建了覆盖全生命周期的智能化风控体系。特征工程层面采用"三横四纵"分层架构,通过特征存储层(HBase/Redis)、计算层(批流一体引擎)和应用层(实时特征服务)实现特征全链路管理,配套元数据血缘追踪和版本控制机制。在模型部署环节,基于Hive3.0与TF Serving深度集成,构建了从Spark SQL特征加工、在线推理服务到预测结果回写的自动化管道,通过GPU加速和版本策略优化服务性能。针对数据孤岛问题,设计水平联邦学习架构,采用Paill

2025-02-06 17:21:41 680

原创 第五期:智能投顾的监管套利艺术 - 基金投顾牌照下的理财破局之道

智能投顾领域正经历关键转型期,基金投顾牌照成为突破口。在监管框架下,机构可为客户进行投资决策,采用0.5%-1.8%年费率模式,但产品池仅限136家公募基金白名单。创新模式包括结构化存款包装(货币基金+期权组合)和私募资产嵌入。风控升级方面,传统风险测评已进化为23维度行为数据分析。收益增强手段主要通过ETF套利和资金运作优化。合规要点包括双录系统部署、费用结构设计和投诉处理机制。系统架构采用两地五中心部署,确保业务连续性。值得警惕的是,产品池管理疏忽可能带来严重处罚,必须严格执行与协会白名单的每日三次校对

2025-02-05 16:09:02 726

原创 中国城商行信贷业务数仓建设白皮书(第三期:数据治理体系深度实践)

该白皮书系统性地构建了城商行信贷业务数据治理体系,以五级数据血缘图谱(业务系统源端至监管报送层)实现跨域数据溯源,通过扩展元数据属性和SADL生命周期模型(热、温、归档、法律数据分级)确保数据全链路可追踪与存储成本优化;技术层面采用Hive3.0双活架构(基于MySQL集群的Metastore服务主备部署)提升元数据可靠性,并结合动态分区策略与存储过程实现自动化维护;创新性引入区块链技术,通过Hyperledger Fabric构建审计链,运用智能合约实时记录数据变更细节并实施加密存证;安全体系深度集成国密

2025-02-05 16:03:30 1317

原创 高频面试问题解析(信贷数据场景实战方向)

检查倾斜分行的放款策略——发现某三农支行采用"整村授信"模式,产生大量5000元以下小微合同(导致Partition数据膨胀)。:不同产品线授信逻辑差异大(消费贷看C端用户征信,经营贷需对公流水+工商数据),直接合并口径会导致核心指标(如不良率)失真。:用户提前还款触发合同状态从"执行中"变更为"已结清",但T+1离线调度导致当日余额统计包含脏数据。:ADS层指标计算必须明确"业务时间"还是"处理时间",下游宽表关联错误会导致监管报表数据失真。功能,使临时Cube不参与主线任务调度,降低对生产链路影响。

2025-02-05 15:55:48 622

原创 中国城商行信贷业务数仓建设白皮书(第二期:信贷主题域建模)

本白皮书第二期围绕城商行信贷主题域建模展开,采用“AARRR+T”四维模型构建信贷数据关系网,并设计实时、分钟、小时、日终四层时效策略。核心模型包括客户360视图和押品估值模型,支持动态SQL生成及数据质量检查,实现高效、标准化监管报送。案例中还展示了智能额度测算与实时反欺诈模型,助力精细化风控和业务监控。

2025-02-03 22:55:52 1207

原创 中国城商行信贷业务数仓建设白皮书(第一期:总体规划)

本白皮书阐述了城商行信贷业务数据仓库升级方案,以应对传统系统数据处理延迟高、客户画像维度少、报表生成耗时长的痛点。方案引入Hive3.0,通过LLAP实时查询、ACID事务支持和动态分区优化等技术,实现分钟级数据可见、ETL任务失败率下降,物化视图重写减少重复计算。整体架构由数据应用层、数据服务总线、Hive3.0集群、国产存储引擎及备灾中心构成。第一期重点是制定源系统采集标准、构建三权分立的数据安全体系、部署16节点集群和规划分层存储(ods、dwd、dws、ads),同时采用冷热数据分层存储和SM4加密

2025-02-03 22:44:40 1110

原创 第四期:数字人民币硬钱包突围战 - SIM卡载体的银发革命

交易确认音频率范围:2000-4000Hz(适配老年听力衰减曲线)银行承担交易通道费(0.08‰ vs 传统POS机0.35‰)钱包开立目标:个人客户渗透率≥35%,对公账户100%覆盖。采购支持SM系列算法的三未信安最新型号(单价23万/台)├─ 数字人民币SIM卡写卡器(支持远程授权)密钥迁移禁忌:禁止直接导入导出,必须采用密钥分发系统。语音辅助必须支持方言识别(四川话、粤语优先级最高)├─ 大字版ATM机(屏幕≥32英寸)增设物理确认按钮(压力感应≥1.5N防止误触)

2025-02-03 22:18:40 574

原创 第三期:支付清算系统命门解剖 - 如何安全绕过银联直连移动支付巨头

重要提示:与支付机构谈判时务必约定"通道切换保护期",某银行因未保留原有银联通道导致"双十一"期间支付成功率暴跌至61%!1. 100%交易必须通过网联/银联转接(线上支付例外条款:银行自有场景App可保留5%直连额度)3. 支付机构备付金集中存管比例提升至98%(银行需配置专用存款账户)场景穿透模式:将微信支付包装成"校园食堂专用码"(需申请特定MCC编码)// 使用长连接池避免TCP握手开销。资金核对误差:≤0.00015%(达到央行AA类机构标准)请求频率限制:500次/秒(超出触发熔断30分钟)

2025-02-03 12:47:44 544

原创 第二期:核心系统选型暗战 - 国产派 vs 海外派的生死博弈

特别警告:合同谈判阶段务必聘请兼具金融+IT背景的律师,某银行因条款歧义导致项目延期赔偿1.2亿。:某城商行因未约定人脸识别算法所有权,后续每新增一个网点需额外支付30万授权费。1. 账户体系重构:添加II/III类账户分类(原系统仅支持单账户结构)2. 利率引擎改造:植入人行基准利率浮动算法(需重写78个计算模块)- 早高峰(9:00-10:00):模拟20万客户同时登录。硬件保障:临时租用阿里云金融专区(8核32G实例×50台)瑞士专家差旅费:2.8万/人天(含翻译服务)

2025-02-02 22:36:08 603

原创 第一期:中小银行架构搭建实战 - 总纲篇 (定位:区域性城商行/农商行数字化改造)

外围系统:二手IBM Power8设备翻新(价格仅为新机1/3,运维团队需提前培养):所有宣传材料必须包含存款保险LOGO(尺寸不小于3cm×3cm)自动化工具推荐:南天信息的报表自动生成插件(可节省20人天/月)核心数据库:优先选用华为泰山系列国产服务器(单价约50万/台):监管要求数据不出省,需在本地至少部署2个机房(主+备):贷款年化利率不得超LPR的4倍(当前为13.6%)小额账户管理费:季度日均余额<300元,收费3元/季。完成金融科技认证(等保2.0三级认证,预算约80万)

2025-02-02 13:06:44 377

原创 Intelcpux86开发手册1-4卷阅读理解1

Intel x86 开发手册是理解 x86 架构的权威指南,涵盖了从基础架构到高级编程的各个方面。

2024-10-26 10:32:33 440 1

原创 金融行业数据安全和数据生命周期管理16

通过引入更多的数据维度,可以更准确地评估客户的信用风险,提供更优质的信贷服务。这家数据公司拥有丰富的数据资源和强大的数据安全能力,可以为巨石银行提供可靠的数据支持。李浩和他的团队的努力得到了银行领导的认可。如何确保共享数据的安全,防止数据泄露和滥用,成为了李浩和他的团队必须解决的问题。在与数据公司正式合作之前,李浩和他的团队与数据公司进行了多次沟通和协商,最终签订了一份详细的数据共享协议。李浩意识到,规范为数据共享提供了重要的指导,他必须严格遵守规范的要求,才能确保数据共享的安全。

2024-10-09 14:58:57 455

原创 金融行业数据安全和数据生命周期管理15

此外,智能信贷产品还可以根据客户的需求,提供个性化的贷款方案,满足客户的多样化需求。客户可以通过手机APP或网站提交贷款申请,系统会根据客户的个人信息、信用记录、消费习惯等数据,自动评估客户的信用风险,并给出相应的贷款额度和利率。他开始着手收集和整理数据。只有拥有足够丰富和准确的数据,才能训练出高效的人工智能模型,为客户提供精准的信贷服务。李浩和他的团队接到了一个新的任务:开发一款智能信贷产品,利用大数据和人工智能技术,为客户提供更加个性化的信贷服务。智能信贷产品的成功上线,离不开李浩和他的团队的努力。

2024-09-26 10:06:06 343

原创 金融行业数据安全和数据生命周期管理13

比如,一些业务部门在数据采集时,没有严格按照规范的要求,明确告知客户数据的用途和范围,也没有征得客户的同意。监管部门的检查人员来到了银行,开始对银行的数据安全进行全面的检查。一天,银行收到监管部门的通知,他们将对银行的数据安全进行一次全面的检查。这次检查的目的是评估银行的数据安全管理水平,是否存在违规行为,以及是否符合金融数据安全数据生命周期安全规范的要求。她还组织了一次全行范围的数据安全培训,向全体员工强调了数据采集的重要性,以及不规范采集可能带来的风险。他们的努力得到了认可,他们的付出得到了回报。

2024-09-20 15:25:43 439

原创 金融行业数据安全和数据生命周期管理12

然而,新的挑战却在悄然逼近,这次的敌人更加隐蔽,攻击手段也更加高明。刘洋通过对日志的分析,发现攻击者使用了DDoS攻击分布式拒绝服务攻击,通过向数据库发送大量的请求,导致数据库过载,无法正常响应。团队成员们纷纷点头,他们知道,他们的使命是保护银行的数据资产,维护金融秩序,保障国家安全。王晓雨则对数据进行了加密处理,即使攻击者获取了数据库的结构信息,也无法轻易获取到数据的内容。张鹏则通过调整数据库参数,优化查询语句,成功缓解了数据库的压力,保证了业务的正常运行。经过一番努力,数据库的运行恢复了正常。

2024-09-04 15:53:23 549

原创 金融行业数据安全和数据生命周期管理11

李浩意识到,他们之前的安全措施还不够完善,他们需要进一步加强对云端数据的安全防护。然而,云端数据存储也带来了新的安全挑战,李浩的团队再次站在了风口浪尖。李浩回答道:"我们将利用云平台提供的安全功能,如访问控制、防火墙、入侵检测等,加强对云端数据的防护。他们发现,攻击者利用了一个云平台的漏洞,试图获取银行的数据。我们将选择最合适的提供商,并与他们密切合作,确保数据在云端的安全。数据迁移的过程并不顺利。李浩解释道:"我们将采用多种安全技术,包括数据备份、数据加密、安全传输协议等,确保数据在迁移过程中的安全。

2024-09-03 16:49:01 677

原创 金融行业数据安全和数据生命周期管理10

李浩再次翻开了《金融数据安全 数据生命周期安全规范》,他发现,规范中对于云端数据存储有明确的要求。他们发现,攻击者利用了一个云平台的漏洞,试图获取银行的数据。幸运的是,由于云服务提供商的安全措施得当,攻击者的企图并没有得逞。这个任务充满了挑战,不仅涉及到大量的数据迁移,还需要确保数据在迁移过程中的安全,以及在云端存储后的安全。数据迁移的过程充满了挑战。而且,在数据传输过程中,还需要确保数据的保密性和完整性,防止数据泄露或篡改。他们将继续努力,不断学习和提升自己的能力,为银行的云端数据安全保驾护航。

2024-09-02 12:03:21 450

原创 金融行业数据安全和数据生命周期管理9

IT部门加强了对数据存储和备份的管理,对敏感数据进行了加密存储,并建立了更加规范的备份数据管理制度。巨石银行的数据安全团队成功粉碎了黑客的阴谋,保住了银行的巨额资金。王晓雨负责数据采集和传输环节的审计,张鹏负责数据存储和备份环节的审计,刘洋负责数据使用和共享环节的审计。李浩还组织了一次全行范围的数据安全培训,向全体员工讲解了金融数据安全 数据生命周期安全规范的要求,并强调了数据安全的重要性。他们将继续秉持“金融数据卫士”的信念,为保护银行的数据资产,为维护金融秩序,为保障国家安全,贡献自己的力量。

2024-08-28 19:16:56 281

原创 金融行业数据安全和数据生命周期管理8

张鹏则对数据库进行了全面的梳理和排查,他像一个尽职的守卫,确保数据库的每一个角落都安全无虞。他们的真正目标是银行的核心交易系统,他们试图通过入侵交易系统,盗取银行的巨额资金。黑客试图通过后门程序访问数据库,但他们不知道,他们的 every move 都在李浩和王涛的监控之下。团队成员们纷纷点头,他们知道,他们的使命是保护银行的数据资产,维护金融秩序,保障国家安全。他们知道,数据安全是一场永无止境的战争,他们必须时刻保持警惕,不断提升自己的能力。终于,在一个深夜,他们锁定了黑客的藏身之处。

2024-08-27 18:32:57 386

原创 金融行业数据安全和数据生命周期管理7

他们可以利用这些信息,伪装成银行工作人员,向客户发送钓鱼邮件或短信,诱骗他们泄露更多的个人信息,甚至直接转账。数据安全是一项长期而艰巨的任务,他们将继续努力,为保护银行的数据资产,为维护金融秩序,为保障国家安全,做出更大的贡献。他决定,按照规范的要求,对数据分析和挖掘流程进行全面梳理和优化,确保数据的安全。他们意识到,数据脱敏并不是万能的,黑客仍然可以通过技术手段,从脱敏后的数据中获取有价值的信息。黑客的目的可能并不是这些数据本身,而是想利用这些数据,对银行的客户进行精准画像,然后实施更高级的诈骗。

2024-08-26 17:36:05 830

原创 金融行业数据安全和数据生命周期管理6

我们公司在你们银行存了大量的资金,还有很多贷款业务,如果我们的数据被泄露了,那损失可就大了。“李经理,我看到了你们的数据安全报告,也参观了你们的数据中心,我对你们的数据安全工作非常满意。同时,他们在官网上开设了数据安全专栏,发布了银行的数据安全政策和承诺,并定期更新数据安全动态,让公众了解银行在数据安全方面的努力。李浩连忙解释道:“王总,您放心,我们已经采取了措施,加强了数据安全防护,确保客户的数据不会再被泄露。“我们需要向客户展示我们的数据安全防护措施,让他们知道,他们的数据在我们这里是安全的。

2024-08-26 14:39:05 276

原创 金融行业数据安全和数据生命周期管理5

他们将继续努力,为保护银行的数据资产,为维护金融秩序,为保障国家安全,贡献自己的力量。他们决定加大对网络安全和数据安全的投入,引进更先进的技术和设备,加强人员培训和教育,建立更加完善的应急响应机制。他找到了银行的网络安全团队,请求他们的协助。网络安全团队的负责人王涛是一个经验丰富的老手,他听完李浩的描述,立刻意识到问题的严重性。李浩皱起了眉头,他意识到,黑客对银行内部网络的了解程度可能比他们想象的还要深。刘洋努力回想当时的场景:“他提到了我的电脑IP地址,还说检测到了我的电脑在访问一些敏感数据。

2024-08-24 15:27:32 265

原创 金融行业数据安全和数据生命周期管理4

数据泄露事件的阴霾还未完全散去,巨石银行的信贷数仓团队又面临新的挑战。然而,这些数据中包含了大量的个人金融信息,如何确保数据在分析和挖掘过程中的安全成为了团队的首要任务。他严肃地说道:“这次的新产品涉及到大量的客户敏感数据,我们必须严格按照金融数据安全 数据生命周期安全规范的要求,确保数据在分析和挖掘过程中的安全。她根据数据的特点和安全级别,选择了合适的脱敏方法,确保脱敏后的数据既能满足业务需求,又能有效保护客户隐私。他详细讲解了数据脱敏和数据水印的相关要求,并结合新产品的特点,提出了具体的数据安全方案。

2024-08-23 15:54:58 482

原创 金融行业数据安全和数据生命周期管理3

对方声称是银行的IT部门,说他们检测到刘洋的电脑有异常流量,怀疑他的电脑被黑客入侵,要求他提供电脑的远程访问权限,以便进行排查。王晓雨则对生产环境的数据进行了比对,发现一部分数据与开发测试环境中的数据一致,说明这些数据很可能就是从开发测试环境中泄露出去的。李浩强调,他们必须从这次事件中吸取教训,加强数据安全管理,提高安全意识,完善应急响应机制,确保银行的数据资产安全。几天后,刘洋的电脑突然死机,他重启后发现,开发测试环境中的数据都不见了。他们不仅损失了大量的数据,还面临着监管部门的处罚和客户的信任危机。

2024-08-08 17:38:21 329

原创 金融行业数据安全和数据生命周期管理2

他们决定加强内部人员的安全意识教育,建立更加完善的风险控制体系,确保银行的数据资产安全。王晓雨打开电脑,展示了她发现的异常数据。他沉声说道:“看来,我们银行内部出现了内鬼,有人故意篡改数据,企图破坏我们的风险控制体系。王晓雨通过对异常数据的分析,发现这些数据修改的时间都集中在最近一个月,而且修改的方式非常隐蔽,如果不是仔细分析,很难发现。他是一个信贷部门的经理,因为业绩压力,他铤而走险,篡改数据,企图蒙混过关。刘洋也说道:“我也发现了一些异常的代码,这些代码可以绕过我们的访问控制,直接修改数据库中的数据。

2024-08-08 17:12:29 289

原创 金融行业数据安全和数据生命周期管理1

这一天,李浩召集团队成员开会,宣布了一个重要的消息:“我们团队接到了一个新的任务,要对我们的信贷数据仓库进行一次全面的安全升级。张鹏负责数据存储环节的升级。他们按照规范的要求,建立了一套完善的数据安全防护体系,确保银行的数据资产得到了全方位的保护。在一次例行的安全检查中,监管部门对巨石银行的数据安全工作给予了高度评价,称赞他们建立了一套符合规范要求的数据安全防护体系,为其他金融机构树立了榜样。他们按照规范的要求,对数据仓库的每一个环节进行了梳理和分析,找出了存在的安全隐患,并制定了相应的整改措施。

2024-08-08 17:10:42 76

原创 IAAS监控、调优、排障-常用命令-SAR

如果%iowait指标过高,说明CPU在等待磁盘IO时的时间过长,可能存在磁盘IO瓶颈。如果%idle指标过低,说明CPU使用率过高,可能存在CPU瓶颈。%iowait:CPU等待IO的百分比,即CPU处于等待磁盘IO操作的状态所占的时间比例。%system:内核空间的CPU使用率,即操作系统内核的CPU使用率。%idle:空闲的CPU时间百分比,即CPU处于空闲状态的时间比例。%user:用户空间的CPU使用率,即应用程序的CPU使用率。%steal:虚拟机的虚拟机CPU使用的CPU。

2023-03-16 14:40:02 300

原创 生成ETL转义操作的10个案例

将数字字符串转换为数字类型(如整数,浮点数等)分割字符串,并将其转换为列表或数组。将字符串中的多个空格合并为单个空格。将字符串中的多个空格合并为单个空格。替换字符串中的某些字符或字符串。替换字符串中的某些字符或字符串。将日期字符串转换为日期对象。将空字符串转换为NULL值。将字符串中的千位分隔符去除。将日期字符串转换为日期对象。将数字字符串转换为数字类型。将空字符串转换为NULL值。将字符串中的千位分隔符去除。将字符串转换为大写或小写。将字符串转换为大写或小写。将字符串转换为布尔值。将字符串转换为布尔值。

2023-01-15 15:10:06 293

原创 hdfs源码核心类有哪些?

它继承了Java的DataOutputStream类,并提供了额外的功能,例如对数据块的写入、写入数据时的容错处理等。FSNamesystem:FSNamesystem类是NameNode的内部类,负责维护HDFS中的元数据,包括文件和目录的位置信息。HdfsFileStatus:HdfsFileStatus类是FileStatus类的扩展,存储了更多的HDFS文件的信息,例如文件的块大小、副本数量等。它存储文件的唯一标识符、大小、数据块的位置信息等信息。它存储数据块的唯一标识符、大小、位置等信息。

2022-12-27 18:02:35 341

原创 Spark DiskManager类功能解析

同时,DiskManager还会定期扫描磁盘上的数据块,并在需要时对数据块进行移动和清理。这样可以保证应用程序在磁盘上的数据块读写操作性能较高,并且可以避免在磁盘空间不足时出现应用程序失败的情况。定期执行清理工作:DiskManager会定期执行清理工作,清理的文件是按照LRU(最近最少使用)的原则清理的。管理磁盘上的数据块:DiskManager会维护磁盘上的数据块的分布情况,并在需要时对数据块进行移动和清理。磁盘的读写性能足够高:这样可以避免在磁盘上的数据块读写操作对应用程序的性能产生负面影响。

2022-12-25 18:33:44 195

原创 Sqoop 全量/增量 shell脚本实战案例?

1. 全量导入:#!/bin/bash# 定义变量# 导入数据2. 增量导入:#!/bin/bash# 定义变量# 导入数据。

2022-12-19 19:56:25 465

原创 两张上亿的表join,spark sql如何优化?

4、调整spark.sql.inMemoryColumnarStorage.compressed参数,以便更好地判断是否应该使用压缩列存储。7、调整spark.sql.statistics.histogram.enabled参数,以便更好地判断是否应该使用直方图统计。3、调整spark.sql.join.preferSortMergeJoin参数,以便更好地判断是否应该使用排序合并连接。6、调整spark.sql.cbo.enabled参数,以便更好地判断是否应该使用代价优化。

2022-12-18 18:18:39 1863 1

原创 SparkSQL详细的调优步骤及参数配置?

在spark-defaults.conf文件中设置spark.sql.shuffle.partitions参数,该参数控制shuffle操作的分区数,一般设置为每个executor的cores的数量,可以根据实际情况调整。在spark-defaults.conf文件中设置spark.executor.cores参数,该参数控制executor的cores,一般设置为每个executor的cores,可以根据实际情况调整。

2022-12-18 18:15:02 3163

原创 HiveSQL调优手段有哪些?

使用优化器参数,例如 hive.auto.convert.join 和 hive.optimize.sort.dynamic.partition,来调整优化器的行为。使用合适的分桶方式,例如按照经常使用的分组字段分桶。使用合适的存储格式,例如 ORC 或 Parquet,可以提高查询性能。使用合适的数据类型,例如使用 int 或 smallint 来存储较小的数值,以减少存储空间。使用索引提高查询性能,但要注意不要使用过多的索引,否则会影响写入性能。使用外部表存储大量数据,并使用分区存储少量数据。

2022-12-18 11:50:55 523

星环大数据平台手册详细使用过程

星环大数据平台使用手册,详细介绍了平台的主要功能和操作方法。本手册适用于数据分析师、开发人员及平台管理员,包含平台基础架构、核心功能、最佳实践等内容。

2025-01-08

Spark 执行流程.xmind

Spark从提交任务到执行完成,主要包括:Driver初始化->Stage划分->Task调度->Shuffle处理->结果输出五大关键环节,适合大数据开发者学习。

2025-01-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除