- 博客(26)
- 收藏
- 关注
原创 零基础了解hdfs分布式存储写入文件操作
HDFS(Hadoop Distributed File System)是Hadoop生态系统的核心分布式文件系统,专为存储超大规模数据集设计,具有高容错性、高吞吐量和跨硬件扩展的特性。它采用主从架构,由(管理元数据)和多个(存储实际数据块)组成。
2025-03-12 10:54:13
637
原创 python实战-使用pandas处理数据
很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。数据清洗是对一些没有用的数据进行处理的过程。:识别并填补缺失值,或删除含缺失值的行/列。:转换数据类型或进行单位转换,如日期格式转换。:检查并删除重复数据,确保每条数据唯一。:识别并处理异常值,如极端值、错误值。
2025-03-04 17:25:16
270
原创 从ETL到数仓分层:大数据处理的“金字塔”构建之道
数仓分层通过将数据仓库划分为不同的层次(如ODS、DWD、DWS等),实现了数据的逐层加工和优化。这一过程确保了数据的准确性和一致性,为后续的分析和决策提供了可靠的基础。DWD层对ODS层的数据进行进一步的清洗和转换,生成标准化的明细数据。这一层的数据通常以事实表和维度表的形式存在,为上层分析提供支持。ETL是数据从源系统到数据仓库的桥梁,而数仓分层则是数据仓库内部的结构化设计。DWS层对DWD层的数据进行汇总和聚合,生成面向业务主题的宽表。这一层的主要任务是数据的初步清洗和整合,为后续的加工提供基础。
2025-02-28 17:38:30
762
原创 deepseek学习之python并行编程的封装
上面说到的是有一个子程序需要运行N次,如果有N个子程序需要运行N次呢?这个时候用到了封装思想,把这个程序封装起来,如果有多少个子程序就实例化多少个这个程序,此时我们可以向deepseek这样提问:帮我把这个程序封装成一个class类。「清华大学第四弹:...一样简单.pdf」,复制整段内容,打开最新版「夸克APP」即可获取。2、在并行调度数量内,一个子进程执行成功之后,另一个子进程开始执行。畅享原画,免费5倍速播放,支持AI字幕和投屏,更有网盘TV版。3、最后需要返回执行成功和执行没有成功的进程。
2025-02-26 17:57:26
228
原创 deepseek学习:我用ai写代码之python实现并行调度
带着问题去学习,会让你事半功倍,在开始之前我们先讨论一个问题,如果我们想同时调启一个命令多次,我们会怎么办,这个时候会想到python的两个模块multiprocessing和thread,这两个模块帮我们实现了并行,好,问题解决......但是我们需要看到另一个问题,我们如何控制并行数量呢,如果一个子程序需要运行一百次,一千次,一万次,难道我们要直接全部运行起来吗?答案肯定不,所以我们要想办法把这件事解决,然后我开始询问deepseek。
2025-02-25 17:49:50
352
原创 ai之后的新程序员是什么样子的?
未来的程序员将不再是“孤独的码农”,而是“技术与业务的桥梁”,能够利用 AI 工具快速实现想法,解决复杂问题,并推动业务创新。例如,程序员只需用自然语言描述需求:“从订单表中计算每个用户的总消费金额”,AI 会自动生成相应的 SQL 或 Python 代码。随着 AI 工具的普及,技术门槛降低,程序员需要与非技术人员(如产品经理、业务人员)更紧密地协作。由于 AI 工具可以快速生成代码,程序员将有更多时间学习业务知识和其他领域的技能。随着 AI 工具的普及,编写代码的门槛降低,程序员的核心竞争力将转向。
2025-02-22 23:10:29
775
原创 实操系列:我用deepseek写sql
如果 SQL 逻辑中存在潜在错误(例如字段名拼写错误或数据类型不匹配),DeepSeek 会自动检测并提示修复建议。如果任务执行失败,DeepSeek 会自动分析失败原因(如数据源连接失败或字段缺失),并尝试修复或通知相关人员。DeepSeek 可以自动将生成的 SQL 逻辑封装为 ETL 任务,并设置调度策略(例如每天凌晨执行)。AI 生成的 SQL 逻辑可能与手动编写的逻辑类似,但速度更快,且无需人工干预。DeepSeek 会自动分析数据表结构,并生成相应的 SQL 逻辑。
2025-02-22 23:09:09
2002
原创 我的创作纪念日:从问题解决到AI应用的探索之路
回顾这段经历,我感慨万千。从最初的分享初心到如今能够用AI技术解决实际问题,这段探索之路让我收获颇丰。我希望通过这篇文章,能够与更多人分享我的思考过程,并共同学习、成长。未来的路依然充满挑战,但我相信,只要保持对创作的热情和对学习的渴望,我一定能够在平台上找到属于自己的位置,并继续书写属于这个时代的独特故事。让我们一起在这个平台上,探索未知的领域,分享彼此的经验与感悟。因为我们都是创作者,也都是学习者,在共同的成长中,我们能够互相启发、互相进步。愿我们在未来的创作中,都能够收获满满,成长更快!
2025-02-18 13:16:44
471
原创 本地部署deepseek-r1:7B模型
注意这里安装的版本,如果是平常使用1.5b版本完全可以,7b要求显卡是4060,按照各自需求进行安装版本,这里我安装的是7b版本。「Deepseek喂饭指令.pdf」,复制整段内容,打开最新版「夸克APP」即可获取。链接:https://pan.quark.cn/s/f749f0bfc015。安装完成后,运行chatbox,左下角打开设置,按照以下进行配置。windows输入win+r打开命令框输入cmd,打开命令窗口。畅享原画,免费5倍速播放,支持AI字幕和投屏,更有网盘TV版。
2025-02-17 15:45:33
986
原创 DeepSeek:清华大学团队打造的职场智能革命
DeepSeek通过「规范性执行」与「创造性思考」的双模切换,正在重塑职场生产力范式。无论是标准化文档处理,还是开放式商业决策,这套由清华大学顶尖团队打造的智能系统,都将成为未来职场人的核心竞争武器。立即获取完整指南,开启你的智能办公革命!
2025-02-12 18:00:08
568
原创 DeepSeek实战演练之代码优化
通过优化代码,不仅可以提升程序的运行效率,还能增强代码的可读性和可维护性。本文将结合实际案例,探讨如何通过DeepSeek工具进行代码优化,并分享一份实用的学习资料——《DeepSeek 15天指导手册——从入门到精通》。通过DeepSeek工具,我们可以系统地分析和优化代码,提升程序的性能和可维护性。为了帮助大家更好地掌握DeepSeek的使用技巧,我们特别准备了一份详细的学习资料——「清华大学的DeepSeek从入门到精通.pdf」DeepSeek会生成一份详细的报告,列出代码中的潜在问题。
2025-02-10 22:11:11
901
原创 信创迁移工作中的总结
数据迁移是信创工作中非常重要且复杂的一环,涉及多个技术难点。脚本改造是信创项目中另一项重要工作,主要涉及数据库函数、存储过程、序列等的适配和优化。数据迁移数据迁移是信创工作中的重点和难点,需要提前规划、详细比对,并制定合理的迁移计划。针对数据类型、编码字符集、迁移效率、分隔符等问题,提出了具体的解决方案。脚本改造脚本改造涉及数据库函数、存储过程、序列等的适配,需要逐一梳理并寻找替代方案。环境配置是改造后的重要环节,确保项目能够在新的数据库环境中正常运行。
2025-02-08 16:45:53
373
原创 DeepSeek为什么这么火?
如果你需要处理复杂任务(比如写代码、做数据分析、写论文等),DeepSeek是更好的选择。如果你只是想快速查信息、看新闻、找电影等,QQ浏览器AI助手更方便。
2025-02-08 16:30:59
1116
原创 DeepSeek:探索未知,洞察未来
你是否曾因为找不到所需的知识而感到沮丧?DeepSeek拥有覆盖全球的知识库,从最新的科学研究到古老的历史传说,从尖端的技术动态到深邃的文化探讨,无所不包。更重要的是,DeepSeek能够将这些知识进行跨领域的整合,为你提供全新的视角和灵感,激发你的创造力和想象力。无论是专业的学术研究,还是日常的生活娱乐,DeepSeek都能为你提供最贴心的服务,让你感受到前所未有的智慧体验。无论你是科学家、学者、学生,还是普通的互联网用户,DeepSeek都能为你提供最强大的支持,让你在信息的海洋中找到属于自己的宝藏。
2025-02-07 11:30:14
321
原创 DeepSeek 从入门到精通学习指南
DeepSeek 是一款基于深度学习的搜索引擎,具备高效、准确、智能的特点。它能够处理大规模数据,提供精准的搜索结果和相关推荐。1.插件开发:根据需求,开发自定义插件,扩展 DeepSeek 的功能。2.插件部署:将开发好的插件部署到 DeepSeek 中。3.插件测试:进行充分的测试,确保插件的稳定性和性能。通过本文的学习,您应该对 DeepSeek 有了全面的了解,并掌握了从入门到精通的使用方法。DeepSeek 作为一款强大的 AI 搜索引擎,能够为您的工作带来极大的便利和效率提升。
2025-02-05 20:47:53
24775
2
原创 Etl具体是做什么的?流程是什么样子的?
此外,还可能涉及到数据的聚合操作,如将每日的销售数据汇总为每月的销售数据,这需要按照一定的业务规则(如按产品类别、销售区域等)进行分组聚合。然后根据工具的特性和前面确定的ETL流程,进行ETL任务的开发和实施,包括配置数据源和目标连接、编写转换逻辑脚本等。监控的内容包括数据抽取的进度、转换过程中的数据质量(如是否有数据转换错误)、加载的成功率等。如果是关系型数据库,需要确定使用的数据库连接方式(如ODBC、JDBC等)、抽取的频率(是每天、每小时还是实时抽取)以及抽取的数据范围(全量还是增量)。
2025-01-15 20:45:52
306
原创 基于python和kettle在etl使用过程中的利弊进行比较
例如,如果需要根据实时变化的业务规则对数据进行复杂的动态转换,Kettle的图形化界面可能无法满足这种高度定制化的需求,可能需要寻找一些插件或者编写自定义脚本(如JavaScript脚本在Kettle中),但这仍然不如Python在定制化方面的灵活性。例如,要与一些基于特定协议的新兴大数据存储系统集成,Kettle可能没有现成的组件或者需要进行复杂的配置才能实现,而Python由于其丰富的库和灵活的代码结构,可以更容易地进行集成。例如,使用清晰的函数定义和面向对象编程结构,可以使ETL流程的逻辑更加清晰。
2025-01-14 20:01:56
307
原创 python学习之迭代器和生成器
在迭代器中,我们将对列表使用一个iter方法,这个就是迭代器的方法(注意:此时程序并没有在内存中调用该列表中的值),把迭代器想象成一个生产工厂,每一个原材料(列表中的每一个值)都会逐个进入到加工厂(next函数)进行加工(print操作)后生成,所以我产生了一个疑问,那么nums列表是一个一个的减少的吗?4、next调用第三步里的num方法,在yield处向后执行,打印“生成器后操作”,随后while循环打印“生成器前操作”和“生成器:最终值:2”,因为又运行到了yield处,所以程序退出运行。
2024-05-29 21:48:40
294
原创 呕心总结,一些心得体会:业务与技术的关系
一个非常恐怖的速度,可能在学习现有技术的时候,就会发现新的技术已经在试运行阶段了,所以此时我想说的是,业务的重要性是优于技术的。其实先去看技术和业务两个词,我们都很难描述,到底什么是技术,什么是业务,下面我也将从以下几点分开讲解技术和业务分别是什么,并总结技术和业务之间的关系应该是什么样?这里需要了解的是数据为什么要按照一定的数据结构来存储,这是因为当数据过于庞大的时候,无法在很快的时间查找到需要的数据,就比如一个拥有一百间屋子的房子,数据库百度百科中描述是:“按照数据结构来组织、存储和管理数据的仓库”。
2024-05-15 15:26:51
513
原创 gbase编码字符集导致的入库数据乱码或者无法关联查询的问题
此时只需要重新使用create table table_name as select * from 被导入的表名;使用新表进行关联查询就不会报错,所以该问题是出现在两张表的编码字符集不同,导致无法关联查询。入库数据乱码,我们能够很快想到是字符集问题导致的汉字乱码,所以我们需要注意导出的数据的字符集、及表的字符集是否相同,如果不同也会出现上述问题,还有可能出现无法成功导入的情况。
2024-05-08 17:19:07
866
1
原创 关于oracle中的dbms_stats.gather_table_stats用法:
认为该主表的数据量为10w,但是在漫长的使用中,该表的数据量达到了亿级别,此时的执行计划还会认为该表的数据量是10w,所以执行计划就会认为该表只有10w条数据,此时就可能会走了错误的执行计划,表中的数据量不同,有无索引都会影响他的执行方式,比如我们在收集统计信息时,此时主表数据只有10w条,那么凡是涉及到该主表的sql的执行计划都会。false:当收集完统计信息后,收集对象的cursor会立即失效(新的执行计划,新的子游标)SKEWONLY:统计指定列的histograms.N的取值范围[1,254]
2024-05-06 17:55:27
1066
原创 我们该如何学习发散性思维
前一阵子在研究如何用程序编辑一个word文档的时候,我遇到了难题,我想不到该如何去编辑这个word文档,但是真正实现的方式却是用替换,把word文档中需要修改的地方用变量标注,然后循环替换这些变量就可以实现用程序编辑word文档。其实仔细往下一想,我们就可以得到答案,这样的调度工具的底层都是用代码堆积而来,如果我们没有调度工具的话,我们是不是可以自己去写一个这样的类似的调度工具呢?就比如,etl开发的过程中,如果没有kettle或informatic等这样的调度工具,我们该如何实现调度呢?
2024-04-07 16:00:56
433
原创 gbase 8a中数据存储类型为blob字段,显示格式乱码,应该如何查看。
今天在通过gbase查询一条数据时,发现该表有一个bolb字段,此时我想查看内容是什么,但是由于该字段是存储中文字符,无法正常显示出来,此时只需要用gbase的cast对该字段进行转换就可以了,selct cast(blob字段名 as char) from 表名,此时就可以正常查看数据内容了。
2024-03-27 11:24:38
414
原创 dblink之后报错:ORA-00997: illegal use of long datatype
经网上查阅问题后,发现说是oracle11g基本不建议使用long类型,所以会报错,网上给的解决方式是:通过to_lob方式将数据转换,但是我在尝试中发现报错:ora-22992:无法使用从远程表选择的 LOB 定位符。经查阅资料后发现是clob字段本身就不支持dblink的方式,此时一般情况下会通过导入导出的方式,将源数据插入到目标表中,但是我此时想到了一种方式,使用游标和存过的方式,将数据一条一条的读取,一条一条的插入。--(在使用的时候,请将所有注释都删除)
2024-03-04 16:30:24
851
原创 sql优化~表瘦身的重要性
今天在处理增量的时候发现有一张全量表的脚本,每天都要对全量数据进行group by操作后,取max最大值,这个sql每天都要跑40多分钟,然后我的初步优化方向是基于此表增加索引,但是奈何由于表空间告警,任何增加表空间的操作都不被允许,此时就考虑如何把这张大表变成小表,此时我发现全量数据大概是几十亿,但是能用到的数据只有几百万,此时我考虑在group by之前,就给此表瘦身,然后再进行group by操作。更加充分的说明了瘦身的重要性,每次优化前先考虑一下,表里的数据是不是全都要用上,怎么剔除没用的数据。
2024-02-28 17:48:53
446
1
原创 sqluldr2 报错ora-24345: A Truncation or null fetch error occurred
sqluldr2.bin user=hr/'hr123'@zx query="select * from table_name where length(clob字段)>=10000" field='^' record=0X12 safe=yes rows= 1000 charset=AL32UTF8 file="clob.txt" log="clob.log"然后我对于此的理解是,他在导出时,可能会认为该clob字段默认buffer为100,然后因为这几百条超过10000长度的数据,导致数据无法导出。
2024-02-19 14:03:04
1396
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人