行路独迷见-优快云博客

原创零基础了解hdfs分布式存储写入文件操作

HDFS（Hadoop Distributed File System）是Hadoop生态系统的核心分布式文件系统，专为存储超大规模数据集设计，具有高容错性、高吞吐量和跨硬件扩展的特性。它采用主从架构，由（管理元数据）和多个（存储实际数据块）组成。

2025-03-12 10:54:13 637

原创 python实战-使用pandas处理数据

很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。数据清洗是对一些没有用的数据进行处理的过程。：识别并填补缺失值，或删除含缺失值的行/列。：转换数据类型或进行单位转换，如日期格式转换。：检查并删除重复数据，确保每条数据唯一。：识别并处理异常值，如极端值、错误值。

2025-03-04 17:25:16 270

数仓分层通过将数据仓库划分为不同的层次（如ODS、DWD、DWS等），实现了数据的逐层加工和优化。这一过程确保了数据的准确性和一致性，为后续的分析和决策提供了可靠的基础。DWD层对ODS层的数据进行进一步的清洗和转换，生成标准化的明细数据。这一层的数据通常以事实表和维度表的形式存在，为上层分析提供支持。ETL是数据从源系统到数据仓库的桥梁，而数仓分层则是数据仓库内部的结构化设计。DWS层对DWD层的数据进行汇总和聚合，生成面向业务主题的宽表。这一层的主要任务是数据的初步清洗和整合，为后续的加工提供基础。

2025-02-28 17:38:30 762

原创 deepseek学习之python并行编程的封装

上面说到的是有一个子程序需要运行N次，如果有N个子程序需要运行N次呢？这个时候用到了封装思想，把这个程序封装起来，如果有多少个子程序就实例化多少个这个程序，此时我们可以向deepseek这样提问:帮我把这个程序封装成一个class类。「清华大学第四弹：...一样简单.pdf」，复制整段内容，打开最新版「夸克APP」即可获取。2、在并行调度数量内，一个子进程执行成功之后，另一个子进程开始执行。畅享原画，免费5倍速播放，支持AI字幕和投屏，更有网盘TV版。3、最后需要返回执行成功和执行没有成功的进程。

2025-02-26 17:57:26 228

原创 deepseek学习：我用ai写代码之python实现并行调度

带着问题去学习，会让你事半功倍，在开始之前我们先讨论一个问题，如果我们想同时调启一个命令多次，我们会怎么办，这个时候会想到python的两个模块multiprocessing和thread，这两个模块帮我们实现了并行，好，问题解决......但是我们需要看到另一个问题，我们如何控制并行数量呢，如果一个子程序需要运行一百次，一千次，一万次，难道我们要直接全部运行起来吗？答案肯定不，所以我们要想办法把这件事解决，然后我开始询问deepseek。

2025-02-25 17:49:50 352

原创 ai之后的新程序员是什么样子的？

未来的程序员将不再是“孤独的码农”，而是“技术与业务的桥梁”，能够利用 AI 工具快速实现想法，解决复杂问题，并推动业务创新。例如，程序员只需用自然语言描述需求：“从订单表中计算每个用户的总消费金额”，AI 会自动生成相应的 SQL 或 Python 代码。随着 AI 工具的普及，技术门槛降低，程序员需要与非技术人员（如产品经理、业务人员）更紧密地协作。由于 AI 工具可以快速生成代码，程序员将有更多时间学习业务知识和其他领域的技能。随着 AI 工具的普及，编写代码的门槛降低，程序员的核心竞争力将转向。

2025-02-22 23:10:29 775

原创实操系列：我用deepseek写sql

如果 SQL 逻辑中存在潜在错误（例如字段名拼写错误或数据类型不匹配），DeepSeek 会自动检测并提示修复建议。如果任务执行失败，DeepSeek 会自动分析失败原因（如数据源连接失败或字段缺失），并尝试修复或通知相关人员。DeepSeek 可以自动将生成的 SQL 逻辑封装为 ETL 任务，并设置调度策略（例如每天凌晨执行）。AI 生成的 SQL 逻辑可能与手动编写的逻辑类似，但速度更快，且无需人工干预。DeepSeek 会自动分析数据表结构，并生成相应的 SQL 逻辑。

2025-02-22 23:09:09 2002

原创我的创作纪念日：从问题解决到AI应用的探索之路

回顾这段经历，我感慨万千。从最初的分享初心到如今能够用AI技术解决实际问题，这段探索之路让我收获颇丰。我希望通过这篇文章，能够与更多人分享我的思考过程，并共同学习、成长。未来的路依然充满挑战，但我相信，只要保持对创作的热情和对学习的渴望，我一定能够在平台上找到属于自己的位置，并继续书写属于这个时代的独特故事。让我们一起在这个平台上，探索未知的领域，分享彼此的经验与感悟。因为我们都是创作者，也都是学习者，在共同的成长中，我们能够互相启发、互相进步。愿我们在未来的创作中，都能够收获满满，成长更快！

2025-02-18 13:16:44 471

原创本地部署deepseek-r1:7B模型

注意这里安装的版本，如果是平常使用1.5b版本完全可以，7b要求显卡是4060，按照各自需求进行安装版本，这里我安装的是7b版本。「Deepseek喂饭指令.pdf」，复制整段内容，打开最新版「夸克APP」即可获取。链接：https://pan.quark.cn/s/f749f0bfc015。安装完成后，运行chatbox，左下角打开设置，按照以下进行配置。windows输入win+r打开命令框输入cmd，打开命令窗口。畅享原画，免费5倍速播放，支持AI字幕和投屏，更有网盘TV版。

2025-02-17 15:45:33 986

原创 DeepSeek：清华大学团队打造的职场智能革命

DeepSeek通过「规范性执行」与「创造性思考」的双模切换，正在重塑职场生产力范式。无论是标准化文档处理，还是开放式商业决策，这套由清华大学顶尖团队打造的智能系统，都将成为未来职场人的核心竞争武器。立即获取完整指南，开启你的智能办公革命！

2025-02-12 18:00:08 568

原创 DeepSeek实战演练之代码优化

通过优化代码，不仅可以提升程序的运行效率，还能增强代码的可读性和可维护性。本文将结合实际案例，探讨如何通过DeepSeek工具进行代码优化，并分享一份实用的学习资料——《DeepSeek 15天指导手册——从入门到精通》。通过DeepSeek工具，我们可以系统地分析和优化代码，提升程序的性能和可维护性。为了帮助大家更好地掌握DeepSeek的使用技巧，我们特别准备了一份详细的学习资料——「清华大学的DeepSeek从入门到精通.pdf」DeepSeek会生成一份详细的报告，列出代码中的潜在问题。

2025-02-10 22:11:11 901

原创信创迁移工作中的总结

数据迁移是信创工作中非常重要且复杂的一环，涉及多个技术难点。脚本改造是信创项目中另一项重要工作，主要涉及数据库函数、存储过程、序列等的适配和优化。数据迁移数据迁移是信创工作中的重点和难点，需要提前规划、详细比对，并制定合理的迁移计划。针对数据类型、编码字符集、迁移效率、分隔符等问题，提出了具体的解决方案。脚本改造脚本改造涉及数据库函数、存储过程、序列等的适配，需要逐一梳理并寻找替代方案。环境配置是改造后的重要环节，确保项目能够在新的数据库环境中正常运行。

2025-02-08 16:45:53 373

原创 DeepSeek为什么这么火？

如果你需要处理复杂任务（比如写代码、做数据分析、写论文等），DeepSeek是更好的选择。如果你只是想快速查信息、看新闻、找电影等，QQ浏览器AI助手更方便。

2025-02-08 16:30:59 1116

原创 DeepSeek：探索未知，洞察未来

你是否曾因为找不到所需的知识而感到沮丧？DeepSeek拥有覆盖全球的知识库，从最新的科学研究到古老的历史传说，从尖端的技术动态到深邃的文化探讨，无所不包。更重要的是，DeepSeek能够将这些知识进行跨领域的整合，为你提供全新的视角和灵感，激发你的创造力和想象力。无论是专业的学术研究，还是日常的生活娱乐，DeepSeek都能为你提供最贴心的服务，让你感受到前所未有的智慧体验。无论你是科学家、学者、学生，还是普通的互联网用户，DeepSeek都能为你提供最强大的支持，让你在信息的海洋中找到属于自己的宝藏。

2025-02-07 11:30:14 321

原创 DeepSeek 从入门到精通学习指南

DeepSeek 是一款基于深度学习的搜索引擎，具备高效、准确、智能的特点。它能够处理大规模数据，提供精准的搜索结果和相关推荐。1.插件开发：根据需求，开发自定义插件，扩展 DeepSeek 的功能。2.插件部署：将开发好的插件部署到 DeepSeek 中。3.插件测试：进行充分的测试，确保插件的稳定性和性能。通过本文的学习，您应该对 DeepSeek 有了全面的了解，并掌握了从入门到精通的使用方法。DeepSeek 作为一款强大的 AI 搜索引擎，能够为您的工作带来极大的便利和效率提升。

2025-02-05 20:47:53 24775 2

原创 Etl具体是做什么的？流程是什么样子的？

此外，还可能涉及到数据的聚合操作，如将每日的销售数据汇总为每月的销售数据，这需要按照一定的业务规则（如按产品类别、销售区域等）进行分组聚合。然后根据工具的特性和前面确定的ETL流程，进行ETL任务的开发和实施，包括配置数据源和目标连接、编写转换逻辑脚本等。监控的内容包括数据抽取的进度、转换过程中的数据质量（如是否有数据转换错误）、加载的成功率等。如果是关系型数据库，需要确定使用的数据库连接方式（如ODBC、JDBC等）、抽取的频率（是每天、每小时还是实时抽取）以及抽取的数据范围（全量还是增量）。

2025-01-15 20:45:52 306

原创基于python和kettle在etl使用过程中的利弊进行比较

例如，如果需要根据实时变化的业务规则对数据进行复杂的动态转换，Kettle的图形化界面可能无法满足这种高度定制化的需求，可能需要寻找一些插件或者编写自定义脚本（如JavaScript脚本在Kettle中），但这仍然不如Python在定制化方面的灵活性。例如，要与一些基于特定协议的新兴大数据存储系统集成，Kettle可能没有现成的组件或者需要进行复杂的配置才能实现，而Python由于其丰富的库和灵活的代码结构，可以更容易地进行集成。例如，使用清晰的函数定义和面向对象编程结构，可以使ETL流程的逻辑更加清晰。

2025-01-14 20:01:56 307

原创 python学习之迭代器和生成器

在迭代器中，我们将对列表使用一个iter方法，这个就是迭代器的方法（注意：此时程序并没有在内存中调用该列表中的值），把迭代器想象成一个生产工厂，每一个原材料（列表中的每一个值）都会逐个进入到加工厂（next函数）进行加工(print操作)后生成，所以我产生了一个疑问，那么nums列表是一个一个的减少的吗？4、next调用第三步里的num方法，在yield处向后执行，打印“生成器后操作”，随后while循环打印“生成器前操作”和“生成器：最终值：2”，因为又运行到了yield处，所以程序退出运行。

2024-05-29 21:48:40 294

原创呕心总结，一些心得体会：业务与技术的关系

一个非常恐怖的速度，可能在学习现有技术的时候，就会发现新的技术已经在试运行阶段了，所以此时我想说的是，业务的重要性是优于技术的。其实先去看技术和业务两个词，我们都很难描述，到底什么是技术，什么是业务，下面我也将从以下几点分开讲解技术和业务分别是什么，并总结技术和业务之间的关系应该是什么样？这里需要了解的是数据为什么要按照一定的数据结构来存储，这是因为当数据过于庞大的时候，无法在很快的时间查找到需要的数据，就比如一个拥有一百间屋子的房子，数据库百度百科中描述是：“按照数据结构来组织、存储和管理数据的仓库”。

2024-05-15 15:26:51 513

原创 gbase编码字符集导致的入库数据乱码或者无法关联查询的问题

此时只需要重新使用create table table_name as select * from 被导入的表名；使用新表进行关联查询就不会报错，所以该问题是出现在两张表的编码字符集不同，导致无法关联查询。入库数据乱码，我们能够很快想到是字符集问题导致的汉字乱码，所以我们需要注意导出的数据的字符集、及表的字符集是否相同，如果不同也会出现上述问题，还有可能出现无法成功导入的情况。

2024-05-08 17:19:07 866 1

原创关于oracle中的dbms_stats.gather_table_stats用法:

认为该主表的数据量为10w，但是在漫长的使用中，该表的数据量达到了亿级别，此时的执行计划还会认为该表的数据量是10w，所以执行计划就会认为该表只有10w条数据，此时就可能会走了错误的执行计划，表中的数据量不同，有无索引都会影响他的执行方式，比如我们在收集统计信息时，此时主表数据只有10w条，那么凡是涉及到该主表的sql的执行计划都会。false：当收集完统计信息后，收集对象的cursor会立即失效（新的执行计划，新的子游标）SKEWONLY:统计指定列的histograms.N的取值范围[1,254]

2024-05-06 17:55:27 1066

原创我们该如何学习发散性思维

前一阵子在研究如何用程序编辑一个word文档的时候，我遇到了难题，我想不到该如何去编辑这个word文档，但是真正实现的方式却是用替换，把word文档中需要修改的地方用变量标注，然后循环替换这些变量就可以实现用程序编辑word文档。其实仔细往下一想，我们就可以得到答案，这样的调度工具的底层都是用代码堆积而来，如果我们没有调度工具的话，我们是不是可以自己去写一个这样的类似的调度工具呢？就比如，etl开发的过程中，如果没有kettle或informatic等这样的调度工具，我们该如何实现调度呢？

2024-04-07 16:00:56 433

原创 gbase 8a中数据存储类型为blob字段，显示格式乱码，应该如何查看。

今天在通过gbase查询一条数据时，发现该表有一个bolb字段，此时我想查看内容是什么，但是由于该字段是存储中文字符，无法正常显示出来，此时只需要用gbase的cast对该字段进行转换就可以了，selct cast(blob字段名 as char) from 表名,此时就可以正常查看数据内容了。

2024-03-27 11:24:38 414

原创 dblink之后报错：ORA-00997: illegal use of long datatype

经网上查阅问题后，发现说是oracle11g基本不建议使用long类型，所以会报错，网上给的解决方式是：通过to_lob方式将数据转换，但是我在尝试中发现报错：ora-22992:无法使用从远程表选择的 LOB 定位符。经查阅资料后发现是clob字段本身就不支持dblink的方式，此时一般情况下会通过导入导出的方式，将源数据插入到目标表中，但是我此时想到了一种方式，使用游标和存过的方式，将数据一条一条的读取，一条一条的插入。--（在使用的时候，请将所有注释都删除）

2024-03-04 16:30:24 851

原创 sql优化~表瘦身的重要性

今天在处理增量的时候发现有一张全量表的脚本，每天都要对全量数据进行group by操作后，取max最大值，这个sql每天都要跑40多分钟，然后我的初步优化方向是基于此表增加索引，但是奈何由于表空间告警，任何增加表空间的操作都不被允许，此时就考虑如何把这张大表变成小表，此时我发现全量数据大概是几十亿，但是能用到的数据只有几百万，此时我考虑在group by之前，就给此表瘦身，然后再进行group by操作。更加充分的说明了瘦身的重要性，每次优化前先考虑一下，表里的数据是不是全都要用上，怎么剔除没用的数据。

2024-02-28 17:48:53 446 1

原创 sqluldr2 报错ora-24345: A Truncation or null fetch error occurred

sqluldr2.bin user=hr/'hr123'@zx query="select * from table_name where length(clob字段)>=10000" field='^' record=0X12 safe=yes rows= 1000 charset=AL32UTF8 file="clob.txt" log="clob.log"然后我对于此的理解是，他在导出时，可能会认为该clob字段默认buffer为100，然后因为这几百条超过10000长度的数据，导致数据无法导出。

2024-02-19 14:03:04 1396 1

2401_82853421的博客