
数据治理
文章平均质量分 67
苍墨穹天
长路漫漫,唯代码与吾长伴
展开
-
Python正则表达式实战:高效文本处理与数据清洗技巧详解
正则表达式(Regular Expression,简称Regex)是一种用于字符串匹配与处理的规则系统。它通过一系列的字符和符号定义了一个搜索模式,可以用来对字符串进行匹配、查找、替换和拆分操作。正则表达式是数据清洗和文本处理中的强大工具,掌握它可以让我们的工作事半功倍。通过本文的实战案例和技巧详解,相信你已经对Python正则表达式有了更深入的理解。在实际项目中,灵活运用这些技巧,必将大大提升你的数据处理能力。原创 2024-12-30 14:14:09 · 677 阅读 · 0 评论 -
数据治理—数据配比
里,应该都提及了自己的数据是如何配比的,基本上都是“知识 + 代码 + 逻辑”三个大类目,其中知识数据分文中文知识和英文知识,逻辑数据则可以认为是 math 数据和 cot 数据的混合体。整体上,大部分中文模型的配比都在这个区间左右:中:英:code = 4:4:2(逻辑数据的比例我没有写进去,加入多少取决于你能收集多少,其他三类数据应该是要多少有多少的存在)。我们可以根据自己的实际情况调整配比,但英文的比例一定不能太低。原创 2024-12-30 11:07:00 · 339 阅读 · 0 评论 -
数据治理——数据清洗
数据清洗(Data Cleaning)是大数据处理中的一个重要步骤,它涉及到识别并纠正或删除错误的、不完整、不准确或不相关的记录。数据清洗的目标是提高数据的质量,确保分析结果的有效性和可靠性。数据清洗是一个迭代的过程,通常需要多次循环进行,直到数据集达到足够的质量标准。随着技术的发展,自动化工具和机器学习算法也被用来辅助数据清洗过程,以提高效率和准确性。原创 2024-12-23 10:14:44 · 439 阅读 · 0 评论