- 博客(1186)
- 资源 (29)
- 收藏
- 关注
原创 PyArrow 核心技术与应用:高效数据处理与跨生态集成实践
列式内存优化:减少数据序列化开销,提升计算密集型任务效率统一计算抽象提供从基础统计到复杂聚合的全栈能力生态兼容性:与 Pandas、scikit-learn、Spark 等工具的无缝衔接对于需要处理 TB 级数据的团队,PyArrow 不仅显著降低基础设施成本,更通过标准化内存格式加速了从原型开发到生产部署的全流程。随着 Arrow 生态的持续扩展,掌握其高级用法将成为数据工程师的核心竞争力。
2025-04-02 21:13:22
388
原创 数据编排与Dagster:解锁现代数据管理的核心工具
数据编排器(Orchestrator)是一种自动化工具,用于协调和管理复杂的工作流。它通过定义任务的执行顺序、依赖关系和资源分配,确保流程按计划运行。与传统IT编排器(如Airflow)不同,数据编排器跟踪数据血缘:记录数据从源头到最终产出的完整链路。动态响应异常:自动识别失败节点并提供上下文诊断信息。优化资源利用:根据数据规模和计算需求智能调度任务。例如,一个典型的数据编排任务可能涉及从数据库提取数据、清洗后存入仓库、触发机器学习模型训练,并最终生成可视化报告。
2025-04-02 20:13:09
1023
原创 DuckDB: 描述性统计分析实战案例
描述性统计为在进行更深入分析之前理解数据集提供了坚实的基础。借助 DuckDB,我们可以直接从 CSV 文件中高效地计算关键指标,使其成为数据探索的理想选择。请尝试在自己的环境中运行这些查询,并对其进行修改以更好地理解数据集。
2025-04-01 20:57:14
522
原创 深入理解 Apache Dagster:数据管道编排实战指南
Apache Dagster 通过声明式 API、模块化架构和强大的可观测性工具,显著提升了数据管道的可维护性与可靠性。本文从环境搭建到高级功能演示,系统展示了其核心能力。对于需要处理复杂数据依赖、追求开发效率的团队,Dagster 提供了现代数据工程所需的基础设施。建议结合官方文档深入探索其与 dbt、Spark 等生态的集成,进一步释放其潜力。
2025-04-01 20:43:53
349
原创 Langflow深度解析:从核心概念到开发实践
Langflow通过可视化编程模型与模块化组件体系,大幅降低了AI应用开发门槛。低代码敏捷开发:拖拽式流程设计提升开发效率50%+深度可定制性:支持Python原生代码介入节点逻辑企业级扩展能力:REST API与日志监控满足生产级需求无论是个人开发者快速验证原型,还是团队构建复杂AI工作流,Langflow都提供了完整的解决方案。立即访问官方文档开启您的AI应用构建之旅!
2025-03-31 20:38:17
1025
原创 DuckDB统计实战:两步验证用户行为的关键假设
方法论整合使用 DuckDB 高效处理大规模数据集结合 Python 完成卡方检验(分类变量)与皮尔逊相关(连续变量)核心洞见支付方式未显著改变小费行为模式行程时长对小费比例的影响缺乏统计支持扩展建议可进一步探索:不同时间段的费率差异小费金额的分布特性多变量联合分析(如支付方式+时段)通过结构化假设检验流程,DuckDB 为数据驱动决策提供了轻量级解决方案。
2025-03-31 16:53:57
498
原创 SQLMesh调度系统深度解析:内置调度与Airflow集成实践
内置调度器:适合快速验证和小规模项目Airflow集成:满足企业级生产环境的严苛需求最佳实践建议开发阶段优先使用内置调度器提升迭代效率生产环境部署建议:数据量<100M:继续使用内置调度数据量>1G:采用Airflow + 专用调度数据库(如PostgreSQL)定期执行检查调度系统健康状态通过合理选择调度方案,企业可以在保证数据一致性的前提下,显著提升数据分析流水线的可靠性与可维护性。
2025-03-30 17:03:58
469
原创 SQLMesh系列教程:基于指标构建一致的分析语义层应用实践
指标是预定义的SQL聚合函数,用于封装特定业务计算逻辑(如活跃用户数、转化率等)。统一命名规范:通过唯一名称实现跨团队协作可复用计算逻辑:避免SQL代码重复语义透明性:隐藏底层表结构和连接细节指标通过METRIC()METRIC (description "统计过去30天有过登录行为的用户数",语义统一:消除同名不同义、同义不同名问题自动连接:基于粒度和引用智能生成JOIN分层管理:支持基础指标→派生指标的体系化构建<业务域>_<指标类型>_<粒度>重要指标设置owner属性实现责任管理。
2025-03-30 10:56:05
1025
原创 Playwright从入门到实战:比Selenium更快的数据爬取案例实战
通过本文,您已掌握 Playwright 的基础用法、实战技巧及与 Selenium 的差异。无论是网页爬虫还是自动化测试,Playwright 都能提供高效可靠的解决方案。Playwright 是微软开源的下一代浏览器自动化工具,凭借其高性能、跨浏览器支持和现代化设计,迅速成为 Web 自动化领域的热门选择。的浏览器自动化工具,提供统一的 API 控制不同浏览器,适用于网页爬虫、自动化测试、数据采集等场景。展示其核心功能,并与 Selenium 深度对比,帮助开发者选择适合的工具。
2025-03-29 16:14:55
995
原创 LangFlow系列:LangFlow快速入门示例
Langflow 是一个用于构建多智能体和 RAG 应用程序的新颖可视化框架。它是开源的,基于 Python,完全可定制,并且与大型语言模型和向量存储无关。其直观的界面使得对 AI 构建模块的轻松操作成为可能,使开发人员能够快速制作原型,并将他们的想法转化为强大的、现实世界的解决方案。Langflow 凭借其用户友好的界面和强大的功能,使开发人员能够快速制作原型并构建 AI 应用程序。无论您是经验丰富的 AI 开发人员还是刚刚起步,Langflow 都提供了将您的 AI 想法变为现实所需的工具。
2025-03-29 10:10:26
1137
原创 SQLAlchemy系列教程:事件驱动的数据库交互
在现代Web应用开发中,数据库交互往往需要超越简单的CRUD操作。当用户注册成功后自动发送欢迎邮件?在订单创建时同步库存数据?这些场景都需要监听数据库状态变化并触发相应逻辑。SQLAlchemy的事件系统为此提供了优雅的解决方案。
2025-03-29 06:48:24
558
原创 pre-commit 入门指南:如何用自动化钩子提升团队代码质量
pre-commit 是提升代码质量的“守门员”,尤其适合需要标准化流程的中大型团队。通过合理配置,它能显著减少生产环境中的代码问题,同时培养工程师的规范化意识。对于个人开发者,它也是维护代码整洁的有效工具。
2025-03-26 17:45:36
889
原创 SQLAlchemy系列教程:如何从结果中排除敏感信息
在使用 SQLAlchemy 获取数据时,妥善处理诸如密码之类的敏感信息至关重要。本文展示了在 SQLAlchemy 中排除查询结果中密码信息的各种方法。总之,SQLAlchemy提供了各种方法来从查询结果中排除密码或任何敏感信息。明智地使用这些技术来确保应用程序的数据保持安全。
2025-03-26 15:26:27
399
原创 SQLAlchemy关键词搜索技术深度解析:从基础过滤到全文检索
方案类型核心技术性能特征最佳实践场景LIKE过滤字符串匹配O(N)线性复杂度小数据量/原型开发全文搜索倒排索引+统计语言模型O(logN)+亚毫秒响应大数据量/商业智能分析函数索引空间填充曲线+相似度计算O(logN)+可控延迟中等规模/混合型查询需求接入层:使用前端分词+模糊匹配降低无效请求服务层:结合Elasticsearch构建实时索引数据层:通过SQLAlchemy实现多模式查询兼容。
2025-03-25 21:11:11
793
原创 使用 PyTorch 构建问答系统的 Transformer 模型:从原理到实践
在自然语言处理领域,问答系统(QA)一直被视为衡量机器理解能力的"试金石"。自2017年Transformer架构横空出世,这一领域发生了翻天覆地的变化。本文将带您从零开始,使用PyTorch和Hugging Face生态系统构建一个完整的问答系统,并深入探讨如何通过自定义数据微调模型。我们还将通过一个医疗领域的实际案例,揭示模型优化的核心技巧。
2025-03-25 15:28:53
996
原创 SQLAlchemy系列教程:全文检索实战指南
全文搜索指的是搜索引擎能够扫描数据库中的文本内容,以查找与搜索查询相匹配的内容。与可能仅查看特定列或行的传统搜索不同,全文搜索会分析指定列中的所有文本,从而返回更全面和相关的结果。在 Web 应用程序中实现全文搜索可以显著提升用户体验,使用户更轻松、更高效地找到特定信息。在 Python Web 开发领域,SQLAlchemy 是一个强大的 ORM(对象关系映射)工具包,它简化了数据库管理和操作。本教程将深入探讨如何在 SQLAlchemy 中实现全文搜索,让您能够为应用程序添加复杂的搜索功能。
2025-03-24 20:51:17
1291
原创 Box-Cox变换:让数据服从正态分布的数学魔法
Box-Cox变换由统计学家George Box和David Cox于1964年提出,其核心是通过参数λ(lambda)对原始数据实施幂变换。数学表达式为:通过参数λ的调节,可以覆盖对数变换(λ=0)、平方根变换(λ=0.5)等多种常见变换当λ=1时,函数退化为线性变换,保持数据原貌要求输入数据必须严格为正数(处理零值时需要做位移处理)Box-Cox变换作为数据预处理的重要工具,通过智能的参数选择实现了数据分布的优化。它在提升模型性能、改善统计分析结果等方面展现出了独特价值。严格适用于正值数据。
2025-03-24 20:33:50
483
原创 时间序列分析实用指南:从基础到实战的关键技巧
时间序列分析的核心在于理解数据的动态规律,并通过模型将其转化为可解释的预测结果。从识别趋势与季节性、确保数据平稳性,到选择ARIMA或Prophet等模型,每一步都需结合理论与工具验证。建议行动使用Python库(pmdarima)复现经典模型。参与Kaggle时间序列竞赛(如“Store Sales预测”),积累实战经验。持续关注领域进展(如深度学习模型LSTM在时序预测中的应用)。通过系统学习与实践,时间序列分析将成为您解决复杂预测问题的强大工具。延伸资源。
2025-03-24 01:30:00
1357
原创 SQLMesh SCD-2 时间维度实战:餐饮菜单价格演化追踪
历史完整性:完整保留6个月内的价格变更记录实时查询能力:支持按任意时间点查询历史价格异常处理:自动处理删除恢复场景,维护数据一致性性能表现:基于时间分区实现亿级记录的毫秒级查询历史数据查询响应时间<50ms每日处理百万级价格变更记录数据准确性达到99.999%支持时间旅行查询(Temporal Query)集成机器学习模型预测价格趋势实现多维度版本对比分析。
2025-03-22 19:59:54
840
原创 数据联邦技术与工具:构建实时数据访问的架构实践
架构解耦:将OLTP系统与分析层完全解耦,业务系统负载下降62%性能提升:查询响应时间从分钟级优化至秒级,峰值吞吐量提升8倍成本优化:消除中间存储层,减少35%的云资源消耗开发效率:通过dbt的CLI工具链,ETL开发周期缩短70%该架构成功支撑了某跨国企业的全球文档管理系统,实现超过200万文档/日的实时更新处理。支持Trino的表重命名操作以完善dbt兼容性集成Flink实现毫秒级CDC处理开发基于向量数据库的智能检索加速层。
2025-03-22 15:11:37
1281
1
原创 SQLMesh SCD Type 2 深度解析:时间戳与列级跟踪的实战指南
双时间戳机制,为开发者提供了灵活的历史状态管理能力。本文将深入解析SQLMesh SCD Type 2的两种实现模式(基于时间戳与列级变更检测)、关键配置项及删除操作处理逻辑,让你彻底掌握缓慢变化维度的双轨制解决方案。是处理历史数据追踪的核心技术。SQLMesh作为新一代数据编织平台,其支持的SCD Type 2模型通过。适用于无明确时间戳字段的场景,通过监控指定列的值变化触发历史记录生成。当源表包含明确的更新时间戳字段时,此模式能实现毫秒级精度变更追踪。列进行重命名,以满足不同数据治理规范。
2025-03-21 21:18:25
1125
原创 用故事与视觉化打造“高光“统计报告:5个实战技巧
去年Q2销售额神秘下滑(悬念),我们像福尔摩斯一样追查线索(行动),发现竟是竞品在华东区搞了’买三送一’(转折),于是我们立刻推出限时满减活动(解决),最终挽回300万损失(反转)…本文将带你用叙事经济学+视觉设计思维,把冷冰冰的数据变成让人欲罢不能的"数据故事会",掌握让数据开口说话的秘密。**进阶技巧:**在报告大纲中插入"情绪曲线图",标注每个章节应有的期待感起伏(如⚠️危机→🎉突破→❓悬念)。“最好的统计报告,是让读者在喝咖啡刷新闻时,突然想起:‘啊,原来那个数据背后的故事,是这样的!
2025-03-21 20:42:29
783
原创 高效检测处理异常值的方法与技巧
本篇全面的教程将介绍如何在实际数据集上检测和处理异常值的相关技巧。了解数据的背景和所属领域数据分布的可视化应用统计方法考虑数据转换处理异常值为了准确地分析数据,检测和处理异常值是必要的。你可以使用领域知识、采用可视化和统计方法来帮助识别异常值。一旦检测到异常值,就可以删除错误条目或不相关的异常值,在不丢失数据点的情况下减轻极端值的影响,并使用更合理的值来推算异常值,以保持数据的完整性。通过应用这些技术和策略,你可以高效地管理现实世界数据集中的异常值。
2025-03-20 14:55:15
1079
原创 Pytorch系列教程:微调BERT实现命名实体识别
在 PyTorch 中对 BERT 进行微调以用于命名实体识别涉及一系列步骤,从加载预训练的 BERT 分词器和模型开始,到准备数据集、训练,最后使用训练好的模型来识别命名实体。有了合适的数据集和适当的模型调整,这种技术使你能够利用最先进的 NLP 架构应用于各种实际场景。
2025-03-20 11:45:33
1354
原创 PyTorch系列教程:使用预训练语言模型增强文本分类
预训练语言模型显著提高了文本分类系统的能力。通过利用PyTorch和Transformers,你可以有效地实现和实验最先进的模型,改进您的解决方案,以提供更准确和细致的结果。使用预训练模型进行文本分类为优化NLP解决方案打开了大门,这些解决方案可以应用于各种领域,如情感分析、垃圾邮件检测等。
2025-03-19 20:36:24
557
原创 SQLMesh系列教程:SQLMesh虚拟数据环境
如果你以前使用过dbt,那么您会对SQLMesh项目框架感到熟悉。开发人员已经确保SQLMesh与dbt向后兼容,允许现有dbt项目的无缝迁移。config.yml - 在您的项目的根目录下,您会发现一个简洁明了的基于 YAML 格式的 SQLMesh 配置文件。此文件内容简短,主要侧重于设置网关(多个网关时)以及定义模型的默认 SQL 语言。Audits - 验证数据是一项至关重要的功能,它应当让数据的生产者和消费者都确信数据符合预期。dbt 也提供了类似的功能,称为“数据测试”。
2025-03-19 15:50:47
1194
原创 使用python seaborn创建配对图:从核心概念到实战案例
通过灵活运用 Seaborn 的配对图功能,结合色系设计,可以高效揭示数据的多维特征和隐藏规律。
2025-03-18 21:01:52
999
原创 SQLMesh 系列教程:Airbnb数据分析项目实战
在本文中,我们将探讨如何利用dbt项目的代码库来实现一个简单的SQLMesh项目。本文的基础是基于Udemy讲师为dbt课程创建的示例项目,可以在这个中获得。这个dbt项目是相对完整的示例,我们将使用它作为模板来演示SQLMesh(下一代数据转换工具)的功能。dbt示例项目在Snowflake中使用Airbnb数据集分析端到端的数据工程工作流。该项目包括将原始数据加载到Snowflake中,创建各种模型,并执行转换以从数据中获得有意义的见解。
2025-03-18 20:34:06
1203
原创 SQLMesh系列教程:利用date_spine宏构建日期序列实践指南
开发效率提升通过代码生成代替手动编写日期序列,减少50%以上的重复代码量。如促销活动日期范围只需修改起始/结束参数即可重用。维护成本降低自动对齐日期边界,避免因节假日调整、时区变化等导致的逻辑错误。某电商团队使用后,日期相关BUG下降73%。生态兼容性强支持多云数据库环境,团队迁移数据库时无需修改日期轴生成逻辑。实测在AWS Redshift、Google BigQuery等平台均可稳定运行。行动号召立即尝试将集成到你的sqlmesh项目中,体验声明式SQL带来的开发自由!
2025-03-17 15:59:29
709
原创 使用Python seaborn创建帕累托图:从核心概念到实战案例
帕累托图定义帕累托图(Pareto Chart)是一种条形图与折线图的组合图表,基于意大利经济学家维尔弗雷多·帕累托提出的80/20法则(即约80%的结果由20%的原因导致)。条形部分:按数值大小降序排列,展示各类别的频次或影响程度。折线部分:显示累积百分比(Cumulative Percentage),反映前N项因素对整体的贡献占比。目的:快速识别导致大多数问题的关键少数(Key Few)因素。帕累托图核心作用优先级排序:明确哪些因素是影响结果的主要驱动者。资源聚焦。
2025-03-17 00:15:00
935
原创 使用Python Seaborn创建热力图:从核心概念到实战案例
库,从热力图的核心原理到实际操作案例,逐步讲解如何利用热力图揭示数据背后的隐藏规律。库,开发者可以快速实现从基础热力图到高级交互图表的可视化,满足业务分析、学术研究等多场景需求。掌握热力图的核心原理和定制技巧,不仅能提升数据分析效率,还能更直观地向团队传递洞见。热力图(Heatmap)作为一种直观的数据可视化工具,通过颜色深浅和渐变映射数据值,广泛应用于数据密度分析、趋势挖掘和跨维度对比。热力图通过将数值映射到色阶(如蓝→黄→红)或纹理,直观展示二维数据的分布特征。热力图是数据探索与故事讲述的强大工具。
2025-03-15 20:30:25
1377
原创 PyTorch系列教程:基于LSTM构建情感分析模型
本文详细介绍了如何使用PyTorch和LSTMs构建情感分析管道的全过程,从环境设置到模型训练和评估。通过遵循本文的指导,读者可以掌握情感分析的基本技能,并为进一步的研究和开发打下坚实的基础。
2025-03-15 14:20:54
530
原创 PyTorch 系列教程:探索自然语言处理应用
使用PyTorch进行NLP提供了强大的工具,用于处理和从文本数据中提取洞察。通过设置基本的PyTorch环境并将其与transformers等库集成,你可以进行分词、嵌入并构建用于文本分析的模型。尽管本文涵盖了基础知识,但PyTorch的能力扩展到情感分析之外的复杂NLP任务,包括翻译和问答。我们希望这篇介绍能激发您的兴趣,并帮助你开始使用PyTorch进行强大的NLP项目。
2025-03-14 20:42:12
632
原创 SQLMesh宏操作符深度解析:掌握@star与@GENERATE_SURROGATE_KEY实战技巧
STAR和两大操作符的协同使用,标志着SQL编写范式从静态脚本向动态程序化语言的跨越。开发效率:减少重复代码,提升模板复用率系统弹性:适应频繁变化的表结构而无需修改查询逻辑数据治理:自动化生成符合规范的主键/代理键随着SQLMesh生态的持续完善,建议开发者深入探索其宏系统,结合具体业务场景打造高效、健壮的数据访问层。未来我们还将揭秘更多高级操作符,敬请持续关注!延伸阅读SQLMesh官方文档:宏操作符参考手册实战案例:使用@STAR实现多租户数据隔离性能调优:SQLMesh宏执行计划分析。
2025-03-14 20:27:51
1004
原创 SQLMesh 系列教程:解锁SQLMesh的宏与变量魔法
SQLMesh支持三种用户定义的宏变量:global、gateway和local。全局和网关宏变量在项目配置文件中定义,可以在任何项目模型中访问。局部宏变量在模型定义中定义,并且只能在该模型中访问。可以在任何或所有全局、网关和本地级别指定具有相同名称的宏变量。当在多个级别上指定变量时,最特定级别的值优先。例如,局部变量的值优先于同名网关变量的值,网关变量的值优先于全局变量的值。SQLMesh的宏与变量系统,本质上是将SQL开发从“硬编码”推向“声明式编程”的桥梁。语义级宏处理。
2025-03-13 20:43:50
1259
原创 SQLAlchemy系列教程:批量插入数据
使用SQLAlchemy进行批量插入可以通过减少事务时间和资源使用来提高应用程序的性能。无论是处理基本的批量插入还是管理具有重复值或级联操作的更复杂场景,SQLAlchemy都提供了合适的工具。
2025-03-13 19:58:53
589
原创 PyTorch 系列教程:使用CNN实现图像分类
通过PyTorch和卷积神经网络,你可以有效地处理图像分类任务。借助PyTorch的灵活性,可以根据特定的数据集和应用程序构建、训练和微调模型。示例代码仅为理论过程,实际项目中还有大量优化空间。
2025-03-12 21:22:20
1092
原创 Python规则引擎DIY:从零开始构建规则引擎
在我们的规则引擎中,事实是存储信息的基本单元。每个事实可以包含任何与规则引擎设计相关的数据。通过这个类,我们可以轻松地创建包含任意关键字参数的事实对象。访问事实的属性就像访问对象的成员或方法一样简单。条件用于评估事实是否满足特定的逻辑要求。每个条件包含一个名称和一个评估函数,该函数接收一个事实作为输入并返回一个布尔值。动作是在所有条件都满足时执行的操作。每个动作包含一个名称和一个执行函数,该函数接收一个事实作为输入并执行相应的操作。
2025-03-12 20:19:58
485
原创 Pytorch系列教程:可视化Pytorch模型训练过程
深度学习和理解训练过程中的学习和进步机制对于优化性能、诊断欠拟合或过拟合等问题至关重要。将训练过程可视化的过程为学习的动态提供了有价值的见解,使我们能够做出合理的决策。训练进度必须可视化的两种方法是:使用Matplotlib和Tensor Board。在本文中,我们将学习如何在Pytorch中可视化模型训练进度。
2025-03-11 21:41:18
1726
1
原创 Python Openpyxl给Excel增加条件规则
在进入代码实现示例之前,让我们先了解openpyxl中与条件格式相关的一些重要概念。使用openpyxl python库添加条件格式是一个非常简单的过程,一点也不令人困惑。在本教程之后,我们将能够在excel文件中执行条件格式。在本文的代码实现示例中,我们讨论了三种主要的条件格式技术,如基于单元格的规则、颜色比例和基于公式的规则。
2025-03-11 15:44:45
1072
分析示例数据,《DuckDB统计实战:两步验证小费行为的关键假设》博文中的测试数据,地址:https://blog.youkuaiyun.com/neweastsun/article/details/146866
2025-03-31
EDR( Endpoint Detection and Response:端点检测和响应)测试数据,这些数据可能来自主流工具 用于学习探索性分析
2024-12-19
实现项目中,经常需要查看parquet文件的结构,甚至对比两个文件的字段或类型差异 本文通过DuckDB完成介绍查看并对比parquet文件结构过程,希望对你有帮助
2024-12-19
dbt 学习示例项目,非常适合初学者
2024-10-21
钻石示例数据,经典的机器学习示例数据,parquet格式、csv格式,方便用户下载学习
2024-09-16
Spring Cloud Spring Boot and Netflix OSS.pdf
2021-08-26
kafka学习资料合集
2020-09-22
嵌套聚集示例数据--nested-data.json
2020-04-04
Elasticsearch Painless Script入门教程--示例数据-sat.json
2020-03-23
Elasticsearch Painless Script入门教程--示例数据-sat.json
2020-03-23
深入理解 significant terms 和 significant text 分组聚集代码 sports&news.json
2020-02-23
Elasticsearch聚合分析实战(2)-employees.json
2020-02-15
Effective Java 3rd Edition
2018-09-18
YSJSW(Yet Another Java Service Wrapper)
2016-08-30
《在Tomcat上安装部署SAIKU》资源下载
2015-02-10
《kettle中使用javascript步骤和fireToDB函数实现自定义数据库查询 》代码
2014-10-29
《kettle中调用java类》示例代码
2014-10-12
《kettle子转换即映射》博客示例代码
2014-10-05
《示例学习kettle之Excel Writer步骤》博客文章示例
2014-09-16
《详解kettle之User Defined Java Class步骤》示例代码
2014-09-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人