Data Science
文章平均质量分 87
Debug_Snail
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何构建高效数据中台体系
数据中台体系构建摘要 数据中台体系构建的核心在于主题设计、流程设计、业务指标、标准设计、模型设计和指标设计六大组件的协同配合。主题设计采用分层结构(主题域分组、主题域、业务对象)将数据按业务逻辑分类组织;流程设计刻画业务活动脉络;业务指标量化业务表现;标准设计保障数据质量;模型设计构建稳健架构;指标设计细化数据度量。这些组件相互关联,共同实现提升数据质量、增强一致性、赋能业务决策、促进资产价值化和保障稳定运行的目标。主题设计尤其关键,通过业务驱动的视角组织数据,为整个数据中台提供结构化基础。原创 2025-07-07 13:48:30 · 1043 阅读 · 0 评论 -
PyArrow 和 Parquet 的组合通过内存优化和高效存储,显著提升大数据处理的性能
**Apache Arrow 实现**:PyArrow 是 Arrow 的 Python 库,提供跨语言的内存数据结构,支持零拷贝数据共享,提升数据处理速度。- **高效计算**:内置计算函数(如过滤、聚合),可直接在 Arrow 内存数据上操作,避免转换为 Pandas 的开销。- **压缩与编码**:高效的压缩算法(如 Snappy、GZIP)和编码方式(如字典编码),降低存储成本。- **嵌套数据**:PyArrow 支持 Parquet 的嵌套结构,但需注意转换时的数据类型匹配。原创 2025-03-25 13:11:39 · 1082 阅读 · 0 评论 -
一文理清概念:数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG)
一种面向主题的、集成的、稳定的数据存储系统,用于支持企业决策分析(如BI、报表)。数据通常经过ETL(抽取、转换、加载)处理,以结构化形式存储,采用。原创 2025-03-10 22:02:12 · 1596 阅读 · 0 评论 -
下载文件保存excel,纯数字超17位会被转成科学记述发之解决
问题描述:将数据导出为excel时,对于文本字符,就要前面加上单引号,但是如果让这个单引号在excel中不显示呢?------------------------------------------------对于身份证这样的长数字串,如果导出excel时,前面不加单引号,则用excel软件打开时,会成为科学计数法。所以必须要加上单引号才行。但是问题是,这个单引号,会显示出来。很不好看...原创 2019-10-15 13:47:46 · 839 阅读 · 0 评论 -
【Data Science之BA Tools】power bi
Power BI是微软最新的商业智能(BI)概念,它包含了一系列的组件和工具。话不多说,先上图:<img src="https://pic4.zhimg.com/50/3c62b6d0810117ac863dc344b2e5ac7f_hd.jpg" data-rawwidth="1443" data-rawheight="736&qu原创 2018-02-05 10:35:32 · 516 阅读 · 0 评论 -
【Data Science 之 基本软硬实力】Google,Facebook的数据科学家应该具备哪些软硬技能
A data scientist is better statistician than any software engineer and better engineer as compared to any statistician. Data scientist is termed to be the “sexiest job of the 21st century. Let’s discu...原创 2018-02-08 11:43:54 · 983 阅读 · 0 评论 -
【Data Sciencs】不同迁移率下的迁移学习
Transfer Learning using differential learning ratesIn this post, I will be sharing how one can use popular deep learning models for their own specific task using transfer learning. We will cover some ...翻译 2018-02-08 14:59:23 · 770 阅读 · 0 评论 -
学习数据科学的本质--资源路径
如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。 本文将为您提供一个网站/资源列表,从中你可以使用数据来完成你自己的数据项目,甚至创造你自己的产品。 一.如何使用这些资源?如何使用这些数据源是没转载 2018-03-09 17:20:27 · 1044 阅读 · 0 评论
分享