data_engineering
文章平均质量分 89
rasssel
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
03数据预处理(Data Preprocessing)
将多个数据源整合成一致的存储结构。将连续属性划分为若干区间,用区间标签替代原值。数据预处理是数据分析与挖掘的关键前置步骤主要包括:数据清洗与集成数据变换与归一化数据约简与离散化虽然已有众多方法,但它仍是数据工程领域的核心研究方向。原创 2025-10-08 15:29:25 · 747 阅读 · 0 评论 -
01数据获取 (Data Acquisition)
例如,搜索引擎的爬虫先抓取全网,其内部的提取器再从HTML中提取标题、关键词和内容用于索引。:监听来自用户(Web请求)或应用程序(网络请求)的传入请求,并返回数据(格式:纯文本、XML、HTML、JSON、媒体文件)。:请求行(方法、URL、版本) + 请求头(Host, User-Agent等) + 空行 + 消息体(可选)。SQL可以指定:要检索什么、从哪个表检索、如何分组记录、结果的显示顺序、返回结果的数量限制。:业务应用数据、传感器设备数据、社交媒体活动、位置数据、消费者行为数据等。原创 2025-09-17 13:49:08 · 1029 阅读 · 0 评论 -
00引言与数据生态系统
易于学习、开源、拥有庞大的社区和丰富的库生态(如Pandas, NumPy, Scikit-learn, Matplotlib)。:将处理后的数据存入合适的存储系统,如数据仓库(用于分析)、数据湖(存储原始各种格式数据)。:SQL数据库、OLTP系统、电子表格、在线表单、传感器(GPS, RFID)、日志文件等。涉及数据整理、处理、清洗和集成。:关系/非关系数据库、API、Web服务、数据流、社交平台、传感器设备等。:网页、社交媒体源、图像、视频、音频、文档、PDF、PPT、媒体日志等。原创 2025-09-17 13:30:07 · 797 阅读 · 0 评论
分享