数据采集技术
综述
数据采集是大数据产业的基石。
数据采集的重点不在于数据本身,而在于如何才能解决数据运营中的实际商业问题。通过对数据采集技术获取的高质量数据的分析和挖掘,得到的结果对决策行为具有较高的指导性作用
数据采集的定义
数据采集,又称数据获取,是利用一种程序或装置从系统外部采集数据,经过数据清洗,最终输入到存储系统中。
数据采集的特点
- 自动化:以高自动化的方式采集并存入
- 全面化:涵盖了全量采集和增量采集,不对数据采样
- 多样化:采集方式不单一
- 丰富化:采集的数据丰富,不只有基本的数据
数据的类型
- 结构化数据:具有固定格式或有限长度的数据,元数据、数据库
- 半结构化数据:非关系模型的,且有基本固定结构模式的数据,log、xml、json
- 非结构化数据:数据结构不规则或不完整,没有已经确定的数据模型,办公文档、图片、图像、音视频
数据采集的范围
- 数据库数据
- 业务系统的日志
- 互联网应用数据
- 容器的日志
- 操作系统的日志
- 网络设备的日志
数据采集的要求
- 全面:要求数据量足够且有分析价值,数据面广能够支撑分析需求
- 多维:采集的数据能够灵活、快速的自定义数据多种属性和不同类型,从而满足不同的分析需求
- 高效:采集数据要有针对性的采集,避免采集无

数据采集是大数据产业的基础,其重点在于解决商业问题。自动化、全面化、多样化的采集方式捕获丰富的结构化、半结构化和非结构化数据,如数据库、日志、互联网应用等。采集要求全面、多维、高效和及时,涉及网页爬取和log数据收集等流程,通过Python等工具进行处理。数据采集后进行清洗并存储,为决策提供有力支持。
最低0.47元/天 解锁文章
2629

被折叠的 条评论
为什么被折叠?



