
大数据
文章平均质量分 85
xiexie1357
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
kafka笔记
简介event streamingcentral nervous system 中枢神经系统event streaming is the practice of capturing data in real time from event sources likedatabases,sensors,mobile devices,cloud services, and software applications in the form of streaming of events;storing t原创 2021-02-02 22:31:57 · 830 阅读 · 0 评论 -
flink笔记
flink简介Flink是什么Apache Flink is a framework and distributed processing enginefor stateful computations over unbounded and bounded data streams。Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink主要特点支持高吞吐,低延迟,高性能的流处理;支持带有事件窗口操作;支持有状态计算的exactly-once原创 2021-01-25 20:51:14 · 231 阅读 · 0 评论 -
【数据中台】六、数据开发:数据价值提炼工厂
六、数据开发:数据价值提炼工厂数据开发是数据资产内容建设的主战场,是数据价值生产过程中的核心环节,可以支撑大批量数据的离线处理、实时处理和数据挖掘等。数据开发设计的产品能力主要包括三个部分,分别是离线开发、实时开发和算法开发。离线开发主要包括离线数据的加工、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关的工作。实时开发主要涉及数据的实时接入和实时处理,简化流数据的加工处理过程。算法开发主要提供简单易用的可视化拖曳方式和Notebook方式来实现数据价值的深度挖掘。不原创 2021-01-17 11:08:16 · 971 阅读 · 0 评论 -
hive入门与实战笔记
hive简介hive是什么hive是构建再hadoop之上的数据仓库平台hive是一个sql解析引擎,它将sql语句转译承mapreduce作业并再hadoop上执行hive表是hdfs的一个文件目录,一个表名对应一个目录名,如果有分区表的话,则分区表对应子目录名。hive历史facebook开发,构建于hadoop集群之上的数据仓库应用最新版本是hive-3.1.2hive体系结构在hadoop体系中的位置设计特征hive是hadoop的数据仓库处理工具,它所有的数据都存储在h原创 2021-01-03 14:53:19 · 421 阅读 · 0 评论 -
【大数据】sklearn数据集结构分析
数据集加载工具sklearn.datasets包嵌入了一些小型玩具数据集。General dataset API 通用数据集API对于不同类型的数据集,有三种不同类型的数据集接口。 最简单的是样本图像的界面。load_sample_images() 加载样本图像以进行图像处理。load_sample_image(image_name) 加载单个样本图像的numpy数组...原创 2018-08-22 14:53:18 · 1023 阅读 · 0 评论 -
python爬虫技术细节合集
1文件处理pathlib1.1文本文件读写from pathlib import Path if __name__ == '__main__': p = Path('..') print(p) print([x for x in p.iterdir() if x.is_dir()]) # assign file with path, n...原创 2018-09-14 11:20:19 · 356 阅读 · 0 评论