
大数据
静待花开s0
If you find a path with no obstacles, it probably doesn't lead anywhere.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop 常用指令-查看,下载,解压
如果远程文件太大, 则可以通过head命令截取。截取前10000行到本地路径。原创 2023-07-27 23:06:33 · 865 阅读 · 0 评论 -
数据挖掘的标准流程
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data minin...转载 2019-12-05 23:27:53 · 610 阅读 · 0 评论 -
什么是ETL(简略)
ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:1.Extract,数据抽取,也就是把数据从数据源读出来。2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。3.Load数据加载,把处理后的数据加载到目标处,比如数据仓库。...转载 2019-12-05 23:19:48 · 866 阅读 · 0 评论 -
数据可视化的基本原理——视觉通道
数据可视化为了达到增强人脑认知的目的,会利用不同的视觉通道对冰冷的数据进行视觉编码。我们在数据可视化的时候,一方面,展现可视化对象本身的位置、特性,对应的视觉通道类型是定性或者分类,比如汽车在什么地方、汽车的种类;另一方面,展现对象的某一个属性值大小,对应的视觉通道类型是定量或者定序,汽车的油耗、汽车加油的排队顺序。那么,有哪些具体的视觉通道呢?下面就跟大家介绍几种常见的视觉通道,文末有视...转载 2019-12-05 23:00:35 · 5753 阅读 · 0 评论 -
数据交换格式——json,xml
1 数据交换格式数据交换格式(报文/参数列表),就是客户端与服务器常用的数据交换格式xml,json,html等,常用于面向接口开发。json:一种轻量级数据交换格式。移动端(安卓、IOS)通讯方式采用http协议+JSON格式 走restful风格。很多互联网项目都采用Http协议+JSON。占用宽带小xml:可扩展的标记语言,重量级交换格式。因为xml比较重WebService服...转载 2019-12-05 12:13:58 · 1118 阅读 · 0 评论 -
什么是词云?
1. 定义 “词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 词云”就是数据可视化的一种形式。给出一段文本的关键词,根据关键词的出现频率而生成的一幅图像,人们只要扫一眼就能够明白文章主旨。如下图:2. 词云的生成...原创 2019-12-04 23:44:38 · 33145 阅读 · 0 评论