
大数据
文章平均质量分 79
coder_Gray
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop之hdfs和yarn
一.简介- 什么是hdfs? hdfs是一种分布式系统,其组成是namenode节点和datanode节点。顾名思义,namenode是“名字节点”,存储的是这部分存储区域的相关信息,并管理datanode节点;而datanode存储的就是数据。一个namenode对应一个或多个datanode节点,每一个datanode运行在一台机器上,所以这些datanode组合到一起将形成一个集群(c原创 2017-03-19 23:59:16 · 1594 阅读 · 0 评论 -
聚类算法——k-means算法
数据挖掘数据挖掘(Data Mining,DM)是从大量数据中提取信息以查看隐藏的知识并便于将其用于实时应用程序。 DM有多种用于数据分析的算法。用于分析的一些主要DM技术是聚类,关联,分类等。聚集是用于探索性数据分析的有效技术,并已在各种领域中找到应用。大多数现有的聚类方法可以分为三类:分区,分层,基于网格和基于模型的方法。基于分区的聚类生成数据分区,使得集群中的对象与其他集群中的对象相比更加相...原创 2018-03-26 19:35:35 · 2877 阅读 · 2 评论 -
python读写json文件
相比java,python对json文件的处理就简单很多。java操作json文件的话需要引用jar包及相关依赖包,想用java操作json的同学可以去百度,这里就不赘述了。首先说读json文件在进行json操作之前,首先要了解json的格式,分辨json文件。 json文件格式一般有两种:第一种:每行一个json类似于以下这种形式:["name":"Tony","age":"21","hob原创 2017-10-30 17:17:00 · 3549 阅读 · 0 评论 -
浅谈Redis---(2)
本篇文章将会继续介绍Redis缓存数据库,将从redis命令、事务和发布订阅等方面来介绍。Redis命令Redis 命令用于在 redis 服务上执行操作。要在 redis 服务上执行命令需要一个 redis 客户端。Redis 客户端在我们之前下载的的 redis 的安装包中。 命令为:$ redis-cli如果需要在远程 redis 服务上执行命令,同样我们使用的也是 redis-cli 命令原创 2017-09-08 11:12:52 · 372 阅读 · 0 评论 -
浅谈Redis---(1)
本文为Redis系列的第一部分,将从Redis的简介、安装配置和数据类型三个方面进行介绍。 现在越来越多的场景开始广泛使用Redis缓存数据库,除了众所周知的速度极快这个优点,还有其他的特性吗?答案是肯定的。前几天在一个微信公众号里看到有人讲这个,今天拿出来分享一下。 新浪微博是全球最大的的Redis集群用户,面对微博常常出现的热点数据,Memcached+mysql解决方案已不能满足,由于Me原创 2017-09-08 10:02:22 · 515 阅读 · 0 评论 -
Apache Kafka---(1)
初识kafkaApache Kafka是一种分布式发布-订阅消息系统。具有分布式,可划分的特点,提供冗余备份的持久性日志服务。用于处理活跃的流式数据。那么Apache Kafka因何而生的呢? 由于一个大系统由各个小的子系统组成,同时搞定在线应用(消息)和离线应用(数据文件,日志)会存在相应的难度,Kafka便由此而来。相对比于其他消息系统(Active MQ和Rabbit MQ等),Kafka具原创 2017-09-06 20:32:15 · 447 阅读 · 0 评论 -
Spark之核心---RDDs(2)
前言在第一章,已经介绍过了RDDs的基本概念,创建方法和特性。那么在本章将介绍RDD的基本操作方法。如果没看过第一篇的点击链接:Spark之核心—RDDs(1)RDD基本操作方法之Transformation顾名思义,Transformation时转换的意思,在RDD中的含义就是从之前的RDD构建一个新的RDD,像map(),filter()等。下面将具体介绍这些操作方法:map():想必熟悉编程原创 2017-08-15 16:53:37 · 559 阅读 · 0 评论 -
Spark之核心---RDDs(1)
随着Spark在分布式计算中越来越流行,启用了内存数据分布级,补充Hadoop上对于迭代问题效率较低的问题,同时Spark和scala的完美融合也使Spark更具优越性。本篇将介绍Spark的核心—RDDs的基本概念,创建方法和RDDs的特性三个部分。 RDDs的操作方法将在下一篇具体介绍。1. RDDs的基本概念首先了解什么是RDDs: RDDs(Resilient distributed d原创 2017-08-14 18:31:04 · 876 阅读 · 0 评论 -
浅谈机器学习框架和算法
概述机器学习,顾名思义,就是学习得像机器一样,形成一种解决某类问题的模型,以便我们遇到问题解决问题。下面我将介绍机器学习的框架和一些常用的比较主流的算法。框架确定目标业务需求:首先我们必须要明确机器学习是要用来解决问题的,一般是通过大量的数据,来预测未来的行为。所以首先要明确的就是业务需求,明确了业务需求,才能采集对应的数据,进行深入研究。数据:这个数据就是我们要分析的基础,但不是机器学习的直接原创 2017-08-03 13:40:42 · 4887 阅读 · 0 评论 -
Fedora 安装配置hive2.1.1
一、hive的运行模式hive共有三种运行模式1. 内嵌模式 将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。 2. 本地模式 这种模式是将元数据保存在本地独立的数据库中(一般是 MySQL),这用就可以支持多会话和多用原创 2017-05-31 14:09:15 · 599 阅读 · 0 评论 -
聚类算法——k-medoids算法
引言上一篇文章我们了解了k-means算法,在文章末尾指出k-means算法对于异常值十分敏感,因为具有极大值的对象可能会产生严重扭曲的数据分布。因此我们可以使用k-medoids算法,它是集群中位于最中心的对象,而不是将集群中的平均值作为参考点。因此,分区的方法仍然可以基于最小化每个对象与其参考点之间的不相似程度之和的原理来进行。这构成了k-medoids方法的基础。k-means对比k-med...原创 2018-03-26 23:51:46 · 47033 阅读 · 0 评论