
大数据
Z_J_T
这个作者很懒,什么都没留下…
展开
-
开源工具之Nginx
是什么?Nginx是一个轻量级、高性能、稳定性高、并发性好的HTTP和反向代理服务器。功能反向代理Nginx作为反向代理器可以代表我们要访问的目标服务器。Nginx作为代理服务器的工作流程:代理服务器接收请求,然后将请求转发给内部网络中集群化的服务器,后端服务器将请求处理并返回结果给Nginx代理服务器,Nginx再将结果转发给客户端。期间有一个速度匹配问题:由于客户端和Nginx...原创 2018-10-20 18:39:09 · 666 阅读 · 1 评论 -
开源工具介绍之Flume
是什么?一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统。功能收集数据对数据简单处理,并写到数据接收方的能力介绍一下flume的主要组件:Flume的运行核心是Agent。(一个完整的数据收集工具)Agent主要由source,channel,sink三个组件组成。一个Agent包含多个sources和sink。允许多个Agent连接在一起成多级跳。source从...原创 2018-10-21 18:55:24 · 553 阅读 · 0 评论 -
开源工具之kafka
是什么?一个分布式的消息系统(消息队列),在流式计算中,一般用来缓存数据。kafka作为一个集群运行中在一个或多个服务器上。主要核心组件Topic:消息根据Topic进行归类Producer:消息生产者,就是向kafka broker发消息的客户端。Consumer:消息消费者,向kafka broker取消息的客户端。broker:每个kafka实例(server),一台kafka...原创 2018-10-21 20:40:59 · 659 阅读 · 0 评论 -
开源工具之Hadoop
是什么?Hadoop是一种分析和处理大数据的软件平台,是一种对大量数据进行分布式处理的软件框架。Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储MapReduce为海量的数据提供了计算.HDFS是什么?Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。特点HD...原创 2018-10-21 21:03:31 · 876 阅读 · 0 评论 -
开源工具之storm
是什么?一个免费并开源的分布式实时计算系统。功能可靠地处理无限的数据流可以实时处理数据对于实时处理实时处理一般流程在Storm之前,进行实时处理是非常痛苦的事情: 需要维护一堆消息队列和消费者,他们构成了非常复杂的图结构。消费者进程从队列里取消息,处理完成后,去更新数据库,或者给其他队列发新消息。问题所在我们主要的时间都花在关注往哪里发消息,从哪里接收消息,消息如何序列化,真...原创 2018-10-21 21:18:53 · 1142 阅读 · 0 评论 -
开源工具之Redis
是什么?Redis 是一个高性能的key-value存储系统(数据库)。作用解决应用服务器的cpu和内存压力减少io的读操作,减轻io的压力关系型数据库的扩展性不强,难以改变表结构,redis可以很好解决这个问题适用场景:数据高并发的读写海量数据的读写对扩展性要求高的数据不适场景:需要事务支持(不适用于非关系型数据库)基于sql结构化查询储存,关系复杂使用场景...原创 2018-10-21 21:42:20 · 462 阅读 · 0 评论 -
开源工具之Druid.io
是什么?Druid.io是面向海量数据的、用于实时查询与分析的OLAP存储系统。Druid的四大关键特性:亚秒级的OLAP查询分析。Druid采用了列式存储、倒排索引、位图索引等关键技术,能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。实时流数据分析。区别于传统分析型数据库采用的批量导入数据进行分析的方式,Druid提供了实时流数据分析,采用LSM(Long structur...原创 2018-10-21 21:56:33 · 534 阅读 · 1 评论 -
开源工具之mysql
是什么?关系型数据库(一个结构化的数据集合)存储在磁盘上存储的都是二维表,行称记录,列称字段,支持SQL语句能干啥?存储大量数据,方便检索跟访问保存信息,保证数据信息的一致和完整共享与安全通过组合分析产生有用的信息那为什么使用mysql呢?文件也能存数据,为什么用数据库?mysql和文件都在磁盘上存储,那他们的性能瓶颈在磁盘IO上mysql支持SQL,直接通过SQL语句...原创 2018-10-21 22:03:27 · 637 阅读 · 0 评论