
大数据书籍
文章平均质量分 91
盒马coding
这个作者很懒,什么都没留下…
展开
-
快学Big Data --Maven(六)
Maven总结 概述Mvn是开发人员比较常用的一个项目管理工具,主要是对项目的创建,编译,打包操作,命令简单使用。接下来简单总结一下常用的命令。 软件下载及配置软件下载mvn需要jdk的支持,jdk下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151...原创 2018-09-02 17:06:41 · 446 阅读 · 0 评论 -
快学Big Data --Git(七)
Git 总结描述git是管理项目的一种工具,目前开发人员比较常用的工具,git简单实用,管理项目方便,接下来简单的介绍下git的常用命令。Git官网:https://git-scm.com/Git 使用工具下载官网:https://www.syntevo.com/smartgit/download/ 该工具简单使用,操作方便,是开发人员的必备神器Git 管理项目模型R...原创 2018-09-02 17:08:44 · 529 阅读 · 0 评论 -
快学Big Data--Linux(八)
Linux总结 概述 Linux是一套免费使用和自由传播的类Unix操作系统(主要用在服务器上),接下来详细的介绍一下linux的一些知识。 Linux 目录结构说明1-1)、目录树 1-2)、目录树介绍/ :根目录,一般的只存放目录把存放文件bin & use/bin :存放可执行的二进制文件boot/:存放linux启动时用到...原创 2018-09-02 17:12:53 · 7012 阅读 · 0 评论 -
快学Big Data -- Tomcat(九)
Tomcat 总结概述 Tomcat 是常用的web开发服务器之一,在并发时有一定的局限性,一般的大型的网站采用NGINX与tomcat结合使用从而减少单个机器压力的问题。 1-1)、Tomcatxi线程池的使用server.xml优化进入apache-tomcat-7.0.55/conf路径,修改server.xml文件。 注释如下的原始配置 <...原创 2018-09-02 17:16:04 · 289 阅读 · 0 评论 -
快学Big Data -- Zookeeper (十)
Zookeeper 总结 学习是一种浮躁的事情,要静下心来慢慢的品味。 -- 小徐 官网:http://zookeeper.apache.org/ 概述 zookeeper 主要负责管理机器的正常运行,如果一台机器突然死掉,利用zookeeper的机制可以快速的启动另一台备份的机器,zoo...原创 2018-09-02 17:17:22 · 296 阅读 · 0 评论 -
快学Big Data -- Redis(十一)
Redis 总结官网:http://redis.io/download 概述 Redis 是一种高性能数据库,储存结构为key-value方式,redis 中的value可以储存很多类型,而却储存的数据特别大,实现在市场上用的比较多的一种非关系型数据库。Redis的特点访问的速度快,数据保存在内存中 有持久化的机制,可以定期的把数据dump到磁盘中 为每一条...原创 2018-09-03 08:26:37 · 1023 阅读 · 0 评论 -
快学Big Data -- Codis (十二)
Codis 集群安装概述 Codis 是一个分布式 Redis 解决方案, 对于上层的应用来说, 连接到 Codis Proxy 和连接原生的 Redis Server 没有显著区别 (不支持的命令列表), 上层应用可以像使用单机的 Redis 一样使用, Codis 底层会处理请求的转发, 不停机的数据迁移等工作, 所有后边的一切事情, 对于前面的客户端来说是透明的, 可以简单的认为...原创 2018-09-03 08:27:51 · 280 阅读 · 0 评论 -
快学Big Data -- Hadoop(十三)
Hadoop总结谁说大象不能跳舞,大象能跳舞啊!!!!不过跳起来是笨重的、、、、、、 概述 Hadoop 是一个性能、可靠性、可扩展性、可管理性的软件,为以后的分布式打下了基础,接下来咱们好好的深刨一下这个有意思的框架。 因为MR是进程集运算,写代码的时候不注意线程安全的问题。 Hadoop 使用的是socket长连接,原理是一直保持着心跳,传送数据,...原创 2018-09-03 08:30:26 · 1132 阅读 · 0 评论 -
快学Big Data -- Hive(十四)
Hive 总结 官网:http://hive.apache.org/ 概述Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。主要用途:用来做离线数据分析,比直接用mapreduce开发效率更高,里哟摩纳哥HDFS作为储存系统,利用mapreduce作为运算的一个工具。Hive使用内存数据库derby占用内...原创 2018-09-03 08:31:51 · 1532 阅读 · 0 评论 -
快学Big Data -- Flume(十五)
Flume 总结官网:http://flume.apache.org/FlumeUserGuide.html 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单...原创 2018-09-03 08:34:28 · 645 阅读 · 0 评论 -
快学Big Data -- Azkaban (十六)
Azkaban 总结 官网:http://azkaban.github.io/ 概述Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。它有如下功能特点:...原创 2018-09-03 08:35:49 · 7305 阅读 · 0 评论 -
快学Big Data -- Sqoop (十七)
Sqoop总结官网:http://sqoop.apache.org/概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 工作机制将导入或导出命令翻...原创 2018-09-03 08:37:01 · 417 阅读 · 0 评论 -
快学Big Data -- Hbase(十八)
Hbase总结官网:http://hbase.apache.org/ 概述 hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作...原创 2018-09-03 08:39:35 · 2260 阅读 · 0 评论 -
快学Big Data -- Hbase导数据的几种方式(十九)
Hbase导数据的几种方式测试数据请到Blog中下载:http://blog.youkuaiyun.com/xfg0218/article/details/51712157 1-1)、hive-hbase-handler导数据A)、反编译JAR包http://www.apache.org/dyn/closer.cgi/hive/选择apache-hive-1.2.1-src.tar....原创 2018-09-03 08:41:02 · 764 阅读 · 0 评论 -
快学Big Data -- 学习态度(五)
学习态度苦心人,天不负。求知若饥,虚心若愚 。珍惜小的概率,维护链接的范围。当你的才华撑不起你的野心时,请静下心来好好的读书。知识如百川、而我心如海、随岁月沉淀、凭水滴石穿之韧性、富我人生、富我人生也。百丈之台,其初则一石耳,由是而两石焉,由是而三石,四石以致于切切石焉,进建亦然,旧日记一事,嫡悟一理,积暂而成教。永远记住你是为自己工作的。收获与投入成正比。...原创 2018-09-02 17:05:00 · 367 阅读 · 0 评论 -
快学Big Data -- 目录(四)
Storm 总结.................................................................................................................................- 597 -概括........................................................原创 2018-09-02 16:49:46 · 316 阅读 · 0 评论 -
JVM 总结
作者:小徐 制作日期:2016/11/30 联系方式:980186257JVM 总结概述:原创 2016-11-30 22:56:37 · 780 阅读 · 0 评论 -
大数据资料数据集
国内数据:链接:http://pan.baidu.com/s/1i5nyjBn 密码:26bm好玩的数据集:链接:http://pan.baidu.com/s/1bSDIEi 密码:25zr微软数据:链接:http://pan.baidu.com/s/1bpmo6uV 密码:286q微博数据集:链接:http://pan.baidu.com/s/1jHCOwCI 密码:x58f遥感原创 2017-01-09 11:03:48 · 3777 阅读 · 2 评论 -
快学Big Data -- Kafka 总结(二十一)
Kafka总结官网:http://kafka.apache.org概述 Kafka是一种高吞吐量的分布式发布订阅消息系统,之所以快是因为Kafka在磁盘上只做Sequence I/O操作,主要是使用了PageCache与SendFile技术,它也可以处理消费者规模的网站中的所有动作流数据,Kafka的设计是把所有的Message都要写入速度低容量大的硬盘,以此来换取更强的存...原创 2018-09-04 12:25:47 · 532 阅读 · 0 评论 -
快学Big Data -- Scala总结(二十二)
Scala总结凡事豫则立,不豫则废;言前定,则不跲;事前定,则不困。 — 《礼记·中庸》官网:http://www.scala-lang.org/download/概述听说scala是一门神一样的语言,接下来咱们也来了解一下这门神奇的语言。 文件类型后缀为class的:相当于创建一个类 后缀为Object的:相当于创建一个对象,或者叫做伴生对象 后缀为Trait...原创 2018-09-04 12:29:18 · 683 阅读 · 0 评论 -
快学Big Data -- Spark 总结(二十三)
Spark总结Spark 集中运行的模式 概述Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能...原创 2018-09-04 12:32:06 · 523 阅读 · 0 评论 -
快学Big Data -- Spark SQL总结(二十四)
Spark SQL 总结概述Spark Sql 是用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。特点spark sql 要比hive执行的速度要快,原因在于spark sql不用通过mapreduce来执行程序,减少了执行的复杂性。 Spark sql 可以将数据转化为RDD(内存中),大大提高了执行的效率。...原创 2018-09-04 12:34:07 · 4019 阅读 · 0 评论 -
快学Big Data -- Spark Streaming 总结(二十五)
Spark-Streaming 总结官方文档http://spark.apache.org/docs/1.6.2/streaming-programming-guide.html概述Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的...原创 2018-09-04 12:37:13 · 667 阅读 · 0 评论 -
快学Big Data -- Elasticsearch 总结(二十六)
Elasticsearch 总结官网 : https://www.elastic.co概述 Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 特点 Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它...原创 2018-09-04 12:39:13 · 611 阅读 · 0 评论 -
快学Big Data -- Logstash 总结(二十七)
Logstash 总结官网:https://www.elastic.co/products/logstash概述Logstash 主要收集一些数据并把数据保存到数据库,或者文件中或者其他的介质中。通过FileWatch的Ruby Gem库来监听文件的变化。Logastash会每个15s的时间去监听问价的变化情况。特点 Logstash收集日志的能力很强轻,不限日志来源,...原创 2018-09-04 12:41:36 · 511 阅读 · 0 评论 -
快学Big Data -- Kibana 总结(二十八)
Kibana 总结 官网:https://www.elastic.co/中文网站:http://kibana.logstash.es/content/kibana/v4/setup.html概述Kibana 主要是查看ES状态的一个工具,因有较强的图标界面的操作受到了广大用户的喜爱。安装Kibana软件下载:链接:http://pan.baidu.com/s/1sl...原创 2018-09-04 12:46:28 · 346 阅读 · 0 评论 -
快学Big Data -- 目录 (一)
快学Big Data(初) 作者:小徐 大数据是这几年备受关注的一个概念,随着电子设备的不断增加,互联网的快速发展,越来越多的设备产生了大量的数据,使...原创 2018-09-02 16:41:49 · 434 阅读 · 0 评论 -
快学Big Data -- 目录(二)
目 录目 录...............................................................................................................................- 3 -学习态度...........................................................原创 2018-09-02 16:46:09 · 399 阅读 · 0 评论 -
快学Big Data -- 目录(三)
Hadoop 总结...............................................................................................................................- 297 -概述.........................................................原创 2018-09-02 16:47:46 · 403 阅读 · 0 评论 -
快学Big Data -- Storm 总结(二十)
Storm 总结官网:http://storm.apache.org/概括storm可以实时的提供数据。处理的方式为流方式。各个组件的介绍:Storm是什么 1、低延迟:都说了是实时计算系统了,延迟是一定要低的。 2、高可用:性能不高就是浪费机器,浪费机器是不明智的选择。 3、分布式:可支持分布式的配置,使计算效果大大提高。 4、可扩展:伴随着业务的发展...原创 2018-09-03 08:42:43 · 422 阅读 · 0 评论