
大数据
勇敢牛牛_
不念往昔,无惧将来。
展开
-
Hadoop、Hive、Spark的简单认识和总结
前言在大数据相关的工作和开发中,最常见的就是Hadoop、Hive、Spark这三个框架了,关乎大批量的数据处理,这三个是不二之选。刚开始的时候一直没搞清楚这三者之间的关系,后来随着在工作中的了解和学习,才逐渐弄清楚这三个之间的联系和区别。Hadoop首先是Hadoop。Hadoop可以说是大数据处理的基石,其他框架大多数都是以Hadoop为基础,从各个方面的不同角度进行优化和改进而演变而来...原创 2019-12-14 16:06:26 · 5648 阅读 · 1 评论 -
基于Apache Hadoop2.9.2使用云服务器搭建hadoop集群
前言本文基于Hadoop2.9.2,使用3台云服务器,搭建分布式文件系统HDFS。在开始之前,你需要3台云服务器,可以在同一家购买也可以在不同家购买,比如,分别从BAT购买3台学生机,会很便宜,前提是要有学生身份。服务器配置来源主机名CPU磁盘容量阿里云al-s21核2G39.25G腾讯云tx-s21核2G39.25百度云bd-s21核2...原创 2019-03-28 21:26:29 · 940 阅读 · 1 评论 -
hadoop-wordcount本地模式及集群模式运行
前言上一篇文章,我们利用3台云服务器搭建了一个Hadoop集群,并通过hadoop -jar命令运行了Hadoop自带的一个wordcount例子,那本片文章就通过实现一个wordcount程序,并在本地模式下运行这个程序,了解一下mapreduce编码规范,最后 再将这个jar包提交到真正的集群上运行。Hadoop maven依赖本想使用springboot集成的hadoop,但是发现其版...原创 2019-03-29 17:12:57 · 1609 阅读 · 0 评论 -
【科加斯数据采集平台】测试版发布
地址:科加斯数据采集平台反馈地址:反馈和建议欢迎大家使用。原创 2019-03-02 15:17:13 · 375 阅读 · 0 评论 -
【数据采集平台】教程-列表页采集
使用教程——列表页采集当前版本测试版列表页采集功能采集列表类型页面。列表类型是指:一个页面中只包含多条采集信息的页面,例如豆瓣影评列表:https://movie.douban.com/subject/26266893/comments?start=0&limit=20&sort=new_score&status=P , 这样的页面往往包含了分页信息,需要进行分页...原创 2019-02-28 09:55:48 · 1194 阅读 · 0 评论 -
【数据采集平台】教程-单页面采集
科加斯数据采集平台使用教程当前版本测试版新建采集功能新建一个爬虫来进行数据采集使用打开“新建采集”菜单,进入爬虫配置界面:基本配置:项是否必填说明示例爬虫名字是任意字符,不可与以有的爬虫名称重复微信文章爬虫采集源是采集的网站名称微信源页面是要采集的源链接,必须为规范的urlhttps://baidu.com匹配开头...原创 2019-02-28 09:55:07 · 2133 阅读 · 0 评论 -
Storm配置项
配置项配置说明storm.zookeeper.serversZooKeeper服务器列表storm.zookeeper.portZooKeeper连接端口storm.zookeeper.rootZooKeeper中Storm的根目录位置storm.zookeeper.session.timeout客户端连接ZooKeepe...原创 2019-01-07 11:08:17 · 426 阅读 · 0 评论 -
strom-kafka简单整合
官方文档:http://storm.apache.org/releases/1.2.2/storm-kafka-client.htmlpom.xmlkafka和storm都使用了较新的版本<dependencies> <dependency> <groupId>junit</groupId>原创 2019-01-03 16:14:01 · 772 阅读 · 0 评论 -
Kafka配置详解
1.Server.propertiesbroker的全局唯一编号,不能重复broker.id=0用来监听链接的端口,producer或consumer将在此端口建立连接port=9092处理网络请求的线程数量num.network.threads=3用来处理磁盘IO的线程数量num.io.threads=8发送套接字的缓冲区大小socket.send.buffer.bytes=...原创 2018-11-26 17:20:48 · 2202 阅读 · 0 评论 -
storm-KafkaSpuout源码分析
一、属性//org.apache.storm.spout.SpoutOutputCollectorprotected SpoutOutputCollector collector;//org.apache.storm.kafka.spout.KafkaSpoutConfigprivate final KafkaSpoutConfig<K, V> kafkaSpoutConfi...原创 2018-11-26 16:22:20 · 778 阅读 · 0 评论 -
storm之spout
一、什么是spoutspout:喷嘴、喷口。即数据从这里发出。spout是storm的数据来源,而spout的数据来源又是从其他地方,比如数据库或者消息中间件中流入的。以Kafka为例,spout先从kafka中拉取数据,然后封装为一个tuple,发给下游的bolt进行处理。对于Kafka来说,spout是消费者;对于bolt来说spout是生产者。为什么要用spout去拉取消息,而不是直...原创 2018-11-23 10:50:22 · 2855 阅读 · 0 评论 -
storm配置项
一、storm配置项其中常用的几个:storm.zookeeper.servers:storm.zookeeper.portstorm.cluster.modenimbus.hostnimbus.superviosr.timeout.secsui.porttopplogy.acker.executorstopology.max.spout.pending二、topology配...原创 2018-11-23 10:48:12 · 529 阅读 · 0 评论 -
storm基本架构
一、基本架构**nimbus:**storm的核心,负责分配任务和监控工作状态**supervisor:**监听nimbus分配的任务,负责启动/关闭worker**worker:**一个worker是一个独立的进程,负责执行一个topology**executor:**worker的执行线程,一个worker中可以有多个executor。**task:**storm中最小的处理单元,...原创 2018-11-23 10:46:00 · 1100 阅读 · 0 评论 -
storm概述
一、什么是storm实时流数据处理平台。大数据套件中的一个。storm就属于上图所示的流式计算中的一个。几个名词:流数据:引用自百度百科:流数据是指由数千个数据源持续生成的数据,通常也同时以数据记录的形式发送,规模较小(约几千字节)。流数据包括多种数据,例如客户使用您的移动或 Web 应用程序生成的日志文件、网购数据、游戏内玩家活动、社交网站信息、金融交易大厅或地理空间服务,以及来...原创 2018-11-23 10:44:15 · 1026 阅读 · 0 评论