大数据
tansuoliming
了解C、C++、OC、IOS、精通java(javaee、java-web、SSM)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
storm-01(4)
测试如下: 思考3 - 如果存在下列tuple和聚合器,请问经过聚合器的结果是什么: 假设输入流包括字段 ["a", "b"] ,并有下面的partitions: Partition 0: ["a", 1] ["b", 2] Partition 1: ["a", 3] ["c", 8] Partition 2原创 2018-09-15 12:00:00 · 207 阅读 · 0 评论 -
spark-02
0.scala高度scala站在两个人的肩膀上,c语言和java语言,源码中出现native说明在调用c来提升性能1. 下划线1) 极大减少scala代码2) 把函数的左边部分全部去掉3) 把参数列表中的所有的参数都换成下划线案例:案例:格式:方法名 空格 _ 会把方法变成一个函数案例:给定部分参数案例:写文件,可以指定字符编码防止中文乱码package com.limingimpor...原创 2018-04-30 19:58:05 · 343 阅读 · 0 评论 -
spark-01
1. spark优势1) 和hadoop比较MR问题: a.频繁落地,每一步中间结果都落地(基于硬件和网络都很差环境,设计时很注重数据安全传递)-按现在硬件和网络情况“过渡设计”map b.大的计算是有很多步骤,如果每一步都落地,计算不能迭代运行文件太大,1g,海量数据1TB,海量 spark解决1) mr频繁落地,落地还是需要,但是可以部分过程不落地,也就是说,落地次数减少2...原创 2018-04-30 17:47:36 · 285 阅读 · 0 评论 -
Storm-02
六.配置Storm集群资源:storm:p03v 1.概述 Storm集群遵循主/从结构。 Storm的主节点是半容错的。 Strom集群由一个主节点(nimbus)和一个或者多个工作节点(supervisor)组成。 除此之外Storm集群还需要一个ZooKeeper的来进行集群协调。 2.nimbus nimbus守护进程主要的责任是管理,协调和监控在集群上...原创 2018-04-19 12:37:27 · 203 阅读 · 0 评论 -
网站流量统计分析系统-05
定时任务计算:br、avgTime、avgDeepbr编写两个topologypackage com.liming.flux;import java.util.UUID;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.generated.StormTopology...原创 2018-04-22 22:57:17 · 355 阅读 · 0 评论 -
Storm-01(1)
一、Storm概述Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应...原创 2018-04-18 18:59:31 · 386 阅读 · 0 评论 -
hadoop-----06
shuffle过程Shuffle过程是MapReduce奇迹发生的地方 Map阶段:1.如果map任务量小,缓冲区里的数据没有达到溢写阈值,就不会发生spill过程,就不会发生merge过程。针对这种情况,reduce会只从缓冲区里拽数据。2.如果发生了spill溢写,但是最后一次可能存在数据残留情况,此时,会进行flush操作,flush到文件里。确保数据都在文件中,从而在merger阶段数据不...原创 2018-04-06 17:57:21 · 271 阅读 · 0 评论 -
网站流量统计分析系统-04
vvpackage com.liming.flux;import java.util.UUID;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.generated.StormTopology;import backtype.storm.spout.SchemeA...原创 2018-04-22 19:46:50 · 442 阅读 · 0 评论 -
网站流量统计分析系统-03
进行业务计算:pv、uv、vv、newip、newcustpvpackage com.liming.flux;import java.util.UUID;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.generated.StormTopology;import...原创 2018-04-22 14:04:01 · 445 阅读 · 0 评论 -
hbase-phoenix
一、Phoenix概述 HBase基础上架构的SQL中间件 让我们可以通过SQL/JDBC来操作HBase二、Phoenix安装配置1.到apache下载Phoenix安装包,要注意版本和HBase匹配 Phoenix 2.x – HBase 0.94.x Phoenix 3.x – HBase 0.94.x Phoenix 4.x – HBase 0.98.1+ 2.上传到linu...原创 2018-04-18 12:18:52 · 332 阅读 · 0 评论 -
hbase
一、HBASE概述Hadoop Database NoSQL 面向列 提供实时更新查询 。。。。 是一个高可靠性 高性能 面向列 可伸缩的分布式存储系统 利用hbase技术可以在廉价的PC上搭建起大规模结构化存储集群。 HBase利用HadoopHDFS作为其文件存储系统,利用Hadoop的MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具...原创 2018-04-17 17:49:46 · 196 阅读 · 0 评论 -
sqoop
==================================================================== sqoop 沟通hdfs和关系型数据库的桥梁,可以从hdfs导出数据到关系型数据库,也可以从关系型数据库导入数据到hdfs 下载: Apache 提供的工具 安装: 要求必须有jdk 和 hadoop的支持,并且有版本要求。 上传...原创 2018-04-17 10:48:28 · 165 阅读 · 0 评论 -
Kafka
一、Kafka概述Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发,使用 Scala语言编写,之后成为 Apache 项目的一部分。 Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。 它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归...原创 2018-04-19 17:29:40 · 201 阅读 · 0 评论 -
cookie
1.在myeclipse中创建一个空的web工程CookieDemo0(其中创建一个空sevlet)通过浏览器访问这个工程,发现请求头和响应头中都没有cookie的信息2.创建一个工程CookieDemo工程,带有设置cookie的servlet(1)通过浏览器访问这个servlet,发现响应头中带有cookie信息,并且是自己设置的key和value(2)再次访问这个servlet,发现请求头中...原创 2018-04-20 00:57:50 · 282 阅读 · 0 评论 -
storm-01(5)
6.投影操作 - projectionpackage com.liming.projection;import backtype.storm.Config;import backtype.storm.LocalCluster;import backtype.storm.tuple.Fields;import backtype.storm.utils.Utils;import st...原创 2018-09-15 11:56:06 · 244 阅读 · 0 评论 -
storm-01(2)
以下介绍可靠性处理2、3(顺序处理、每个只处理一次)============================================================Strom的可靠处理引发的问题 在Storm进行可靠处理时,由于tuple可能被再次发送,所以在storm上进行统计个数之类的实现时,可能会存在重复计数问题。 Storm提供了机制可以实现"按顺序处理且只处理一次"的...原创 2018-09-15 11:51:21 · 209 阅读 · 0 评论 -
storm-01(3)
3.分区聚合操作 分区聚合操作由 聚合器 - CombinerAggregator, ReducerAggregator, Aggregator 来实现。 分区聚合操作(partitionAggregate)对每个Partition中的tuple进行聚合. 与前面的Function在原tuple后面追加数据不同,分区聚合操作的输出会直接替换掉输入的tuple,仅输出分区聚合操作中发...原创 2018-09-15 11:38:33 · 298 阅读 · 0 评论 -
hadoop-----05(2)
7th:English、math、chinese获取块文件名称三个文件中存储着三个学生三个月的各门课成绩,计算每个学生每门课的总成绩package com.liming;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.i...原创 2018-09-14 16:40:06 · 227 阅读 · 0 评论 -
spark
一、spark为什么兴起1.大数据平台(1)列举hadoop(亚马逊)、spark(2)两个核心分布式计算:MapReduce、spark MR分布式计算不足:离线计算 (中间运算结果存盘)pb级别的数据 Spark(解决快慢问题)spark速度快分布式存储 :HDFS 、gfs[谷歌分布式文件系统系统] 、S3[亚马逊分布式文件存储系统]、tachyon内存分布式文...原创 2018-04-28 23:31:02 · 471 阅读 · 0 评论 -
spark-06:MLlib
一、DAG图0.准备集群并启动spark版本: spark-1.5.2-bin-hadoop2.6一主三从: 192.168.239.129 master 192.168.239.130 slave 192.168.239.131 slave 192.168.239.144 slave配置:/home/software/spark-1.5.2-bin-hado...原创 2018-05-06 13:57:29 · 429 阅读 · 0 评论 -
关键性能
消息队列kafka: 25w/s产生消息,50w/s消费消息消息队列rabitMQ: 1.8万/s原创 2018-05-06 10:38:26 · 161 阅读 · 0 评论 -
spark-05:sparkStreaming
1.工作原理spark处理的单元RDD一个是流式数据,动态,一个是RDD,相当静态sparkSteaming把流式数据,按规定的时间间隔就分成很多小块,每个小块数据就定下来了,每个小块就有开始的地方,和结束的地方。相当就变成一个“静态”的数据,这样的好处就可以继续应用spark的RDD相关的算子,并行计算。2.容错流式数据和传统RDD有不同特性1) RDD容错,血缘lineage2) 流式数据...原创 2018-05-06 01:55:29 · 282 阅读 · 0 评论 -
网站流量统计分析系统-02
0.将埋点收到的数据通过flume导入到kafka中a.配置flume的配置文件配置文件有两种:第一种是需要导入插件的,第二种是使用flume原生的。以下配置是第二种#agenta1.sources = r1a1.sinks = k1a1.channels = c1#Source a1.sources.r1.type = avroa1.sources.r1.bind...原创 2018-04-21 13:53:33 · 585 阅读 · 0 评论 -
spark-04:spqrkSql
1.spark-sql风靡之因1) SQL,foxpro baseIII,SQLServer(微软的产品) 2000,2005,2008,2012,SyBase (微软的前生【大概在版本6时被微软买了版权,就像微软在操作系统方面,买了dos的版权】,powerdesigner就是sybase的产品,它天生就是做大数据量的,出现要比oracle还早), Oracle 6i(2000年),7i,8i...原创 2018-05-02 23:31:51 · 1455 阅读 · 0 评论 -
网站流量统计分析系统-01
一、需求分析网站流量统计系统需求分析二、项目架构三、具体实现1.js埋点0准备工作(准备两个页面a.jsp和b.jsp):a.jsp代码如下:<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%><!DOCTYPE html><html&g..原创 2018-04-20 20:26:41 · 4972 阅读 · 1 评论 -
spark-03
1. 监控键盘,实现单词统计1) (DriverActor收集数据)监控键盘,System.in,say hello,回车时,把一行数据读入,对这一行数据进行处理。按空格分割,也可以按逗号分隔2) (MapperActor)map处理,tuple (say,1)3) (ReduceActor)reduce处理,(x,y)=>x+y4) print输出结果package com.l...原创 2018-05-01 23:46:00 · 180 阅读 · 0 评论 -
hadoop---02
hadoop的命令1.执行:hadoop fs -mkdir /park 在hdfs 的根目录下,创建 park目录 2.执行:hadoop fs -ls / 查看hdfs根目录下有哪些目录 3.执行:hadoop fs -put /root/1.txt /park 将linux操作系统root目录下的1.txt放在hdfs的park目录下 4.执行:hadoop ...原创 2018-03-28 00:14:13 · 266 阅读 · 0 评论 -
hadoop--01
hadoop伪分布模式安装伪分布式模式:用多个线程模拟多台真实机器,即模拟真实的分布式环境。安装步骤:0.关闭防火墙执行:service iptablesstop 这个指令关闭完防火墙后,如果重启,防火墙会重新建立,所以,如果想重启后防火墙还关闭,需额外执行:chkconfig iptables off 1.配置主机名执行:vim /etc/sysconfig/network编辑主机名注意:主机...原创 2018-03-28 00:12:13 · 642 阅读 · 0 评论 -
阻塞队列(BlockingQueue)
阻塞队列(BlockingQueue):ArrayBlockingQueue、LinkedBlockingQueue、PriorityBlockingQueue优先级队列package queue;import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.PriorityBlockingQueue;...原创 2018-03-21 11:08:22 · 306 阅读 · 0 评论 -
文件通道
文件通道:重点掌握RandomAccessFile,他的通道既可读又可写package channel;import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.RandomAccessFile;import java.nio.ByteBuffer;...原创 2018-03-21 10:27:05 · 327 阅读 · 0 评论 -
hadoop------07
1.自定义格式输入案例一:文件----word.txtpackage com.liming;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text...原创 2018-04-07 17:54:46 · 187 阅读 · 0 评论 -
selector
Selector:聊天室中的分发器package zll.zebar.selector;import java.net.InetSocketAddress;import java.nio.ByteBuffer;import java.nio.channels.SelectionKey;import java.nio.channels.Selector;import java.nio.c...原创 2018-03-21 09:17:42 · 204 阅读 · 0 评论 -
nio
Nio: accept、connect、read、write(ServerSocketChannel, SocketChannel)package zll.nio;import java.io.IOException;import java.net.InetSocketAddress;import java.nio.ByteBuffer;import java.nio.channels....原创 2018-03-21 09:06:14 · 149 阅读 · 0 评论 -
ByteBuffer
ByteBuffer使用package zll.buffer;import java.nio.ByteBuffer;import org.junit.Test;/** * 这个类是测试ByteBuffer字节缓冲区的 * 对于缓冲区,有三个元素 * * 容量 capcity 指的是创建缓冲区的大小上限 * 限制 limit * 位置 position 通过位置来灵活操作...原创 2018-03-21 09:04:24 · 254 阅读 · 0 评论 -
bio
Bio: Socket四个阻塞方法,accept、connect、read、write(ServerSocket, Socket)package zll.bio;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.InetSocketAddres...原创 2018-03-21 09:02:15 · 206 阅读 · 0 评论 -
RPC
概念RPC Remote Procedure Call Protocol——远程过程调用协议。应用场景:一台计算机通过网络通信从远程计算机(另一台计算机)上请求服务,并得到远程 计算机返回的结果。最常见应用于分布式集群环境中,集群里各节点(计算机)之间的网络通 信。模式:客户机/服务器的模式。发起请求的叫客户机。客户机:客户机上有数据,并明确数据应该怎么被处理,但是客户机并没有处理数据的能力 (处...原创 2018-03-24 23:14:17 · 239 阅读 · 0 评论 -
Avro
1.创建maven工程2.导入依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache....原创 2018-03-24 23:00:49 · 646 阅读 · 1 评论 -
序列化
序列化的作用1.数据的持久化。存在磁盘上,以磁信息存储,01-高低电平-电流-电磁转换-磁2.网络数据传输。Java原生序列化的局限性1.只能针对java语言2.序列化的性能不是很好。3.没有对序列化后的数据的压缩处理机制。package com.liming.serializable;import java.io.Serializable;public class Student imp...原创 2018-03-24 18:39:58 · 136 阅读 · 0 评论 -
Eclipse中zookeeper插件安装和使用
1.需要联网2.打开Eclipse=》help=》install new software3.点击add,添加如下的url:http://www.massedynamic.org/eclipse/updates/4.选择好插件,三个全部勾选。然后点击next进行安装5.显示正在下载和安装6.调出Zookeeper的视图7.新建Zookeeper连接服务,并填好name和RootPath,然后点击a...原创 2018-03-24 17:29:16 · 6377 阅读 · 2 评论 -
hadoop---03
1.可视化界面(填写自己的IP,端口是50070)2.eclipse中插件的安装安装步骤1.下载hadoop插件,注意:插件的版本要和用的hadoop版本保持一致2.将插件jar包放在eclipse安装目录的plugins目录下3.将hadoop安装包解压到指定的一个目录(后面要用这个安装目录)4.重启eclipse,windows=>下发现多出Map/Reduce选项卡,点击=》选择had...原创 2018-03-30 01:21:15 · 352 阅读 · 0 评论
分享