大数据学习之旅_零零天的博客-优快云博客

大数据学习之旅

关注

关注数：文章数：64 文章阅读量：57965 文章收藏量：94

作者: 零零天

这个作者很懒，什么都没留下…

展开

专栏收录文章

54..大数据之旅——java分布式项目15--商品搜索整合,爬虫,Jsoup介绍

商品搜索整合实现步骤：1.配置nginx和hosts文件配置示例：#全文搜索solr服务器server {listen 80;server_name solr.jt.com;#charset koi8-r;#access_log logs/host.access.log main; proxy_set_header X-Forwarded-Host $hos...

原创 2019-01-23 09:46:17 · 371 阅读 · 0 评论
37.大数据之旅——网站流量统计项目

网站流量统计案例概述背景说明网站流量统计是改进网站服务的重要手段之一，通过获取用户在网站的行为，可以分析出哪些内容受到欢迎，哪些页面存在问题，从而使网站改进活动更具有针对性。统计指标说明常用的网站流量统计指标一般包括以下情况分析：1）按在线情况分析在线情况分析分别记录在线用户的活动信息，包括：来访时间、访客地域、来路页面、当前停留页面等，这些功能对企业实时掌握自身网站流量有很大的帮助...

原创 2019-01-22 09:04:26 · 7720 阅读 · 0 评论
36.大数据之旅——[高并发系列] NIO

说明：36章开始应该在大数据前面的内容，放在35章后面来说了BIO网络通信概述网络编程的基本模型是Client/Server模型，也就是两个进程之间进行相互通信，其中服务端提供位置信息（绑定的IP地址和监听端口），客户端通过连接操作向服务端监听的地址发起连接请求，通过三次握手建立连接，如果连接建立成功，双方就可以通过网络套接字（Socket）进行通信。在基于传统同步阻塞模型开发中，Ser...

原创 2019-01-22 08:51:04 · 471 阅读 · 0 评论
35.Python爬虫框架pyspider

爬虫概述Python爬虫基础之Urllib库Python爬虫框架上一篇 34.DataV使用文档

原创 2019-01-21 15:23:32 · 292 阅读 · 0 评论
5.大数据学习之旅——hadoop-HDFS

NameNode查看edits文件：hdfs oev -i edits_0000000000000000022-0000000000000000023 -o edits.xml查看fsimage文件：hdfs oiv -i fsimage_0000000000000000024 -o fsimage.xml -p XMLfsimage_0000000000000000023.md5 — ...

原创 2019-01-10 12:04:12 · 274 阅读 · 0 评论
5.大数据学习之旅——hadoop-简介及伪分布式安装

Hadoop简介是Apache的顶级项目，是一个可靠的、可扩展的、支持分布式计算的开源项目。起源创始人：Doug Cutting 和Mike2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据，获取了10亿个网页数据 - 10亿个网页数据是非结构化数据，就意味着这些数据是无法存储到数据库中Doug发现了Google在2003年发表的一篇论文:《G...

原创 2019-01-10 11:44:28 · 401 阅读 · 0 评论
4.大数据学习之旅——Avro

一、概述Avro是一种远程过程调用和数据序列化框架，是在Apache的Hadoop项目之内开发的。它使用JSON来定义数据类型和通讯协议，使用压缩二进制格式来序列化数据。它主要用于Hadoop，它可以为持久化数据提供一种序列化格式，并为Hadoop节点间及从客户端程序到Hadoop服务的通讯提供一种电报格式。二、序列化和反序列化概述数据序列化就是将对象或者数据结构转化成特定的格式，...

原创 2019-01-10 11:18:08 · 660 阅读 · 0 评论
3.大数据学习之旅——Zookeeper

ZookeeperZookeeper是开源的分布式的协调服务框架，是Apache Hadoop的子件，适用于绝大部分分布式集群的管理分布式引发问题：死锁：至少有一个线程占用了资源，但是不占用CPU活锁：所有线程都没有把持资源，但是线程却是在不断地调度占用CPU需要引入一个管理节点为了防止入口的单点问题，需要引入管理节点的集群需要在管理阶段中选举出一个主节点需要确定一套选举算法...

原创 2019-01-10 10:57:59 · 419 阅读 · 3 评论
2.大数据学习之旅——红黑树

红黑树自平衡二叉查找树 — 时间复杂度O(logn)特征：每一个节点非红即黑根节点一定是黑色所有的叶子节点一定是黑色的nil节点红节点的子节点一定是黑节点任意一条路径中的黑色节点个数一致插入的节点一定是红色修复：当前节点为红，并且父节点且叔父节点为红，那么将父节点以及叔父节点涂黑，然后将祖父节点涂红当前节点为红，并且父节点为红且叔父节点为黑，当前节点为右子叶，以当前...

原创 2019-01-10 10:21:25 · 291 阅读 · 0 评论
1.大数据学习之旅——NIO

Concurrent包jdk1.5所提供的一个针对高并发进行编程的包。阻塞式队列 - BlockingQueue遵循先进先出(FIFO)的原则。阻塞式队列本身使用的时候是需要指定界限。ArrayBlockingQueue - 阻塞式顺序队列 - 底层是基于数组来进行存储,使用的时候需要指定一个容量, 容量在指定之后不可改变。— 生产-消费模型LinkedBlockingQueue - ...

原创 2019-01-10 10:09:18 · 259 阅读 · 0 评论
34.DataV使用文档

DataV使用文档官网：https://data.aliyun.com/visual/datav注册登录一条龙不解释。我的可视化界面：我的数据界面点击添加数据：进入自己的屏幕：点击一个图表，观察右侧：于Sql语句的详细说明：初始默认情况下数据源为静态数据类型。下部的内容也为静态json数据格式，json的key值表示，x轴（x），y轴（y），以及类型（s），...

原创 2019-01-21 08:49:36 · 5921 阅读 · 2 评论
33.大数据可视化技术--datav、echarts

可视化概述Echarts上一篇 32.python爬虫入门

原创 2019-01-21 08:44:49 · 6062 阅读 · 0 评论
29.大数据之旅--最后总结再过一遍补充

高并发基础!!NIO - NIO的概念和作用粘包问题常见协议基本概念Connect Accept Read WriteBIO - 面向流操作字节字符 NIO - 面向通道操作缓冲区 Buffer Channel Selector Buffer capacity position limit Channel SocketChannel ServerSocketChann...

原创 2019-01-15 13:56:09 · 319 阅读 · 0 评论
Maven配置详解

<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/maven-v4_0_0.x...

原创 2019-01-25 09:33:33 · 1228 阅读 · 0 评论
62.大数据之旅——电信日志项目05-电信日志数据处理

一、zebra项目介绍与分析如图所示，电信运营商的用户通过连接到互联网中的各种网络设备访问一个网站时，其访问信息会通过基站在网络中传递，一个基站负责收集某一片小区用户的上网数据，这些收集的数据都以日志信息进行存储。所有的用户上网行为都会有所记录。比如用户通过3G/4G下载某个app应用，或者登陆、使用某一个App软件，以及通过App发送的数据都会记录。这样一来，我们就可以根据日志文件，来分析...

原创 2019-01-25 09:30:33 · 3897 阅读 · 7 评论
38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)

Hive的占位符与文件的调用概述对于上述的工作，我们发现需要手动去写hql语句从而完成离线数据的ETL，但每天都手动来做显然是不合适的，所以可以利用hive的文件调用与占位符来解决这个问题。Hive文件的调用实现步骤：1）编写一个文件，后缀名为 .hive，比如我们现在我们创建一个01.hive文件目的是在 hive的weblog数据库下，创建一个tb1表01.hive 文件编写...

原创 2019-01-22 09:16:43 · 1325 阅读 · 1 评论
39.大数据之旅——网站流量统计项目之数据存储（HBase）

数据存入HBaseFluxInfo代码：这是一个javabean，用来封装tuple中各字段信息，然后存入hbase中。一条访问记录就是一个实例对象。有一处需要注意：在插入hbase表时，需要指定行键。我们规定的行键规则为： sstime_uvid_ssid_随机数;package cn.tarena.domain; public class FluxInfo {private S...

原创 2019-01-22 09:25:40 · 704 阅读 · 0 评论
53.大数据之旅——java分布式项目14-信息检索技术之Lucene，Solr

信息检索技术概念介绍全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索主要对非结构化数据的数据检索。结构化数据和非结构化数据结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。非结构化数据：指不定长或无固定格式的数据，如邮件，word文档，网页等。当然有的地方还会提到第三种，半结构...

原创 2019-01-23 09:38:24 · 503 阅读 · 0 评论
52.大数据之旅——java分布式项目13-购物车,Quartz使用,RabbitMQ（消息队列）

购物车拦截器获取用户信息CartInterceptor 类代码：//购物车拦截器public class CartInterceptor implements HandlerInterceptor{@Autowiredprivate HttpClientService httpClientService;private static final ObjectMapper MAPPER...

原创 2019-01-23 09:28:35 · 1891 阅读 · 0 评论
51.大数据之旅——java分布式项目12-整合Dubbo

与Dubbo整合<dependencies><dependency><groupId>javax.servlet</groupId><artifactId>javax.servlet-api</artifactId><version>3.1.0</version>&

原创 2019-01-23 09:17:04 · 426 阅读 · 0 评论
50.大数据之旅——java分布式项目11-Dubbo

Dubbo介绍介绍Dubbo|ˈdʌbəʊ| 是阿里巴巴于2011年10月正式开源的一个由Java语言编写的分布式服务框架，致力于提供高性能和透明化的远程服务调用方案和基于服务框架展开的完整SOA服务治理方案。每天为2,000+个服务提供3,000,000,000+次访问量支持，并被广泛应用于阿里巴巴集团的各成员站点，官方首页：http://dubbo.io/Dubbo受到很多公司的使用...

原创 2019-01-23 09:10:13 · 1074 阅读 · 0 评论
49.大数据之旅——java分布式项目10-SSO单点登录

SSO单点登录对于传统方式的登录，比如用户要买一件商品，它会先用到购物车系统，通过浏览器登录一次，然后通过购物车，进入订单系统，提交订单。但是注意，因为购物车系统和订单系统是独立的，也就是说登录玩购物车系统之后，还需要再登录一次订单系统才能进入。造成这个问题的原因是多个独立B/S业务系统间的 Session不能互通数据，即Session的数据不能共享。解决思路：加一台单点登录服务...

原创 2019-01-23 09:03:46 · 749 阅读 · 0 评论
48.大数据之旅——java分布式项目09-前台系统搭建

前台系统搭建搭建步骤：1.创建jt-web Maven web工程，并更改三项环境参数2.让jt-web 继承 jt-parent 工程，并依赖jt-common3.修改jt-web pom.xml文件，添加tomcat7插件，并设置端口号4.引入前台的静态文件，js,css，jpg等资源5.引入Spring 及SpringMVC等配置文件，因为前台系统不直接和数据库做交互，所以不需...

原创 2019-01-23 08:58:25 · 691 阅读 · 1 评论
47.大数据之旅——java分布式项目08--Docker（tomcat，Nginx，redis镜像部署）

Docker介绍Docker是dotCloud公司开源的一款产品。dotCloud公司是2010年新成立的一家公司，主要基于PaaS（Platform as a Service，平台即服务）平台为开发者提供服务。在PaaS平台下，所有的服务环境已经预先配置好了，开发者只需要选择服务类型、上传代码就可对外服务，不需要花费大量的时间搭建服务和配置环境。dotCloud的PaaS平台已经做得足够好...

原创 2019-01-23 08:46:15 · 761 阅读 · 0 评论
46.大数据之旅——java分布式项目07

Redis和Spring整合+后台商品类目缓存Redis 主从配置Redis哨兵Redis集群原理说明1.Redis 集群没有并使用传统的一致性哈希来分配数据，而是采用另外一种叫做哈希槽 (hash slot)的方式来分配的。redis cluster 默认分配了 16384(2^14) 个slot，当我们set一个key 时，会用CRC16算法来取模得到所属的slot，...

原创 2019-01-23 08:35:18 · 424 阅读 · 0 评论
45.大数据之旅——java分布式项目06

Redis介绍Redis 介绍Redis是REmote DIctionary Server（远程字典服务器）的缩写，它以字典结构（key-value键值对结构）存储数据，并允许其他应用通过TCP协议读写字典中的内容。所以，redis是一个key-value存储系统，或者说是一个key-value数据库。Redis是用C语言开发的，并提供了几十种不同编程语言的客户端库，即我们用java语言也...

原创 2019-01-22 10:10:13 · 382 阅读 · 0 评论
44.大数据之旅——java分布式项目05

架构图单机Mysql存在的问题及解决办法1.如果只有一台数据库服务器，存在什么问题？如何解决？如果这台服务器宕机，在故障时间内无法对外提供数据库服务，但更严重的情况是数据的丢失。解决的办法是：做主从复制。主从复制本质上是一种数据冗余策略，属于容灾系统。引入主从复制架构，可以提高DB层的robust。此外，主从复制架构并且也是数据库读写分离的架构基础。2.Master既要提供读服务，...

原创 2019-01-22 10:05:54 · 402 阅读 · 0 评论
43.大数据之旅——java分布式项目04

商品描述的修改及回显前台item-list.jsp代码63行-69行：$("#itemEditWindow").window({ onLoad :function(){ //回显数据 var data = $("#it...

原创 2019-01-22 09:58:41 · 449 阅读 · 0 评论
42.大数据之旅——java分布式项目03

通用Mapper实现查询总记录数实现步骤：0.引入通用Mapper的jar包Pom.xml代码：<dependency><groupId>com.github.abel533</groupId><artifactId>mapper</artifactId&...

原创 2019-01-22 09:52:27 · 482 阅读 · 0 评论
41..大数据之旅——java分布式项目02

后台系统搭建 <build> <finalName>jt-manage-web</finalName> <plugins><plugin><groupId>org.apache.tomcat.maven</groupId><artifactId>tomcat7

原创 2019-01-22 09:44:46 · 323 阅读 · 0 评论
40.大数据之旅——java分布式项目01

大型互联网企业及其架构变迁历程目前，全球有一半的人口在使用互联网，互联网发展最快，发展最好的国家是中国，中国人口多，用户基数大。但是，也正是这个因素，促使中国的互联网技术更新非常迅速，发展非常快。中国在近20年的时间里，涌现了大量的互联网企业，其中具有代表性的企业，比如腾讯，百度，淘宝，京东等，国外企业，Google。互联网企业也面临的巨大的挑战比如：面对用户的高并发访问，尤其像双11促...

原创 2019-01-22 09:30:17 · 540 阅读 · 0 评论
Log4j使用介绍

Log4j简介Log4j有三个主要的组件：Loggers(记录器)，Appenders (输出源)和Layouts(布局)。这里可简单理解为日志类别，日志要输出的地方和日志以何种形式输出。在配置时，这三个组件需要配合在一起进行配置，从而达到日志记录和信息显示的目的。组件：LoggersLoggers组件在此系统中被分为五个级别：DEBUG、INFO、WARN、ERROR和FATAL。这五个...

原创 2019-01-25 09:20:19 · 297 阅读 · 0 评论
61.大数据之旅——电信日志项目04

Linux nc安装Linux nc 介绍和安装使用NetCat，在网络工具中有“瑞士军刀”美誉，其有Windows和Linux的版本。因为它短小精悍（1.84版本也不过25k，旧版本或缩减版甚至更小）、功能实用，被设计为一个简单、可靠的网络工具，可通过TCP或UDP协议传输读写数据。同时，它还是一个网络应用Debug分析器，因为它可以根据需要创建各种不同类型的网络连接。安装方法一：在线...

原创 2019-01-25 09:18:41 · 1737 阅读 · 0 评论
21.大数据学习之旅——flume进阶

flume的Sourcesource学习网址：http://flume.apache.org/FlumeUserGuide.html一、Avro 类型的Source监听Avro 端口来接收外部avro客户端的事件流。和netcat不同的是，avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。所以，如果是avro-source的话，源数据必须是经过avro...

原创 2019-01-12 14:32:08 · 527 阅读 · 0 评论
20.大数据学习之旅——flume安装和配置

实现步骤：安装jdk，1.6版本以上上传flume的安装包解压安装在conf目录下，创建一个配置文件，比如：template.conf（名字可以不固定,后缀也可以不固定）配置agent组件相关配置：#配置Agent a1 的组件a1.sources=r1a1.channels=c1 (可以配置多个，以空格隔开，名字自己定）a1.sinks=s1 (可以配置多个，以空格隔开，...

原创 2019-01-12 14:11:03 · 202 阅读 · 0 评论
19.大数据学习之旅——flume介绍

flume介绍概述Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。Flume是一个高可用的，高可靠的鲁棒性（robust 健壮性），分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flume提供对数...

原创 2019-01-12 14:08:44 · 362 阅读 · 0 评论
18.大数据学习之旅——Kafka(Kafka配置)

Kafka介绍概述官方网址：http://kafka.apache.org/以下摘自官网的介绍：Apache Kafka® is a distributed streaming platform . What exactly does that mean?Kafka是由LinkedIn开发的一个分布式的消息系统，最初是用作LinkedIn的活动流（ActivityStream...

原创 2019-01-12 14:03:26 · 594 阅读 · 0 评论
17.大数据学习之旅——Strom集群中各角色说明&JStorm介绍&Storm的应用场景&Trident框架& Storm可靠性保证&Storm的容错机制

Strom集群中各角色说明概述每一个工作节点上运行的Supervisor监听分配给它那台机器的工作，根据需要启动/关闭工作进程，每一个工作进程执行一个Topology的一个子集；一个运行的Topology由运行在很多机器上的很多工作进程Worker组成。那么Storm的核心就是主节点（Nimbus）、工作节点（Supervisor）、协调器（ZooKeeper）、工作进程（Worker）、任...

原创 2019-01-12 13:51:54 · 1050 阅读 · 0 评论
16.大数据学习之旅——Storm集群配置&Strom集群中各角色说明&Storm并发机制*

实现步骤：安装和配置jdk安装和配置zookeeper上传和解压storm配置storm安装目录conf目录下的storm.yaml文件storm.yaml配置示例：注意配置项开头需要有空格，：后面需要跟空格，否则启动会报错5.在storm安装目录下创建tmp目录Storm配置说明以下为必须修改的项：1）storm.zookeeper.services:配置zookeep...

原创 2019-01-12 13:36:28 · 540 阅读 · 0 评论
15.大数据学习之旅——Storm

Storm介绍介绍官方网址：http://storm.apache.org/官方对于Storm的介绍：Apache Storm is a free and open source distributed realtime computation system.Storm makes it easy to reliably process unbounded streams of ...

原创 2019-01-12 13:26:18 · 901 阅读 · 0 评论

大数据学习之旅

作者: 零零天

54..大数据之旅——java分布式项目15--商品搜索整合,爬虫,Jsoup介绍

37.大数据之旅——网站流量统计项目

36.大数据之旅——[高并发系列] NIO

35.Python爬虫框架pyspider

5.大数据学习之旅——hadoop-HDFS

5.大数据学习之旅——hadoop-简介及伪分布式安装

4.大数据学习之旅——Avro

3.大数据学习之旅——Zookeeper

2.大数据学习之旅——红黑树

1.大数据学习之旅——NIO

34.DataV使用文档

33.大数据可视化技术--datav、echarts

29.大数据之旅--最后总结再过一遍 补充

Maven配置详解

62.大数据之旅——电信日志项目05-电信日志数据处理

38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)

39.大数据之旅——网站流量统计项目之数据存储（HBase）

53.大数据之旅——java分布式项目14-信息检索技术之Lucene，Solr

52.大数据之旅——java分布式项目13-购物车,Quartz使用,RabbitMQ（消息队列）

51.大数据之旅——java分布式项目12-整合Dubbo

50.大数据之旅——java分布式项目11-Dubbo

49.大数据之旅——java分布式项目10-SSO单点登录

48.大数据之旅——java分布式项目09-前台系统搭建

47.大数据之旅——java分布式项目08--Docker（tomcat，Nginx，redis镜像部署）

46.大数据之旅——java分布式项目07

45.大数据之旅——java分布式项目06

44.大数据之旅——java分布式项目05

43.大数据之旅——java分布式项目04

42.大数据之旅——java分布式项目03

41..大数据之旅——java分布式项目02

40.大数据之旅——java分布式项目01

Log4j使用介绍

61.大数据之旅——电信日志项目04

21.大数据学习之旅——flume进阶

20.大数据学习之旅——flume安装和配置

19.大数据学习之旅——flume介绍

18.大数据学习之旅——Kafka(Kafka配置)

17.大数据学习之旅——Strom集群中各角色说明&JStorm介绍&Storm的应用场景&Trident框架& Storm可靠性保证&Storm的容错机制

16.大数据学习之旅——Storm集群配置&Strom集群中各角色说明&Storm并发机制*

15.大数据学习之旅——Storm

29.大数据之旅--最后总结再过一遍补充