
大数据
文章平均质量分 55
Happywuw
学习如逆水行舟,不近则退!
由于目前公司有很不错的学习平台,以及个人笔记平台,暂停博客更新。但也会定期把笔记批量更新到博客。
展开
-
(scala/java/python)实现分析商店购买记录
Spark机器学习入门·编程(scala/java/python)实现分析商店购买记录http://www.aboutyun.com/thread-20707-1-1.html(出处: about云开发)问题导读1.Scala是如何实现分析商店购买记录的?2.对比Scala程序与Java程序实现差别?3.三种语言各有什么特点?Spark安装目转载 2017-01-16 15:54:15 · 1101 阅读 · 0 评论 -
Hadoop,HBase高可用集群搭建
楼主亲自踩过所有的坑,最终搭建成功!在这里附上百度网盘地址:内容包含搭建所需要的软件,配置文件,以及整个配置过程的视频!地址:下面说一下遇到的一个大坑:视频中有一处格式化zkfc 的地方,它要求三台机器的zookeeper必须是启动状态,而且命令输入的是 -formatZK 此处ZK均为大写,输错了会出现莫名其妙的问题。在搭建过程中一定要注意网络原创 2017-07-19 14:50:20 · 518 阅读 · 0 评论 -
Zookeeper笔记(一)初识Zookeeper
为什么需要ZookeeperZookeeper是一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。在解决分布式数据一致性上,Zookeeper已经成为了目前唯一一个比较成熟的方案。Zookeeper致力于提供一个高性能、高可用,且具有严格的顺序访转载 2017-10-13 11:12:38 · 409 阅读 · 0 评论 -
Zookeeper笔记(二)Paxos算法与Zookeeper的工作原理
Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。paxos算法Zookeeper 采用paxos一致性算法保证了数据的一致性,Paxos算法是一种基于消息传递且具有高度容错特性的一致性算法。具体的算法不多作介绍,转载 2017-10-13 11:13:43 · 443 阅读 · 0 评论 -
Zookeeper笔记(三)部署与启动Zookeeper
下载zookeeper安装包去Zookeeper官网,下载地址http://zookeeper.apache.org/releases.html,建议下载稳定版本,我下载的是zookeeper-3.4.6.tar.gz,解压到合适的目录,就可以进行配置和启动。为了操作简便,配置环境变量:#Set ZooKeeper Enviromentexport ZK_HOM原创 2017-10-13 11:14:47 · 456 阅读 · 0 评论 -
kafka分布式消息队列 — 基本概念介绍
【http://www.inter12.org/archives/818】这个应该算是之前比较火热的词了,一直没时间抽出来看看。一个新东西出来,肯定是为了解决某些问题,不然不会有它的市场。先简单看下。官方介绍:分布式、分区、支持复制的日志提交系统适用场景:顾名思义,特别适合用于系统日志的异步记录,对于数据稳定性、一致性、可靠性要求不高的场景,追求的是高吞吐量。非传统的MQ产品!转载 2017-11-30 21:34:22 · 417 阅读 · 0 评论 -
HBase 常用Shell命令
转自:http://my.oschina.net/u/189445/blog/595232 两个月前使用过hbase,现在最基本的命令都淡忘了,留一个备查~ hbase shell命令 描述 alter修改列族(column family)模式count转载 2017-12-01 10:51:50 · 5550 阅读 · 0 评论 -
偏最小二乘法
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。(2)偏最小二乘回归可以较好地解决许多以往用普通多元转载 2018-01-30 14:02:34 · 4312 阅读 · 0 评论 -
2018面试——6.Zookeeper专题
1、有了解过zookeeper吗?讲一下你对分布式事物的理解?如果要你实现分布式事务你怎么做?2 、如何用zookeeper实现分布式锁的? 3、分布式一致性是啥?原理?几种实现的优缺点4、zk的选主过程,脑裂问题如何解决...原创 2018-04-25 16:23:06 · 495 阅读 · 0 评论 -
搭建RocketMQ
RocketMQ搭建步骤开发环境64位 centos7(虚拟机,1G内存)64位 jdk1.8maven 3.5.0Gittomcat(用于启动rocketmq-console)rocketmq 3.2.6(最好选择maven仓库中已有的版本,保持客户端依赖的jar包和服务器版本一致)rocketmq-console环境变量配置vi /etc/profile 打开文件配置如下:JAVA_HOME=...原创 2018-05-03 15:52:07 · 411 阅读 · 0 评论 -
Zookeeper专题——1、分布式事务(a概述)
zookeeper到底是什么? zookeeper实际上是yahoo开发的,用于分布式中一致性处理的框架。最初其作为研发hadoop时的副产品。由于分布式系统中一致性处理较为困难,其他的分布式系统没有必要 费劲重复造轮子,故随后的分布式系统中大量应用了zookeeper,以至于zookeeper成为了各种分布式系统的基础组件,其地位之重要,可想而知。著名的hadoop,kafka,dubbo 都...原创 2018-05-04 16:43:48 · 2041 阅读 · 1 评论 -
2018面试——9.Spark专题
1,Spark相关知识相关知识原创 2018-05-06 19:14:30 · 299 阅读 · 0 评论 -
HBase的RowKey设计原则
转载自:http://www.cnblogs.com/yingjie2222/p/6041560.htmlHBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,转载 2017-06-28 14:51:02 · 548 阅读 · 0 评论 -
Spring+HBase+phoenix踩过的坑
博主含泪记录下踩过的坑!由于业务需求,需要对HBase进行复杂查询,而此时HBaseFilter已经不能满足我们的要求,故想着运用Phoenix来作为中间件,对HBase用SQL语句来查询。Hpoenix 作为一个中间件可以像类似jdbc进行连接。 <bean id="phoenixDataSource" class="com.alibaba.druid.pool.DruidData原创 2017-07-06 16:21:29 · 12872 阅读 · 1 评论 -
HBase连接池技术
先看官方文档的总体描述:hbase有两种获得connection的方法,分别是如下两种: Connection connection = ConnectionFactory.createConnection(conf); Connection connection = HConnectionManager.createConnection(conf)转载 2017-06-27 15:24:35 · 1230 阅读 · 0 评论 -
数据库分库分表
一、 基本思想Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上,从而缓解单一数据库的性能问题。对于海量数据的数据库,如果是因为表多而数据多,这时候适合使用垂直切分,即把关系紧密(比如同一模块)的表切分出来放在一个服务器上。如果表并不多,但每张表的数据非常多,这时候适合水平切分,即把表的数据按某种规则(比如按ID散列)切分到多个数据库(server)上。转载 2017-02-16 10:10:30 · 834 阅读 · 0 评论 -
转载大神博客目录---以备学习的时候好找
转载自:http://blog.youkuaiyun.com/v_july_v/article/details/6543438程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大经典原创系列集锦与总结(七月在线:https://www.julyedu.com/,面试 & 算法 & 机器学习在线课程)作者:July--结构之法算法之道blog之博主。时间:20转载 2017-03-30 13:46:33 · 208 阅读 · 0 评论 -
《Hadoop权威指南》——1、初识Hadoop&&2、关于MapReduce
Chap1 初始hadoopMapReduce比较适合以批处理方式处理需要分析整个数据集的问题,尤其是动态分析。MapReduce对非结构化或半结构化数据非常有效,因为它是中处理数据时才对数据进行解释。即MapReduce输入的键和值并不是数据固有的属性,而是由分析数据的人来选的。MapReduce是一种线性可伸缩编程模型,我们需要写map函数和reduce函数,每个函数定义一个键值对集合原创 2017-04-11 09:54:39 · 666 阅读 · 0 评论 -
《Hadoop权威指南》——3、Hadoop 分布式文件系统
HDFS设计超大文件流式数据访问 一次写入、多次读取大量小文件HDFS的概念HDFS上的文件被分为多个块,作为独立的存储单元,HDFS中小于一个块大小的文件不会占据整个块的空间。 块的大小不易太大,map任务通常一次只处理一个块中的数据,如果任务数太少速度就会慢。显示块信息hadoop fsck / -files -blocks11namenod原创 2017-04-13 17:56:59 · 752 阅读 · 0 评论 -
《Hadoop权威指南》——4、Hadoop的I/O
第4章 Hadoop IOHDFS完整性客户端在读取数据块时会验证校验和:校验和----不可靠传输----校验和客户端(数据+校验和)------管线(dataNode组成)------>最后一个dataNode负责验证校验和。checksumException异常。数据压缩可切分的压缩格式更适合于MapReduceFileOutputFormat.setC原创 2017-04-14 16:16:46 · 875 阅读 · 0 评论 -
Hadoop集群之 ZooKeeper和Hbase环境搭建
转载自:http://blog.youkuaiyun.com/peace1213/article/details/51336369前面讲解了Hadoop完全分布式的搭建,本章主要讲解一下在Hadoop完全分布式已经搭建成功的情况下搭建ZooKeeper和Hbase环境所有软件下载百度云 密码:uup8讲在开头:对于笔者的完全分布式环境请见该文:Hadoop完全分布式安装转载 2017-04-19 14:31:35 · 1378 阅读 · 2 评论 -
hadoop学习之hadoop2.8.0完全分布式集群安装
转载自:http://blog.youkuaiyun.com/peace1213/article/details/51334508本文主要讲解Hadoop完全分布式的搭建,使用vm建立三个相同配置的主机进行搭建。本文讲解所有详细步骤希望对大家有用。全部软件下载百度云链接:失效请评论告诉我密码:io9r1.准备工作 1.1软硬件环境原创 2017-04-19 14:28:18 · 21233 阅读 · 8 评论 -
Hadoop的HA集群启动和停止流程
转载自:http://www.cnblogs.com/jun1019/p/6240770.html假设我们有3台虚拟机,主机名分别是hadoop01、hadoop02和hadoop03。这3台虚拟机的Hadoop的HA集群部署计划如下: 3台虚拟机的Hadoop的HA集群部署计划hadoop01zookeeperj转载 2017-04-27 16:03:26 · 5392 阅读 · 0 评论 -
Hbase 行键设计(rowkey) 实现多条件查询
转自:http://blog.youkuaiyun.com/alphags/article/details/53786777摘要本文主要内容是通过合理Hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中,查询时通过rowkey进行查询,提高rowkey的利用率,加快查询速度。行键(rowkey)并不是简单转载 2017-06-30 10:16:07 · 3564 阅读 · 0 评论 -
HBase连接池 -- HTablePool被Deprecated以及可能原因是什么
1.连接HTable是HBase的client,负责从meta表中找到目标数据所在的RegionServers,当定位到目标RegionServers后,client直接和RegionServers交互,而不比再经过master。HTable实例并不是线程安全的。当需要创建HTable实例时,明智的做法是使用相同的HBaseConfiguration实例,这使得共享连接到RegionSer转载 2017-06-27 15:18:46 · 833 阅读 · 0 评论