- 博客(63)
- 资源 (17)
- 收藏
- 关注
原创 org.apache.hadoop.ipc.RemoteException(javax.securi ty.sasl.SaslException): GSS initiate failed
hdfs开启kerberos之后,namenode报错,连不上journalnode2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs/server-03.bj@TEST.COM (auth:KERBEROS) caus...
2019-12-05 09:26:55
2099
2
原创 java.lang.RuntimeException: HRegionServer Aborted
date1配置时间服务器1.检查时区$ date -R1+0800东八区区时2.检查软件包如果ntp工具不存在,则需要使用yum安装$ sudo rpm -qa | grep ntp1如果不存在则安装$ sudo yum -y install ntp13.先以网络时间为标准,纠正集群的时间服务器的时间$ sudo ntpdate pool.ntp.org1...
2019-12-04 10:19:06
448
原创 大数据发展历程
一:大数据概念大数据是由数量巨大、结构复杂、类型众多的数据结构的数据集合,在合理时间内,通过对该该数据集合的管理、处理、并整理成为能帮助政府机构和企业进行管理、决策的讯息。二:大数据特点大数据通常具有以下几种特点:1、大量:即数据体量庞大,包括采集、存储和计算的量都非常大。2、高速:要求处理速度快,从各类型的数据中快速获得高价值的信息3、多样:数据种类繁多4、价值:价值...
2019-11-26 16:48:29
9109
原创 Spark整合Elastic
通过elasticsearch-hadoop可以将spark 处理后的数据保存在Elastic上,后续数据的检查和查询非常方便。https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and...
2019-11-26 14:09:33
243
原创 使用spark-submit提交到的各个模式原理图解
Standalone-client提交任务方式提交命令./spark-submit--master spark://node1:7077--class org.apache.spark.examples.SparkPi../lib/spark-examples-1.6.0-hadoop2.6.0.jar1000或者./spark-submit--master s...
2019-11-25 14:06:34
825
原创 一文揭秘HBase 上的 SQL 引擎,Kylin 和 Phoenix 有什么不同
1.1 Apache Kylin 介绍Kylin 是一个分布式的大数据分析引擎,提供在 Hadoop 之上的 SQL 接口和多维分析能力(OLAP),可以做到在 TB 级的数据量上实现亚秒级的查询响应。 ...
2019-11-21 11:36:54
434
原创 记录一次HBase2.x之RIT问题解决方案
1 问题描述Region-In-Trasition机制从字面意思来看,Region-In-Transition说的是Region变迁机制,实际上是指在一次特定操作行为中Region状态的变迁,例如merge、split、assign、unssign等操作。RIT问题指的是在RIT过程中出现了异常情况,然后导致region的状态一直保持在RIT,使得HBase出现异常。2 ...
2019-11-18 20:33:30
1808
原创 Hbase常用可靠的数据迁移方案
常用的HBASE数据迁移目前的方案有非常多种,本文主要介绍两种一种为Hadoop手动数据迁移,另一种为Snapshot数据迁移原理不多介绍,直接实战一、Hadoop层手动数据迁移需要注意:1.Hadoop/hbase版本也要注意是否一致,如果版本不一致,最终load表时会报错2.迁移实时写的表,最好是停止集群对表的写入,在以下方式需要迁移的表为Test步骤说明:将需要迁移的...
2019-11-14 20:33:42
755
原创 Github上最常用的Java16个工具类
在Java中,工具类定义了一组公共方法,这篇文章将介绍Java中使用最频繁及最通用的Java工具类。以下工具类、方法按使用流行度排名,参考数据来源于Github上随机选取的5万个开源项目源码。一. org.apache.commons.io.IOUtilscloseQuietly:关闭一个IO流、socket、或者selector且不抛出异常,通常放在finally块toString:...
2019-11-12 20:21:46
1791
转载 docker centos安装
Docker从1.13版本之后采用时间线的方式作为版本号,分为社区版CE和企业版EE。社区版是免费提供给个人开发者和小型团体使用的,企业版会提供额外的收费服务,比如经过官方测试认证过的基础设施、容器、插件等。社区版按照stable和edge两种方式发布,每个季度更新stable版本,如17.06,17.09;每个月份更新edge版本,如17.09,17.10。一、安装docker...
2019-03-11 16:13:46
150
转载 hbase数据迁移
一、前言HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 图1.HBase数据迁移方案 从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面分别介绍一下。二、Hadoop层数据迁移2.1 方案介绍Hadoop层的数据迁移主要用到DistCp(Distributed Copy), 官方描述是:DistCp...
2018-09-17 13:55:22
307
转载 Spark 序列化问题全解
本文主要从以下三个方面解释Spark 应用中序列化问题 。 1、Java序列化含义。 2、Spark代码为什么需要序列化。 3、如何解决Spark序列化问题。 1、Java序列化含义。Spark是基于JVM运行的进行,其序列化必然遵守Java的序列化规则。序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出...
2018-09-17 11:08:02
1587
原创 Spark:Driver和Job,Stage概念
Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的涵义。官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html): Driver Program: 运行应用程序的main()函数并创建SparkContext的过程...
2018-09-15 18:36:41
1173
转载 spark : foreachpartition
spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。Tr...
2018-09-15 17:18:23
2183
转载 RESTful理解
一.什么是RESTful 面向资源简单的说:RESTful是一种架构的规范与约束、原则,符合这种规范的架构就是RESTful架构。 先看REST是什么意思,英文Representational state transfer 表述性状态转移 其实就是对 资源 的表述性状态转移。资源的地址 在web中就是URL (统一资源标识符)资源是REST系统的核心概念。 所有的设计都是以资源...
2018-08-31 09:20:26
201
原创 Spark 整合springboot问题整合
1.netty包冲突 common包跟spark自带的netty冲突 需要删掉 其他的包java.lang.AbstractMethodError: org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/ReferenceCounted;at io.netty....
2018-08-30 11:32:18
3442
转载 java lambda 双冒号
前面的章节我们提及到过双冒号运算符,双冒号运算就是Java中的[方法引用],[方法引用]的格式是类名::方法名注意是方法名哦,后面没有括号“()”哒。为啥不要括号,因为这样的是式子并不代表一定会调用这个方法。这种式子一般是用作Lambda表达式,Lambda有所谓懒加载嘛,不要括号就是说,看情况调用方法。 例如表达式:person -> person.getAge...
2018-08-24 15:01:00
831
转载 JavaSpark-sparkSQL
入门 起点:SparkSession Spark中所有功能的入口点就是这个SparkSession类。要创建一个基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSession;SparkSession spark = SparkSession .builder() .app...
2018-08-17 09:18:43
3330
原创 SparkContext转化为JavaSparkContext
自动Spark2.0发布以来,官方最开始推荐的代码由final SparkConf conf = new SparkConf().setMaster("local").setAppName("---");final JavaSparkContext ctx = new JavaSparkContext(conf);这种形式转化成为了SparkSession spark = Spa...
2018-08-16 15:41:51
3195
转载 spark与缓存
Spark与缓存预期成果1.1 当前问题当前以图搜图应用存在的问题:当前使用spark RDD方案无法达到数据实时加载(每10分钟加载一次,虽然可配,但太短可能会有问题) Spark RDD内存会被分为两部分,一部分用来缓存数据一部分用来计算,Spark默认配置只有差不多50%的内存用于缓存(也就是说executor配了100G,只有50多G可以被用来做缓存),虽然比例可以进...
2018-08-16 09:55:09
332
转载 spark java rdd
package com.hand.study;import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.ja...
2018-08-09 09:53:54
387
转载 JavaSpark-RDD编程-常见操作、持久化、函数传递、reduce求平均
RDD是Spark的核心抽象,全称弹性分布式数据集(就是分布式的元素集合)。Spark中对数据的所有操作无外乎创建RDD、转化已有RDD和调用RDD的操作进行求值。Spark 会自动将 RDD 中的数据分发到集群上,并将操作并行化执行 RDD在抽象上来说是一种不可变的分布式数据集合(外部文本文件是在创建RDD时自动被分为多个分区)。它是被分为多个分区,每个分区分布在集群的不同节点(自动分发)...
2018-08-08 20:51:17
814
转载 hbase默认配置
hbase.rootdir:这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hbas...
2018-08-03 09:42:12
5368
转载 StringTokenizer
StringTokenizer是字符串分隔解析类型,属于:java.util包。1.StringTokenizer的构造函数 StringTokenizer(String str):构造一个用来解析str的StringTokenizer对象。java默认的分隔符是“空格”、“制表符(‘\t’)”、“换行符(‘\n’)”、“回车符(‘\r’)”。 StringTokenizer(String...
2018-07-30 09:53:22
6529
转载 hbase自带性能测试
1) 顺序写:sequentialWrite例如,预分区100 regions,100线程并发,顺序写1亿条数据:hbase org.apache.hadoop.hbase.PerformanceEvaluation--nomapred --rows=1000000 --presplit=100 sequentialWrite 100注意事项:a. hbase PE默认使用mapred...
2018-07-24 16:53:30
4133
3
转载 hbase 参数说明
一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。 2)、hbase.h...
2018-07-24 16:15:30
1141
转载 HBase的几种调优(GC策略,flush,compact,split)
一:GC的调优1.jvm的内存 新生代:存活时间较短,一般存储刚生成的一些对象 老年代:存活时间较长,主要存储在应用程序中生命周期较长的对象 永久代:一般存储meta和class的信息 2.GC策略 Parrallel New Collector,垃圾回收策略 并行标记回收器(Concurrent Mark-Sweep Collector) 3.Par...
2018-07-24 16:06:12
967
转载 hbase 内存规划
线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景,对多种工作模式下的参数进行详细说明,并结合相关示例对集群规划中最核心模块-内存规划进行介绍。一方面希望读者能够了解H...
2018-07-24 12:14:14
188
转载 HBase内存规划
线上HBase集群应该如何进行参数配置?这其实是很多HBase初学者在实践环节都可能会遇到的问题,有些人会选择默认配置,有些人会选择其他公司的推荐配置;诚然,这样的参数配置在大多数情况下都能正常工作,但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实践经验,针对不同应用场景,对多种工作模式下的参数进行详细说明,并结合相关示例对集群规划中最核心模块-内存规划进行介绍。一方面希望读者能够了解H...
2018-07-24 11:17:03
248
转载 HBase BlockCache系列 – 走进BlockCache
和其他数据库一样,优化IO也是HBase提升性能的不二法宝,而提供缓存更是优化的重中之重。最理想的情况是,所有数据都能够缓存到内存,这样就不会有任何文件IO请求,读写性能必然会提升到极致。然而现实是残酷的,随着请求数据的不断增多,将数据全部缓存到内存显得不合实际。幸运的是,我们并不需要将所有数据都缓存起来,根据二八法则,80%的业务请求都集中在20%的热点数据上,因此将这部分数据缓存起就可以极大地...
2018-07-24 10:45:23
3401
1
原创 js 创建类似java map集合
// Map map = new HashMap();var map = {};// map.put(key, value);map[key] = value; // Object value = map.get(key);var value = map[key]; // boolean has = map.containsKey(key);var has = key in...
2018-07-19 10:08:42
6122
原创 java调用shell脚本里的函数
public static void main(String[] args) {try { // bash /opt/ts.sh 脚本路径 restart 脚本里的函数 String shellSql="bash /opt/ts.sh restart"; Process process = Runtime.getRuntime().exec(shellS...
2018-06-12 15:45:38
667
转载 爬虫出现Forbidden by robots.txt
先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用...
2018-06-08 16:48:16
412
原创 例子1.link_scrapy
#!/usr/bin/env python# -*- encoding: utf-8 -*-"""Topic: 爬取链接的蜘蛛Desc : """import loggingfrom coolscrapy.items import CoolscrapyItemimport scrapyfrom scrapy.spiders import CrawlSpider, Rulefro...
2018-06-08 16:36:17
171
原创 scrapy 爬取京东例子
#-*- encoding: UTF-8 -*-#---------------------------------import------------------------------------import scrapyimport refrom tutorial.items import TutorialItemfrom scrapy import Request#------...
2018-06-08 13:46:22
632
转载 pycharm下打开、执行并调试scrapy爬虫程序
首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1 目录结构如下: 打开Pycharm,选择open 选择项目,ok 打开如下界面之后,按alt + 1, 打开project 面板 在test1/spiders/,文件夹下,新建一个爬虫spider.py, ...
2018-06-08 11:20:26
633
原创 scrapy -----ImportError: No module named 'win32api'
今天在搭建一个虚拟环境过程中,遇到了点问题,在此记录一二。安装完scrapy后,再去安装pywin32,之后再通过命令行调试scrapy项目时,发现任然爆出了如下错误:?12import win32apiImportError: DLL load failed: 找不到指定的模块。按以往经验只要安装了pywin32就可以了,而且我也找到了\venv\Lib\site-packages\win32\...
2018-06-03 11:56:27
219
转载 Python3.6下scrapy框架的安装
首先考虑使用最简单的方法安装[plain] view plain copy pip install scrapy 命令安装,提示 Failed building wheel for TwistedMicrosoft Visual C++ 14.0 is required...于是开始问度娘应该怎样安装,看了几篇博客,虽然和我的问题不十分相同,但是也收到了启发,知道应该怎样解决我的问题了。解决...
2018-06-03 10:51:55
249
转载 hbase jstack工具分析
在分析线上问题时常使用到jstack <PID>命令将当时Java应用程序的线程堆栈dump出来。面对jstack 日志,我们如何查看?首先要清楚线程的状态线程的状态有:new、runnable、running、waiting、timed_waiting、blocked、dead线程状态变迁图:各状态说明:New: 当线程对象创建时存在的状态,此时线程不可能执行;Runnable:当调...
2018-05-20 20:54:19
707
原创 from sklearn import * 出错
导入sklearn模块报一下错误的解决办法可能是电脑配置原因解决方案E:\ruanjian\python3.5.4\Lib\site-packages\sklearn\utils\fixes.py找到这个文件修改为
2018-04-17 14:09:20
8288
Twisted-18.4.0-cp35-cp35m-win_amd64.whl
2018-06-08
pythonMySQL-mysqlclient-1.3.12-cp35-cp35m-win_amd64.whl
2018-06-08
sqoop-1.4.6.tar.gz
2018-04-10
hadoop-2.5.0-src.tar.gz
2018-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人