qq_19917081-优快云博客

原创解决spark多输入路径中，存在个别路径文件为空时报错的方法

在spark开发过程中，当输入路径为多个时，用逗号(,)来拼接路径，但是有时候会遇到，多个输入目录有个别路径下没有文件，这时候提交任务，会直接报错，job不能运行解决问题：1、根据报错信息找到相应代码，报错信息如下 Input Pattern ***** matches 0 files代码位置：FileInputFormat类151行 Path p = arr$[i$]; FileSystem fs = p.getFileSystem(job); FileStatus[] matc.

2020-11-03 14:56:01 1012

转载模型融合

参考这个https://mlwave.com/kaggle-ensembling-guide/中文翻译版本https://blog.youkuaiyun.com/a358463121/article/details/53054686 直接融合csv的github地址：https://github.com/MLWave/Kaggle-Ensemble-Guide...

2018-09-18 18:28:53 275

原创 text-detection-ctpn 图片文字识别 mac环境 cpu版安装

1. 图像文字位置检测 git上下载源码 https://github.com/eragonruan/text-detection-ctpn 因为默认是gpu版本的，修改为不用gpu有几个坑先参考 https://github.com/eragonruan/text-detection-ctpn/issues/43 把需要注释的几个地方注释掉然后修改setu...

2018-09-18 14:39:00 865

原创 mac下 anaconda的安装和使用

1.建议直接从镜像下载，安装，一直点击下一步即可https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安装完之后，环境变量已经写到了 ~/.bash_profile ,但是需要手动source一下：source ~/.bash_profile即可使用conda等指令 2.anaconda 可以单独部署python环境，和其余...

2018-09-18 14:28:52 1315

原创暴力特征法找最佳特征值

import numpy as npimport pandas as pdfrom pandas import DataFrame as DFimport xgboost as xgbimport warningswarnings.filterwarnings("ignore")dic = [22, 135, 591, 592, 593, 594, 595, 737, 948,...

2018-08-14 18:25:44 765 1

原创 rnn

随手记录一些比较模糊的点1.dropout 作用是随机去除一些数据，在rnn中分为input和output的dropout ，output的dropout比较特殊，其中input部分：if is_training and keep_prob < 1: inputs = tf.nn.dropout(inputs, keep_prob)其中is_training 是判断是否是训练阶...

2018-06-26 19:12:52 295

转载 sqoop使用时一些小知识点

1.mysql数据库里面的字段是 tinyint 类型，通过sqoop 抓取出来的数据在HDFS 上面显示的true、false解决办法：在连接上加上一句话tinyInt1isBit=false 即 jdbc:mysql://localhost/test?tinyInt1isBit=false2.如果你指定了\n为sqoop导入的换行符，mysql的某个string字段的值如果包含了\n, 则会导...

2018-03-29 17:42:03 336

转载 Spark SQL在超大集群上的自适应执行实践

Spark SQL在超大集群上的自适应执行实践【spark如何更有效率的执行】http://www.aboutyun.com/thread-23803-1-1.html(出处: about云开发)

2018-01-17 11:34:48 715

转载文章标题

简介：在我的CDH5.11集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和spark2.1版本，均告成功。这里做一下安装spark2.1版本的步骤记录。首先贴出一些官方的网址，

2017-10-26 11:50:27 200

转载 cdh 安装 spark 2.1

http://blog.youkuaiyun.com/u010936936/article/details/73650417

2017-10-26 11:49:24 1679

转载文章标题

一）准备源代码下载代码（使用git） git clone https://github.com/apache/spark.git 切换合适的branch版本（2.1.0） ➜ spark git:(master) git tag 查看分支列表 ➜ spark git:(master) git checkout v2.1.0 切版本 ➜ spar

2017-07-13 14:11:52 320

原创 spark协同过滤结果保存问题

因为对spark的ML不熟悉，asl模型训练出来之后不知道怎么保存，找了些资料都是很老的版本，各种遍历一个一个读取，速度慢的要命，最后看了下spark 1.4出来的新接口： recommendProductsForUsers只需要传入推荐的个数，即可拿到所有的结果。并可以保存到hdfs model.recommendProductsForUsers(numRecommender).flatMap(

2017-05-26 17:36:23 1222

转载 kafka详细介绍

看到一篇很好的介绍kafka的文章1 概述 Kafka与传统消息系统相比，有以下不同：它被设计为一个分布式系统，易于向外扩展；它同时为发布和订阅提供高吞吐量；它支持多订阅者，当失败时能自动平衡消费者；它将消息持久化到磁盘，因此可用于批量消费，例如ETL以及实时应用程序。Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Ka

2017-04-25 14:44:18 905

原创 spark sql 学习中的几点记录

1.spark sql 连接hive 可以直接使用 org.apache.spark.sql.hive.HiveContext，这个是最简单的，一般都是查询统计，不涉及到修改2.spark sql 连接 mysql Spark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame，通过对DataFrame一系列的计算后，还可以将数据再写回关系型数据库中。启动Spark S

2017-04-20 17:31:45 476

原创 cloudera manager迁移主机

公司集群cloudera-scm-server所在的主机发生了故障，一直重启，需要拿去重做系统，但整个cloudera manager集群不想动，服务也不能停止，需要将cloudera-scm-server迁移到别的主机上面，网上没有找到有关的资料，就记录一下迁移过程。迁移步骤：准备工作： 1.备份原cloudera-scm-server所在主机上的mysql数据库 2.在新的主节点安装my

2017-03-28 14:50:59 2592

原创 hash算法

string 的 hash算法 public int hashCode() { int h = hash; if (h == 0 && value.length > 0) { char val[] = value; for (int i = 0; i < value.length; i++) {

2017-03-27 16:33:00 266

转载 JVM知识点总览-高级Java工程师面试必备

http://www.importnew.com/23792.html

2017-03-27 15:21:36 472

转载 spark 笔记

初学spark的时候看到各种map mappartition foreach foreachpartition ，感觉会头晕，自己整理一下，以后记不清的时候可以来看下首先理解partition的概念，一个partition在spark中就是一个rdd的分区，凡是带有partition的方法，都是对分区进行操作，不带的就是对整个rdd操作，一个分区的数据和处理都是在一个executor中完成的，这样

2017-03-23 18:06:07 532

原创 spark streaming 实现kafka的createDirectStream方式！！不坑

网上搜了很多spark streaming 用createDirectStream方式消费kafka的，信息是有很多，但是照着做都遇到了坑，最大的坑就是KafkaCluster是private的！根本就new不了，折腾了一会终于搞定了，也不复杂1. 新建一个包org.apache.spark.streaming.kafka，就是在你的project建一个这个目录的包，在这个包下面的类里，就...

2017-03-09 16:58:08 8017

转载 java 垃圾回收再整理

由于工作中遇到了Direct Memory（只有full GC会回收此内存）内存溢出的问题，顺带就看了很多java垃圾回收的东西，看完感觉很清晰，过段时间一看脑子里又是一片混乱，特意整理一下。首先要理解jvm内存模型jvm分为程序计数器、java虚拟机栈、本地方法栈（Sun HotSpot 虚拟机将java虚拟机栈、本地方法栈合二为一）、java堆、方法区（包括运行时常量）、直接内存（Direc

2017-03-03 14:57:37 316

原创 spark streaming 实现根据文件内容自定义文件名，并实现文件内容追加

spark streaming 从kafka拉取数据，根绝消息内容，需要将不容的消息放到不同的文件夹下，大致内容为从消息中拆分出域名，不同域名分不到不同目录，域名下按消息中的时间分年月日目录，底层目录下自定义文件个数，实现追加由于sparkstreaming 10秒运行一次job，需要重写 OutputFormat，来实现按内容分目录，文件追加val lines = KafkaUtils.cr

2017-02-24 14:53:07 5092 1

原创 cdh 中 spark 配置 lzo

1，在cdh的spark页面中添加如下配置：spark-conf/spark-env.sh 的 Spark 服务高级配置代码段（安全阀）：export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/cloudera/parcels/HADOOP_LZO/lib/hadoop/lib/nativeexport SPARK_LIBRARY_PATH=$S

2017-02-14 16:11:28 1576

原创 hadoop 集群优化

1.系统参数调整中文名称英文名称默认值推荐值或推荐策略修改命令作用备注socket的监听队列最大值net.core.somaxconn1281024或更大echo 1024 >/proc/sys/net/core/somaxconn增大打开文件数据和网络连接上限，调整内核

2017-02-14 16:10:32 3776 3

原创 cdh安装文档

1.集群卸载执行命令 yum remove hbase （装有hbase的节点） yum remove zookeeper（装有zookeeper的节点） yum remove hadoop 检查以下目录 /usr/lib/hadoop* /var/log/ha

2017-02-14 16:09:11 904

转载修改CM管理主机IP

转自：http://www.aichengxu.com/diannao/37833.htm修改CM管理主机IP（CDH5.0集群IP更改），有需要的朋友可以参考下。在一个项目部署过程中，通过CM5.0部署好了集群（27个节点），但是由于种种原因需要更换集群IP网段。由于之前没遇到过这事儿，真是担心会重新再部署集群，还好通过以下方法成功实现了更改。1、修改集群所有机器/etc

2017-02-08 17:40:32 817

转载 linux查看端口是否打开是否被占用

1判断端口是否是通的 telnet 示例：telenet ip port 显示 telnet master 8032Trying 192.168.1.10...Connected to master.Escape character is '^]'. 表示是通的显示Connection

2017-01-25 10:50:42 1158

转载 hbase minor compact

首先hbase从memstore刷新到磁盘，大小会减小很多，128g的menstore刷写到磁盘只有4-5m下面是必须要知道的几个关键参数cdh5.8版本HStore 压缩阈值hbase.hstore.compaction.min :默认值为 3，表示至少需要三个满足条件的store file时，minor compaction才会启动hbase.hstore.compaction.max （cdh

2017-01-18 11:35:53 438

转载 java g1垃圾回收

Hotspot 架构图紫色为调优的主要地方G1 垃圾收集器(Garbage Collector)G1 垃圾收集器G1 (Garbage-First)是一款面向服务器的垃圾收集器,主要针对配备多颗处理器及大容量内存的机器. 以极高概率满足GC停顿时间要求的同时,还具备高吞吐量性能特征. 在Oracle JDK 7 update 4 及以上版本中得到完全支持, 专为以下应用程序设计:可以像CMS收集

2017-01-17 17:24:15 1053

翻译 hdfs+yarn 参数调优

1.系统参数调整中文名称英文名称默认值推荐值或推荐策略修改命令作用备注socket的监听队列最大值net.core.somaxconn1281024或更大echo 1024 >/proc/sys/net/core/somaxconn增大打开文件数据和网络连接上限，调整内核

2017-01-16 17:01:29 9072

转载 java类加载 Constructor类

类的初始化时机1.创建类的实例2.访问类或接口的静态变量（static final常量除外，static final变量可以）3.调用类的静态方法4.反射（Class.forName(packageName.className)）5.初始化类的子类（子类初始化问题：满足主动调用，即访问子类中的静态变量、方法，否则仅父类初始化）6.java虚拟机启动时被标明为启动类的类注

2017-01-06 17:21:54 460

转载 http 和 https 总结

转自：http://www.cnblogs.com/ok-lanyan/archive/2012/07/14/2591204.htmlHTTP是一个属于应用层的面向对象的协议，由于其简捷、快速的方式，适用于分布式超媒体信息系统。它于1990年提出，经过几年的使用与发展，得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版，HTTP/1.1的规范化工作正在进行之中，而且HTT

2017-01-06 14:50:20 272

转载系统整理java垃圾回收

一种垃圾回收算法一般要做2件基本的事情：（1）发现无用信息对象；（2）回收被无用对象占用的内存空间，使该空间可被程序再次使用。根集的概念引用计数器法，引用+1，退出作用域-1，为0满足回收 tracing算法，标记和清除(mark-and-sweep)垃圾收集器 compacting算法 copying算法 generation算法（年轻带，年老带）逐渐进化finalize()方法

2016-12-07 19:34:02 223

翻译 hbase LSM树个人理解

写这些只是记录自己平时看资料的成果，无关其他。先记录下B树和B+树 B树（官方定义）： 1、根节点至少有两个子节点 2、每个节点有M-1个key，并且以升序排列 3、位于M-1和M key的子节点的值位于M-1 和M key对应的Value之间 4、其它节点至少有M/2个子节点。 2-3树比较好理解，是最简单的B树将数据项放入2-3树节点中的规则是: (1)2-节点有两个

2016-09-26 16:03:05 1101

qq_19917081的博客

原创解决spark多输入路径中，存在个别路径文件为空时报错的方法

转载模型融合

原创 text-detection-ctpn 图片文字识别 mac环境 cpu版安装

原创 mac下 anaconda的安装和使用

原创暴力特征法找最佳特征值

原创 rnn

转载 sqoop使用时一些小知识点

转载 Spark SQL在超大集群上的自适应执行实践

转载文章标题

转载 cdh 安装 spark 2.1

转载文章标题

原创 spark协同过滤结果保存问题

转载 kafka详细介绍

原创 spark sql 学习中的几点记录

原创 cloudera manager迁移主机

原创 hash算法

转载 JVM知识点总览-高级Java工程师面试必备

转载 spark 笔记

原创 spark streaming 实现kafka的createDirectStream方式！！不坑

转载 java 垃圾回收再整理

原创 spark streaming 实现根据文件内容自定义文件名，并实现文件内容追加

原创 cdh 中 spark 配置 lzo

原创 hadoop 集群优化

原创 cdh安装文档

转载修改CM管理主机IP

转载 linux查看端口是否打开是否被占用

转载 hbase minor compact

转载 java g1垃圾回收

翻译 hdfs+yarn 参数调优

转载 java类加载 Constructor类

转载 http 和 https 总结

转载系统整理java垃圾回收

翻译 hbase LSM树个人理解

空空如也

空空如也