- 博客(287)
- 资源 (60)
- 收藏
- 关注
翻译 Spark SQL: Relational Data Processing in Spark
Spark SQL: Relational Data Processing in SparkSpark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译,而是本篇翻译作者的理解(可以理解为批准),所以难免有误,特注!当然翻译也可能有误!DateContents2019.03.12First Edition2019.04....
2019-04-07 09:44:56
2779
2
翻译 Coursera TensorFlow 基础课程-week4
Using Real-world Images参考:Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈利性质...
2019-03-23 18:05:37
1871
2
翻译 Coursera TensorFlow 基础课程-week3
Enhancing Vision with Convolutional Neural Networks参考:Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and D...
2019-03-20 23:33:49
1027
翻译 Coursera TensorFlow 基础课程-week2
TensorFlow入门课程本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning
2019-03-19 23:24:12
967
翻译 Coursera TensorFlow 基础课程-week1
A New Programming Paradigm参考:Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈...
2019-03-18 22:37:53
921
翻译 Spark读取Hive on Tez任务问题
Spark读取Hive on Tez任务问题参考 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found出现的问题后续,由于HDP集群调整Hive引擎为Tez后,出现的问题。具体问题如下:19/03/18 10:40:16 INFO client.TezClient: Session mode. Star...
2019-03-18 11:19:56
1441
原创 Ubuntu 16 安装TensorFlow及Jupyter notebook
Ubuntu 16 安装TensorFlow及Jupyter notebook文章目录Ubuntu 16 安装TensorFlow及Jupyter notebook1. 软件版本2. 安装过程3. 测试本文主要讲述Windows上VMware虚拟机中Ubuntu16.04(最小化安装版,没有安装界面环境) 安装TensorFlow及Jupyter notebook的过程1. 软件版本...
2019-03-12 14:49:19
625
原创 Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x
文章目录Spark ALS recommendForAll源码解析实战1. 软件版本:2. 本文要解决的问题3. 源码分析实战3.1 Spark2.2.2 ALS recommendForAll 实战分析1. 首先给出其核心实现源码:2. blockify函数3. cartesian flatMap的优势4. flatMap的处理逻辑3.2 Spark1.6.3 ALS recommendForA...
2019-03-04 21:17:00
1254
1
原创 Spark ALS应用BLAS加速
文章目录Spark ALS应用BLAS加速1. 环境2. 问题引入3. 参考:4. 思路:4.1 简单测试:4.2 使用Native BLAS需要添加的Jar包方式1:在Intellij IDEA 中添加依赖找到方式2: 自行指定参数编译Spark源码4.3 使用新编译的Spark测试是否加载Native BLAS5. 修改官网提供的安装包,使其加载BLAS5.1 使用 --jars 参数5.2 ...
2019-02-27 23:16:49
2176
原创 Spark Shell 启动报NullPointerException(包含getZipEntry)
文章目录Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本:2. 问题描述:3. 问题解决思路4. 后续Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本:软件版本CDHCDH-5.7.3-1.cdh5.7.3.p0.5SparkStandalon...
2019-02-18 16:36:14
1292
原创 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found
Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not foundClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found1. 思路第一步2. 新问题及解决Class org.datanucleus.api.jdo.JDOPersi...
2019-02-14 15:32:32
2682
1
原创 Spark 延迟30秒
Spark延迟30秒Spark延迟30秒1. 环境/版本/测试代码1.1 使用软件版本:1.2 集群部署1.3 测试代码2. 时间线3. 问题重述及分析Spark延迟30秒问题引出:问题来源于一次小的测试,在进行一个常规的读取Hive数据,并使用Spakr MLlib中的Describe进行基本的表统计时,发现Executor的任务发起到任务实际执行相差30秒左右,故此引出本篇博客。1. 环...
2018-12-26 18:09:33
2214
原创 Spark 常用编程技巧
Spark 常用编程技巧Spark Version : 2.2.01. 基础篇1.1 Scala 篇求均值描述: 求一个Double类型的均值,含有NaN类型(去掉NaN后求均值);scala> val data = Array(1,2,3.0)data: Array[Double] = Array(1.0, 2.0, 3.0)scala> def sum_num...
2018-10-13 12:56:31
2103
1
原创 Oozie4.3.1各种Action及综合实例
Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(二) 如果没有编译好Oozie,并部署到集群,请参考:Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(二)1. 准备工作2. Hive...
2018-08-10 14:48:49
1329
原创 Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)
Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)1. 需求:2. 前期预研:3. 前期准备4. 导入工程及编译修改4.1 修改为Hadoop34.2 加入Hadoop-common的依赖4.3 修改类4.4 修改主pom.x...
2018-08-07 16:38:09
4294
原创 Spark DataFrame vector 类型存储到Hive表
Spark DataFrame vector 类型存储到Hive表Spark DataFrame vector 类型存储到Hive表软件版本场景描述问题的迂回解决方法示例1. 软件版本 软件 版本 Spark 1.6.0 Hive 1.2.12. 场景描述在使用Spark时,有时需要存储DataFram...
2018-02-24 10:20:44
4003
原创 Spark ClassNotFoundException $$anonfun$2
Spark ClassNotFoundException $$anonfun$21. 软件环境: 软件 版本 Spark 原生1.6.0 Hadoop 原生2.6.52. 应用场景&问题描述使用Java Web提交任务到Spark Standalone集群中运行任务,运行任务的过程中,指定主类,比如a.b.c.Test, 那么主类
2018-01-25 11:05:15
1856
1
原创 SparkSQL read Elasticsearch ClassNotFoundException
环境 软件 版本 Elasticsearch 2.3.3 spark cdh-1.6.0 idea 2016问题描述:现在有一个Elasticsearch集群,需要使用SparkSQL直接连接进行读取,参考Elasticsearch官网代码,直接编写下面的程序进行读取(在Windows上编写程序,提交到远程Spark Standalone集群):public clas
2017-11-28 11:05:19
2436
原创 Java Web提交任务到Spark Standalone集群并监控
Java Web提交任务到Spark Standalone集群并监控环境工程下载路径Spark任务提交流程问题及问题解决后记Java Web提交任务到Spark Standalone集群并监控1. 环境 软件 版本 备注 IDEA 14.1.5 JDK 1.8 Spark 1.6.0 工程maven引用 Spark cdh5.7.3
2017-11-16 16:29:21
6216
13
原创 TensorFlowOnSpark stuck
问题描述:在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。解决方法:1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;2. 没有严格参考官网: 官网上面在使用spark-submit提交的时候,添加了--conf参数,而我以
2017-10-31 13:39:38
1053
原创 Centos6安装TensorFlow及TensorFlowOnSpark
1. 需求描述在Centos6系统上安装Hadoop、Spark集群,并使用TensorFlowOnSpark的 YARN运行模式下执行TensorFlow的代码。(最好可以在不联网的集群中进行配置并运行)2. 系统环境(拓扑)操作系统:Centos6.5 Final ; Hadoop:2.7.4 ; Spark:1.5.1-Hadoop2.6; TensorFlow 1.3.0;TensorFl
2017-10-27 23:51:28
1965
原创 Spark应用HanLP对中文语料进行文本挖掘--聚类
软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在工程里面);工程下载:https://github.com/fansy1990/hanlp-test 。
2017-08-25 17:41:43
7887
4
原创 Matlab计算字符串相似度
运行环境:Matlab单纯的计算字符串的相似度,并没有计算词性,如TF-IDF之类的;代码如下:%计算字符串相似度%一个source字符串通过插入、删除、替换而变成target字符串的操作次数越少,则两个字符串越相近。function strsim = mystrsim(target,source) %X为字符串矩阵len1=length(source);len2=length(targ
2017-08-22 09:26:58
4679
转载 CDH HiveServer2异常退出
本篇参考:http://blog.youkuaiyun.com/gklifg/article/details/50418109、http://blog.youkuaiyun.com/levy_cui/article/details/53992402、http://blog.youkuaiyun.com/lulynn/article/details/46455097。在使用CDH集群的过程中,出现HiveServer2刚启动没多久,客
2017-07-10 14:09:24
5749
1
原创 Java连接Spark Standalone集群
软件环境:spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ;Hadoop集群采用伪分布式安装,运行过程中只启动HDFS;Spark只启动一个Worker;使用虚拟机搭建Hadoop、Spark集群;Idea直接安装在Win10上;192.168.128.128是虚拟机ip;本机ip是:192.168.0.183;Java连
2017-07-06 14:13:30
7978
原创 Hive性能调优
软件环境:Hive1.2.1 /Hadoop2.6.4 ;直接使用Hive Cli模式运行;1. 设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;如果设置执行引擎为mr,那么就会调用Hadoop的maprecude来运行需要执行job的程序;如果设置执行引擎为spark,那么就会调用spark来执行任务。有条件
2017-07-01 17:51:20
19011
1
原创 Spark SQL filter not contains
软件环境:CDH5.8.0;问题:在使用Spark SQL 读取Hive进行操作的时候,需要使用不包含,如下:(在Spark SQL中有contains,like,rlike函数)在Hive中有表id_url ,内容如下:+------------+-----------------------------------+--+| id_url.id | id_url.ur
2017-05-23 21:21:47
9774
原创 Spark DecisionTreeModel print
软件版本: Spark:1.6.1 ; 问题1:在进行Spark DecisionTree建模时(做分类),可以打印决策树。当然,使用该模型的toDebugString 可以打印类似下面的字符串,例如:DecisionTreeModel classifier of depth 7 with 45 nodes If (feature 22 <= 114.2) If (feature 2
2017-04-26 16:17:37
1708
原创 Tomcat Sqoop import异常及其解决方法
软件版本:Sqoop:1.4.6-cdh5.7.3,tomcat:7,JDK:1.7,Intellij Idea 2014 , Hadoop集群:CDH5.7.3;mysql:5.6;问题描述:在使用Sqoop的API操作数据从Mysql表导入到HDFS的时候,如果直接使用Java程序,那么是可以调用程序并运行成功的;但是,启动Tomcat调用,则会失败。前备知识:1. 使用Java API操作S
2017-03-17 21:19:59
1840
原创 Spark MLlib算法调用展示平台及其实现过程
1. 软件版本:IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机)2. 工程下载及部署:Scala封装Spark算法工程:https://github
2017-03-17 12:57:36
9226
4
翻译 Spark On YARN内存和CPU分配
本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark On YARN时(无论是Client模式或者是Cluster模式,当然下面会有这种模式的对比区别),可以添加诸如:--executor-memory
2017-01-10 17:17:15
21576
原创 Windows Spark On YARN 提交任务到CDH集群
软件版本:IDE:Intellij IDEA 14,Java:1.7,Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;部署环境:1. 在Windows10 上启动IDEA ,并启动Tomcat,在Tomcat中使用Spark On YARN的方式调用封装好的Spa
2017-01-05 18:20:10
6670
原创 MAC Spark no snappyjava in java.library.path
软件版本:Mac:10.12.1,Spark:1.6.0-cdh5.7.3,JDK:1.7.0_79 ; IDEA:14;问题描述:在Mac上运行Spark程序时(采用local 生成SparkContext的方式,具体参考:https://github.com/fansy1990/Spark_MLlib_Algorithm_1.6.0/blob/master/src/test/scala/com
2016-12-31 11:37:35
3065
2
原创 Oozie Spark on YARN requirement failed
软件环境:CDH:5.7.3;Oozie:4.1.0-CDH5.7.3 ; Spark:1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 ; Hadoop:hadoop2.6.0-cdh5.7.3(HDFS 采用HA方式);问题描述:在使用CDH5.7.3版本的时候,发起一个Oozie工作流,该工作流使用Spark On YARN的方式提交一个Spark程序,但是在Oozie
2016-12-24 10:37:02
4532
原创 Spark TopK问题解法
软件版本及平台:CDH5.8、四子节点(cpu:2核、内存:4G)、JDK:1.7、IDEA14 、 Spark:1.6.0-cdh5.7.3;代码下载:问题描述:现有用户项目评分数据,其格式如下所示:u1,item1,0.0913375062480507u2,item1,0.4061823571029518u3,item1,0.021727289053235843u4,item1,0.24
2016-12-15 22:44:50
3812
原创 Spark读写Hive添加PMML支持
软件版本:CDH:5.8.0;Hadoop:2.6.0 ; Spark:1.6.0; Hive:1.1.0;JDK:1.7 ; SDK:2.10.6(Scala)目标:在Spark加载PMML文件处理数据(参考:http://blog.youkuaiyun.com/fansy1990/article/details/53293024)及Spark读写Hive(http://blog.youkuaiyun.com/fans
2016-12-03 15:49:45
3908
原创 Spark读写Hive
环境:CDH5.8,Spark:1.6.0;Hadoop:2.6.0,Intellij IDEA14 ,jdk1.8,sdk:2.10.6 ,maven:3.3.3;工程下载地址:1. Spark读取HiveSpark读取Hive,使用的是HiveContext,第一步使用sc生成一个HiveContext,然后其他操作就是在HiveContext里面操作了;比如使用HiveContext的tab
2016-11-29 22:42:00
13691
原创 mac未能正确推出移动硬盘而读取不了
问题:移动硬盘格式是exfat的,在mac中未能正确推出移动硬盘,然后就被直接拔掉了;插在windows上,显示未能访问;直接重启windows,就可以访问该移动硬盘了,但是推出后,再次插入到mac上还是读取不了;修复方法:1. 插入到windows上,比如读取到的是I盘符;2. 打开dos窗口,运行命令: chkdsk I: /f等待修复完成:这时,再次退出,然后插入到mac上,即可看到该移动硬
2016-11-28 22:48:36
31887
1
原创 Spark加载PMML进行预测
软件版本:CDH:5.8.0 , CDH-hadoop :2.6.0 ; CDH-spark :1.6.0 目标:使用Spark 加载PMML文件到模型,并使用Spark平台进行预测(这里测试使用的是Spark on YARN的方式)。具体小目标:1. 参考https://github.com/jpmml/jpmml-spark 实现,能运行简单例子;2. 直接读取HDFS上面的输入数据文件,使用
2016-11-25 22:28:05
19416
3
原创 MapReduce实现线性回归
1. 软件版本:Hadoop2.6.0(IDEA中源码编译使用CDH5.7.3,对应Hadoop2.6.0),集群使用原生Hadoop2.6.4,JDK1.8,Intellij IDEA 14 。源码可以在https://github.com/fansy1990/linear_regression 下载。2. 实现思路:本博客实现的是一元一次线性方程,等于是最简单的线性方程了,采用的是Coures
2016-10-29 11:34:02
7280
3
Mahout案例实战 约会推荐
2015-03-11
FP关联规则置信度
2014-11-19
libimesti推荐系统
2014-09-30
nmon 和 nmon analyser工具
2014-09-24
easyui+spring+struts+hibernate 实例
2014-09-16
MR Unit test需要的相关jar包
2014-07-29
Mahout贝叶斯分类不含标签数据
2014-07-20
Mahout算法调用展示平台2.1-part3
2014-07-06
Mahout算法调用展示平台2.1-part2
2014-07-06
mahout0.9源码(支持hadoop2)
2014-04-09
博客推荐系统源码
2014-02-18
web平台调用hadoop集群2.0
2014-01-03
hadoop启动时间写入文件
2013-12-20
监控hadoop任务信息
2013-12-18
web 工程调用hadoop集群1.4
2013-12-02
flex datagrid doubleclick 实例
2013-11-22
flex dispatchEvent 实例工程
2013-11-19
web 工程调用hadoop集群1.3
2013-11-17
flex 调用java
2013-11-12
svd mahout算法
2013-10-31
读取HDFS序列化文件解析key、value可视化输出
2013-10-25
spark-yarn_2.10-1.6.0-cdh5.7.3.jar
2016-12-24
hotspot关联规则
2015-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人