fansy1990-优快云博客

翻译 Spark SQL: Relational Data Processing in Spark

Spark SQL： Relational Data Processing in SparkSpark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译，而是本篇翻译作者的理解（可以理解为批准），所以难免有误，特注！当然翻译也可能有误！DateContents2019.03.12First Edition2019.04....

2019-04-07 09:44:56 3154 2

翻译 Coursera TensorFlow 基础课程-week4

Using Real-world Images参考：Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈利性质...

2019-03-23 18:05:37 2079 2

翻译 Coursera TensorFlow 基础课程-week3

Enhancing Vision with Convolutional Neural Networks参考：Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and D...

2019-03-20 23:33:49 1220

翻译 Coursera TensorFlow 基础课程-week2

TensorFlow入门课程本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

2019-03-19 23:24:12 1131

翻译 Coursera TensorFlow 基础课程-week1

A New Programming Paradigm参考：Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈...

2019-03-18 22:37:53 1076

翻译 Spark读取Hive on Tez任务问题

Spark读取Hive on Tez任务问题参考 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found出现的问题后续，由于HDP集群调整Hive引擎为Tez后，出现的问题。具体问题如下：19/03/18 10:40:16 INFO client.TezClient: Session mode. Star...

2019-03-18 11:19:56 1574

原创 Ubuntu 16 安装TensorFlow及Jupyter notebook

Ubuntu 16 安装TensorFlow及Jupyter notebook文章目录Ubuntu 16 安装TensorFlow及Jupyter notebook1. 软件版本2. 安装过程3. 测试本文主要讲述Windows上VMware虚拟机中Ubuntu16.04（最小化安装版，没有安装界面环境）安装TensorFlow及Jupyter notebook的过程1. 软件版本...

2019-03-12 14:49:19 775

原创 Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

文章目录Spark ALS recommendForAll源码解析实战1. 软件版本：2. 本文要解决的问题3. 源码分析实战3.1 Spark2.2.2 ALS recommendForAll 实战分析1. 首先给出其核心实现源码：2. blockify函数3. cartesian flatMap的优势4. flatMap的处理逻辑3.2 Spark1.6.3 ALS recommendForA...

2019-03-04 21:17:00 1423 1

原创 Spark ALS应用BLAS加速

文章目录Spark ALS应用BLAS加速1. 环境2. 问题引入3. 参考：4. 思路：4.1 简单测试：4.2 使用Native BLAS需要添加的Jar包方式1：在Intellij IDEA 中添加依赖找到方式2：自行指定参数编译Spark源码4.3 使用新编译的Spark测试是否加载Native BLAS5. 修改官网提供的安装包，使其加载BLAS5.1 使用 --jars 参数5.2 ...

2019-02-27 23:16:49 2372

原创 Spark Shell 启动报NullPointerException（包含getZipEntry）

文章目录Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本：2. 问题描述：3. 问题解决思路4. 后续Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本：软件版本CDHCDH-5.7.3-1.cdh5.7.3.p0.5SparkStandalon...

2019-02-18 16:36:14 1440

原创 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found

Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not foundClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found1. 思路第一步2. 新问题及解决Class org.datanucleus.api.jdo.JDOPersi...

2019-02-14 15:32:32 2864 1

原创 Spark 延迟30秒

Spark延迟30秒Spark延迟30秒1. 环境/版本/测试代码1.1 使用软件版本：1.2 集群部署1.3 测试代码2. 时间线3. 问题重述及分析Spark延迟30秒问题引出：问题来源于一次小的测试，在进行一个常规的读取Hive数据，并使用Spakr MLlib中的Describe进行基本的表统计时，发现Executor的任务发起到任务实际执行相差30秒左右，故此引出本篇博客。1. 环...

2018-12-26 18:09:33 2391

原创 Spark 常用编程技巧

Spark 常用编程技巧Spark Version : 2.2.01. 基础篇1.1 Scala 篇求均值描述：求一个Double类型的均值，含有NaN类型（去掉NaN后求均值）；scala&gt; val data = Array(1,2,3.0)data: Array[Double] = Array(1.0, 2.0, 3.0)scala&gt; def sum_num...

2018-10-13 12:56:31 2259 1

原创 Oozie4.3.1各种Action及综合实例

Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（二）如果没有编译好Oozie，并部署到集群，请参考：Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（二）1. 准备工作2. Hive...

2018-08-10 14:48:49 1528

原创 Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）

Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用（一）1. 需求：2. 前期预研：3. 前期准备4. 导入工程及编译修改4.1 修改为Hadoop34.2 加入Hadoop-common的依赖4.3 修改类4.4 修改主pom.x...

2018-08-07 16:38:09 4500

原创 Spark DataFrame vector 类型存储到Hive表

Spark DataFrame vector 类型存储到Hive表Spark DataFrame vector 类型存储到Hive表软件版本场景描述问题的迂回解决方法示例1. 软件版本软件版本 Spark 1.6.0 Hive 1.2.12. 场景描述在使用Spark时，有时需要存储DataFram...

2018-02-24 10:20:44 4185

原创 Spark ClassNotFoundException $$anonfun$2

Spark ClassNotFoundException $$anonfun$21. 软件环境：软件版本 Spark 原生1.6.0 Hadoop 原生2.6.52. 应用场景&问题描述使用Java Web提交任务到Spark Standalone集群中运行任务，运行任务的过程中，指定主类，比如a.b.c.Test，那么主类

2018-01-25 11:05:15 1982 1

原创 SparkSQL read Elasticsearch ClassNotFoundException

环境软件版本 Elasticsearch 2.3.3 spark cdh-1.6.0 idea 2016问题描述：现在有一个Elasticsearch集群，需要使用SparkSQL直接连接进行读取，参考Elasticsearch官网代码，直接编写下面的程序进行读取(在Windows上编写程序，提交到远程Spark Standalone集群）：public clas

2017-11-28 11:05:19 2573

原创 Java Web提交任务到Spark Standalone集群并监控

Java Web提交任务到Spark Standalone集群并监控环境工程下载路径Spark任务提交流程问题及问题解决后记Java Web提交任务到Spark Standalone集群并监控1. 环境软件版本备注 IDEA 14.1.5 JDK 1.8 Spark 1.6.0 工程maven引用 Spark cdh5.7.3

2017-11-16 16:29:21 6420 13

原创 TensorFlowOnSpark stuck

问题描述：在使用TensorFlowOnSpark做测试的时候，发现任务，老是卡着并没有实际的运行。解决方法：1. 由于我使用的是自编译的TensorFlow，当时编译的时候有一个enable HDFS，默认是false，所以再次编译了一遍，把对应的HDFS enable设置为了true；2. 没有严格参考官网：官网上面在使用spark-submit提交的时候，添加了--conf参数，而我以

2017-10-31 13:39:38 1197

原创 Centos6安装TensorFlow及TensorFlowOnSpark

1. 需求描述在Centos6系统上安装Hadoop、Spark集群，并使用TensorFlowOnSpark的 YARN运行模式下执行TensorFlow的代码。（最好可以在不联网的集群中进行配置并运行）2. 系统环境（拓扑）操作系统：Centos6.5 Final ； Hadoop：2.7.4 ； Spark：1.5.1-Hadoop2.6； TensorFlow 1.3.0；TensorFl

2017-10-27 23:51:28 2108

原创 Spark应用HanLP对中文语料进行文本挖掘--聚类

软件：IDEA2014、Maven、HanLP、JDK；用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集：http://www.threedweb.cn/thread-1288-1-1.html（不需要下载，已经包含在工程里面）；工程下载：https://github.com/fansy1990/hanlp-test 。

2017-08-25 17:41:43 8035 4

原创 Matlab计算字符串相似度

运行环境：Matlab单纯的计算字符串的相似度，并没有计算词性，如TF-IDF之类的；代码如下：%计算字符串相似度%一个source字符串通过插入、删除、替换而变成target字符串的操作次数越少，则两个字符串越相近。function strsim = mystrsim(target,source) %X为字符串矩阵len1=length(source);len2=length(targ

2017-08-22 09:26:58 4869

转载 CDH HiveServer2异常退出

本篇参考：http://blog.youkuaiyun.com/gklifg/article/details/50418109、http://blog.youkuaiyun.com/levy_cui/article/details/53992402、http://blog.youkuaiyun.com/lulynn/article/details/46455097。在使用CDH集群的过程中，出现HiveServer2刚启动没多久，客

2017-07-10 14:09:24 5945 1

原创 Java连接Spark Standalone集群

软件环境：spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ；Hadoop集群采用伪分布式安装，运行过程中只启动HDFS；Spark只启动一个Worker；使用虚拟机搭建Hadoop、Spark集群；Idea直接安装在Win10上；192.168.128.128是虚拟机ip；本机ip是：192.168.0.183；Java连

2017-07-06 14:13:30 8144

原创 Hive性能调优

软件环境：Hive1.2.1 ／Hadoop2.6.4 ；直接使用Hive Cli模式运行；1. 设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;如果设置执行引擎为mr，那么就会调用Hadoop的maprecude来运行需要执行job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任务。有条件

2017-07-01 17:51:20 19204 1

原创 Spark SQL filter not contains

软件环境：CDH5.8.0；问题：在使用Spark SQL 读取Hive进行操作的时候，需要使用不包含，如下：（在Spark SQL中有contains，like，rlike函数）在Hive中有表id_url ，内容如下：+------------+-----------------------------------+--+| id_url.id | id_url.ur

2017-05-23 21:21:47 9975

原创 Spark DecisionTreeModel print

软件版本： Spark：1.6.1 ；问题1：在进行Spark DecisionTree建模时（做分类），可以打印决策树。当然，使用该模型的toDebugString 可以打印类似下面的字符串，例如：DecisionTreeModel classifier of depth 7 with 45 nodes If (feature 22 <= 114.2) If (feature 2

2017-04-26 16:17:37 1838

原创 Tomcat Sqoop import异常及其解决方法

软件版本：Sqoop：1.4.6-cdh5.7.3，tomcat：7，JDK：1.7，Intellij Idea 2014 ， Hadoop集群：CDH5.7.3；mysql：5.6；问题描述：在使用Sqoop的API操作数据从Mysql表导入到HDFS的时候，如果直接使用Java程序，那么是可以调用程序并运行成功的；但是，启动Tomcat调用，则会失败。前备知识：1. 使用Java API操作S

2017-03-17 21:19:59 2020

原创 Spark MLlib算法调用展示平台及其实现过程

1. 软件版本：IDE：Intellij IDEA 14，Java：1.7，Scala：2.10.6；Tomcat：7，CDH：5.8.0； Spark：1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ； Hadoop：hadoop2.6.0-cdh5.8.0；(使用的是CDH提供的虚拟机)2. 工程下载及部署：Scala封装Spark算法工程：https://github

2017-03-17 12:57:36 9745 4

翻译 Spark On YARN内存和CPU分配

本篇博客参考：http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本：CDH：5.7.2，JDK：1.7；问题描述：在使用Spark On YARN时（无论是Client模式或者是Cluster模式，当然下面会有这种模式的对比区别），可以添加诸如：--executor-memory

2017-01-10 17:17:15 21794

原创 Windows Spark On YARN 提交任务到CDH集群

软件版本：IDE：Intellij IDEA 14，Java：1.7，Tomcat：7，CDH：5.8.0； Spark：1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ； Hadoop：hadoop2.6.0-cdh5.8.0；部署环境：1. 在Windows10 上启动IDEA ，并启动Tomcat，在Tomcat中使用Spark On YARN的方式调用封装好的Spa

2017-01-05 18:20:10 6820

原创 MAC Spark no snappyjava in java.library.path

软件版本：Mac：10.12.1，Spark：1.6.0-cdh5.7.3，JDK：1.7.0_79 ; IDEA：14；问题描述：在Mac上运行Spark程序时（采用local 生成SparkContext的方式，具体参考：https://github.com/fansy1990/Spark_MLlib_Algorithm_1.6.0/blob/master/src/test/scala/com

2016-12-31 11:37:35 3218 2

原创 Oozie Spark on YARN requirement failed

软件环境：CDH：5.7.3；Oozie：4.1.0-CDH5.7.3 ； Spark：1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 ； Hadoop：hadoop2.6.0-cdh5.7.3（HDFS 采用HA方式）；问题描述：在使用CDH5.7.3版本的时候，发起一个Oozie工作流，该工作流使用Spark On YARN的方式提交一个Spark程序，但是在Oozie

2016-12-24 10:37:02 4682

原创 Spark TopK问题解法

软件版本及平台：CDH5.8、四子节点（cpu：2核、内存：4G）、JDK：1.7、IDEA14 、 Spark：1.6.0-cdh5.7.3；代码下载：问题描述：现有用户项目评分数据，其格式如下所示：u1,item1,0.0913375062480507u2,item1,0.4061823571029518u3,item1,0.021727289053235843u4,item1,0.24

2016-12-15 22:44:50 3959

原创 Spark读写Hive添加PMML支持

软件版本：CDH：5.8.0；Hadoop：2.6.0 ； Spark：1.6.0； Hive：1.1.0；JDK：1.7 ； SDK：2.10.6（Scala）目标：在Spark加载PMML文件处理数据（参考：http://blog.youkuaiyun.com/fansy1990/article/details/53293024）及Spark读写Hive（http://blog.youkuaiyun.com/fans

2016-12-03 15:49:45 4074

原创 Spark读写Hive

环境：CDH5.8，Spark：1.6.0；Hadoop：2.6.0，Intellij IDEA14 ，jdk1.8，sdk：2.10.6 ，maven：3.3.3；工程下载地址：1. Spark读取HiveSpark读取Hive，使用的是HiveContext，第一步使用sc生成一个HiveContext，然后其他操作就是在HiveContext里面操作了；比如使用HiveContext的tab

2016-11-29 22:42:00 13854

原创 mac未能正确推出移动硬盘而读取不了

问题：移动硬盘格式是exfat的，在mac中未能正确推出移动硬盘，然后就被直接拔掉了；插在windows上，显示未能访问；直接重启windows，就可以访问该移动硬盘了，但是推出后，再次插入到mac上还是读取不了；修复方法：1. 插入到windows上，比如读取到的是I盘符；2. 打开dos窗口，运行命令： chkdsk I: /f等待修复完成：这时，再次退出，然后插入到mac上，即可看到该移动硬

2016-11-28 22:48:36 32218 1

原创 Spark加载PMML进行预测

软件版本：CDH:5.8.0 , CDH-hadoop :2.6.0 ; CDH-spark :1.6.0 目标：使用Spark 加载PMML文件到模型，并使用Spark平台进行预测（这里测试使用的是Spark on YARN的方式）。具体小目标：1. 参考https://github.com/jpmml/jpmml-spark 实现，能运行简单例子；2. 直接读取HDFS上面的输入数据文件，使用

2016-11-25 22:28:05 19707 3

原创 MapReduce实现线性回归

1. 软件版本：Hadoop2.6.0（IDEA中源码编译使用CDH5.7.3，对应Hadoop2.6.0），集群使用原生Hadoop2.6.4，JDK1.8，Intellij IDEA 14 。源码可以在https://github.com/fansy1990/linear_regression 下载。2. 实现思路：本博客实现的是一元一次线性方程，等于是最简单的线性方程了，采用的是Coures

2016-10-29 11:34:02 7437 3

web平台调用hadoop集群2.0

web平台调用hadoop集群的升级版，要求所配置的hadoop集群需要把工程下面的所有class文件打包放入hadoop的lib目录下面。具体参考lz的blog介绍。

2014-01-03

监控hadoop任务信息

hadoop:1.0.4,struct:2.3。说明：hadoop云平台任务监控信息页面，仿效50030界面，提前获得10个未运行任务的id，然后显示这些id的信息；具体参考最新bolg。

2013-12-18

flex datagrid doubleclick 实例

flex datagrid 的doubleclick实例，选择一个行的数据，获得选择的数据其做一些其他操作，具体分析参考相关博客:http://blog.youkuaiyun.com/fansy1990

2013-11-22

flex struts2文件上传

flex struts2 实现单文件、同名文件、多文件上传，具体分析参考blog相关内容。

2013-11-27

web 工程调用hadoop集群1.3

web 工程调用hadoop集群1.3版本，使用structs2框架，把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面，然后就可以运行了，暂时只支持text2vector算法。具体参考http://blog.youkuaiyun.com/fansy1990中相应blog。

2013-11-17

flex 调用java

Flex通过RemoteObject调用java实例：flex传入参数以及接收java返回结果。通过mysql数据库的分页来展现flex调用java的实例。工程一共有两个：一个是java web端的，一个是flex工程。详情参考对应博客。

2013-11-12

读取HDFS序列化文件解析key、value可视化输出

ReadArbiKV是读取任务序列文件到一个map变量里面，可以启动调试模式进行变量查看； ReadAndWritePatterns是读取序列文件，并解析其key和value，然后可视化输出，所谓可视化输出是指不是乱码的输出，具体可以参考http://blog.youkuaiyun.com/fansy1990中《hadoop解析序列文件并可视化输出》

2013-10-25

web 工程调用hadoop集群1.4

web 工程调用hadoop集群1.4版本，使用structs2框架，把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面，然后就可以运行了，此版本暂时只支持text2vector、canopy算法。具体参考http://blog.youkuaiyun.com/fansy1990中相应blog。

2013-12-02

flex dispatchEvent 实例工程

解压后，有两个flex工程：FlexServer1.1和FlexClient1.1，其中server是java的web工程，用于tomcat部署；client是flashBuilder的工程，主要是显示页面。具体原理参考相应blog。

2013-11-19

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar，具体可以参考博主博客

2014-04-03

mahout0.9 jar支持hadoop2

mahout0.9 的jar包，支持hadoop2，此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包，支持hadoop2（此为第一部分）

2014-04-09

博客推荐系统源码

运行博客推荐程序需要注意的地方： 1. 打开mysql，增加blog数据库；修改src下面的jdbc.properties文件的用户名和密码； 2. 修改blog.xml（和Readme.txt同目录）的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面； 3. 修改applicationContext.xml文件中的自动生成表的配置（hibernate.hbm2ddl.auto），第一次启动为create，后面改为update； 4. 启动服务器，运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息（需要修改UserGenerate.java中云平台相关配置）; 版本：Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

hadoop启动时间写入文件

hadoop：1.0.4 修改JobTracker源码，把JobTracker启动时间写入文件/private/jobtracker/starttime (hdfs文件系统)；只需替换hadoop-core-1.0.4.jar文件，然后重启系统集群即可，启动后就可以在hdfs文件系统看到/private/jobtracker/starttime中有的启动时间。

2013-12-20

svd mahout算法

svd算法的工具类，直接调用出结果，调用及设置方式参考http://blog.youkuaiyun.com/fansy1990 <mahout源码分析之DistributedLanczosSolver（七）>

2013-10-31

phoenix2.2.2

phoenix 操作hbase0.96,（使用hadoop2）

2014-04-04

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

hadoop左连接

hadoop左连接程序jar，可以直接运行。

2014-03-08

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9源码（支持hadoop2）

mahout0.9的源码，支持hadoop2，需要自行使用mvn编译。mvn编译使用命令： mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

hotspot关联规则

hotspot关联规则的Java实现，参考weka的相关源码，可用于离散型和连续型数据处理，分析过程参考《HotSpot关联规则算法（2）-- 挖掘连续型和离散型数据》

2015-03-14

libimesti推荐系统

具体参考《Libimseti推荐系统》（http://blog.youkuaiyun.com/fansy1990/article/details/39692741）（1）修改Configuration目录中的db.properties中的数据库配置；（2）从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据，解压后可以看到gender.dat 和ratings.dat文件；（3）启动工程，自动生成相关表；（4）在数据库中运行sql目录下sql，导入相关数据；

2014-09-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

web平台调用hadoop集群2.0

监控hadoop任务信息

flex datagrid doubleclick 实例

flex struts2文件上传

web 工程调用hadoop集群1.3

flex 调用java

读取HDFS序列化文件解析key、value可视化输出

web 工程调用hadoop集群1.4

flex dispatchEvent 实例工程

hadoop2 MR运行修改jar

mahout0.9 jar支持hadoop2

mahout0.9 jar包支持hadoop2

博客推荐系统源码

hadoop启动时间写入文件

svd mahout算法

phoenix2.2.2

phoenix2.2

hadoop左连接

cdh50beta shim 包

mahout0.9源码（支持hadoop2）

hotspot关联规则

libimesti推荐系统

nmon 和 nmon analyser工具

Mahout贝叶斯分类不含标签数据

MR Unit test需要的相关jar包

storm实时单词计数

Mahout案例实战 约会推荐

hdp一键部署脚本

冠字号查询系统数据

FP关联规则置信度

java web程序调用hadoop2.6

TensorFlow1.3.0 on centos6.5

bazel-0.5.4

hotspot算法源码

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

Mahout算法调用展示平台2.1-part2

Mahout算法调用展示平台2.1

Mahout算法调用展示平台2.1-part3

easyui+spring+struts+hibernate 实例

cdh50beta part2

空空如也

Mahout案例实战约会推荐