demon_gx-优快云博客

原创笔记：Spark上的机器学习

机器学习分类：1）有监督学习常用算法：回归分析和统计分类应用场景：训练神经网络（判断网络的错误，然后调整网络去适应它）与决策树（用于判断那些属性提供了最多的信息）2）无监督学习应用场景：关联规则的学习和聚类常用算法：Apriori和k-Means算法3）半监督学习····一些机器学习算法：1)回归算法试图采用对误差的衡量来探索变量之间的关系最小二乘法

2015-03-19 18:45:48 985

原创 struts2 调用spark程序——java 程序调用脚本启动spark

问题描述：在开发web项目结合spark云平台时遇到一个难题，当一个类继承了ActionSupport成为一个action后，在它的method（）中不能调用spark程序（会报找不到spark jar包的错误，不知道怎么解决）。笨拙的解决方案：把spark程序打包成jar文件，写一个脚本，在action的method（）中调用这个脚本，运用spark-submit启动spark程序。脚本

2015-03-17 14:53:17 1267

原创 log4j WriterAppender 截取指定日志+ spark程序

工具：ubuntu12.04 + spark1.0.0目标：spark运行过程中会产生日志。希望让客户实时观察到任务执行的过程，就需要截取日志信息展现给客户。eg：Starting task 17.0:0 as TID 28 on executor localhost: localhost (PROCESS_LOCAL)Finished TID 28 in 28 ms on loca

2015-03-14 13:14:43 1062

原创进程的启动和进程的切换机制

宫玄，原创作品转载请注明出处，《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000 /* 初始化0号进程*/ task[pid].pid = pid; task[pid].state = 0;/* -1 unrunnable, 0 runnabl

2015-03-10 19:54:29 536

原创笔记：计算机工作机制

宫玄原创作品转载请注明出处《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000冯诺依曼体系结构是为大家熟知的计算机架构从程序员的角度分析：接下来是一个简单的汇编代码，现在来分析一下工作过程中堆栈的变化：初始时堆栈为空，ebp和esp指向同一位置。ebp标识堆栈的

2015-03-01 18:30:55 760

原创 Spark 操作Hbase 对表的操作：增删改查 scala

在build.sbt中配置依赖（行之间需要空格）ame := "test2"scalaVersion := "2.10.4"libraryDependencies ++= Seq( "org.apache.spark" % "spark-core" % "1.0.0", "org.apache.hbase" % "hbase" % "1.2.1-hadoop

2015-02-04 21:04:05 3584

原创 HBase报错：TableNotEnabledException

在以前创建表的时候自己程序有问题等待时间过长，中止程序。再次执行程序发现disableTable语句报错原因：中断操作导致zookeeper中记录的表状态不一致导致在控制台下输入：hbase zkcli链接zookkeeper后，删除对应的表输入语句：delete /hbase/table/表名

2015-02-04 20:42:38 5268

原创 scala:Array(100) 和 new Array(100)的区别

Array(100)调用的是apply（100），输出的只有一个元素，它的值为整数100new Array（100）调用的是构造器this（100），输出的是100个元素，元素值都为null

2015-01-29 20:28:18 1660

原创 J2EE报错：Cannot forward after response has been committed

我的代码： if(rs.getString("password").equals(password)) { HttpSession session = request.getSession(true); session.setAttribute("

2014-12-01 23:39:13 595

原创 exception in thread main org.apache.spark.sparkexception:A master URL must be set in your

传递给spark的master url可以有如下几种：local 本地单线程local[K] 本地多线程（指定K个内核）local[*] 本地多线程（指定所有可用内核）spark://HOST:PORT 连接到指定的 Spark standalone cluster master，需要指定端口。mesos://HOST:PORT 连接到指定的 Mesos 集群，需要指定

2014-10-31 09:05:16 3625

原创 IDEA删除项目

如果当前在一个项目中，先选择file-

2014-10-29 18:59:03 15580

原创在IDEA下创建新项目时出现Error:Cannot determine Java VM executable in selected JDK错误

Configure -> Project defaults -> Project structure，在这里增加jdk的设置，这样操作以后再import project就不会再出现 Cannot determine Java VM executable in selected JDK的错误提示。

2014-10-29 18:40:36 11350

spark集群构建：第三步：构造分布式的Spark集群

对于 90%以上想学习 Spark 的人而言，如何构建 Spark 集群是其最大的难点之一，为了解决大家构建 Spark 集群的一切困难，家林把 Spark 集群的构建分为了四个步骤，从零起步，不需要任何前置知识，涵盖操作的每一个细节，构建完整的 Spark 集群。

2014-10-29

Spark集群构建:第一步：搭建 Hadoop,单机和伪分布式环境；

2014-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人