- 博客(42)
- 资源 (16)
- 收藏
- 关注
原创 spark中的map和flatMap
(一)因为Spark很多语法及其思想都是借鉴Scala的,所以我们先看看Scala中map()与flatMap()函数的区别,其中顺便介绍flatten方法:(a)使用flatten方法把一个包含列表的列表转变为一个单列表。创建列表的列表: scala> val lol = List(List(1,2), List(3,4)) lo
2016-12-01 10:36:56
2803
原创 关于Scala中的 polymorphic expression cannot be instantiated to expected 错误
如果只需要一个不可变的集合,可以这样子创建,无需 import 引入:scala> val set = Set(1,2,3)set: scala.collection.immutable.Set[Int] = Set(1, 2, 3)如果想用可变的Set,必须import引入它,或者用原路径:scala> val s = collection.mutable.S
2016-11-30 10:20:19
1994
原创 java.lang.IllegalArgumentException: java.net.UnknownHostException: user 错误解决
在spark-shell环境运行官网实例,每次涉及action操作,总出现错误:java.lang.IllegalArgumentException: java.net.UnknownHostException: user有的说修改hosts、有的说将$HADOOP_HOME/etc/hadoop下面的hdfs-site.xml和core-site.xml拷贝到$SPA
2016-11-24 10:30:50
23345
4
原创 蛇形数组实现
关于蛇形数组的实现:#include using namespace std;int main(){ int n; int a[1000][1000]; int var = 1; int i,j; cin>>n; for(int i = 0; i<=n+1; i++) for(int j = 0; j<=n+1; j++)
2016-04-03 22:18:03
2137
原创 一道关于二级指针传参的问题
下面代码有什么问题?void GetMemory( char *p ){ p = (char *) malloc( 100 );}void Test( void ){ char *str = NULL; GetMemory( str ); strcpy( str, "hello world" ); prin
2016-03-03 12:04:11
1045
翻译 Mesos框架简介
翻译自Open source datacenter computing with Apache Mesos框架:Mesos由一个master进程和framework组成,master进程管理运行在集群节点上的slave daemon,framework是在这些slave节点上运行任务的计算框架(注:可以看作是Hadoop、Spark、Storm、MPI等计算框架)。master通过对计
2015-12-25 19:11:30
1333
原创 关于错误 libstdc++.so.6:cannot open shared object file 和 libstdc++.so.6: wrong ELF class 的解决和思考
在使用gcc编译C++程序时,运行出错:# g++ -std=c++11 -o117exercise.exe 117exercise.cpp# ./ 117exercise.exe./117exercise.exe: error while loadingshared libraries: libstdc++.so.6:cannot open shared object file:
2015-11-19 14:40:33
15066
原创 C++中局部静态变量的调用问题
1、问题背景是这样的,在学习《C++ Primer》的时候,学到 “6.1.1 局部对象”中“局部静态变量”知识,例子:size_t count_called(){ static size_t ctr = 0; return ++ctr;}int main(){ for(size_t i=0; i!=10; i++) cout
2015-09-28 10:48:26
1869
原创 find和grep命令实例
find命令语法:find [path...] [expression]find命令参数:-print、-exec、-ok (详细解释参考链接1和链接2)find命令选项:-name、-perm、-prune 、-user 、-group、-mtime -n +n 、-nogroup 、-nouser、-newer file1 ! file2 、-type [b
2015-09-20 18:39:33
445
转载 【Spark】RDD操作详解4——Action算子
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。图中,foreach算子通过用户自定义函数对每个数据
2015-09-17 17:02:29
521
原创 脚本手动执行无误,crontab自动执行出错
今天设置的crontab任务没有执行,查看日志发现:java:command not found这样的错误但是,我用java -version查看,是可以显示java的版本信息的,也就是说我安装了java,但crontab运行的时候没有鸟它。所以问题为:我的脚本手动执行是没有出错的,但是设置为crontab自动运行该脚本确实出错了。解决办法:设置cronta
2015-07-26 00:37:29
1770
转载 Linux 指令歷史紀錄(History)的操作教學與範例 以及 Linux中神奇的叹号命令!
转自:http://blogger.gtwang.org/2013/10/mastering-linux-command-line-history.html,如有侵权,联系删除。這裡教大家如何善用 Linux 指令歷史紀錄,讓你在使用終端機的命令列時更有效率。如果你是一個 Linux 的老手,你應該會非常習慣在桌面上開啟終端機,靠著鍵盤來進行主要的工作,像我個人平常的工作就
2015-06-11 09:52:47
704
原创 MapReduce过程详解
用户提交MapReduce作业到Master节点上。由Master节点将M个Map任务和R个Reduce任务分配到空闲的节点上运行。输入文件被分成固定大小 (默认为64 MB, 用户可以调整) 的M个分片(split) 。Master节点会尽量将任务分配到离输入分片较近的节点上执行, 以减少网络通信量。在Map阶段, 被分配到Map任务的节点以输入分片作为输入, 对于每条记录, 会执行map函数,
2015-06-03 08:39:11
849
转载 Spark RDD API详解(一) Map和Reduce
转自:https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是
2015-05-31 10:59:35
347
转载 MySQL对表的复制,修改及删除
本来都不想写这节了,因为很麻烦,例子要多,且要有代表性,而且也知道大家都烦了。可是这节却是我们平时经常使用的,因为MySQL用的最多的就是对数据的操作,包括插入数据,更新数据,修改数据,删除数据。可是表才是存放数据的地方,一个表建的好坏直接影响你操作的性能,所以我认为有必要来简单介绍一下这节,MySQL对表的复制,修改和删除。包括从复制一个表结构到另一个表,修改表结构(例如:增加删除字段,增加索引
2015-05-27 15:35:37
436
转载 FP-Growth算法介绍
参考了几篇文章关于FP-Growth的看法,融合一下,以供参考,如有转载侵权,请联系删除。====================(1)转自:http://www.bjt.name/2013/09/association-rules/ 关联规则(association rules)是一种广泛使用的模式识别方法,比如在购物篮分析(Market basket Analysis)
2015-05-22 16:45:28
12129
转载 大白话解析模拟退火算法
优化算法入门系列文章目录(更新中): 1. 模拟退火算法 2. 遗传算法 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索
2015-05-13 21:43:31
334
转载 [转载]Runnable接口与Thread类的区别
原文地址:Runnable接口与Thread类的区别作者:king什么时候让线程实现Runnable接口,什么时候让线程继承Thread类?JDK帮助文档中的原话:Runnable 接口应该由那些打算通过某一线程执行其实例的类来实现(不明白是啥意思)孙鑫老师的原话:当不需要改变一个线程中除了run()方法以外的其他方法时,
2015-05-08 10:28:16
530
转载 ssh后台运行 linux重定向及nohup不输出的方法
linux重定向及nohup不输出的方法先说一下linux重定向:0、1和2分别表示标准输入、标准输出和标准错误信息输出,可以用来指定需要重定向的标准输入或输出。在一般使用时,默认的是标准输出,既1.当我们需要特殊用途时,可以使用其他标号。例如,将某个程序的错误信息输出到log文件中:./program 2>log。这样标准输出还是在屏幕上,但是错误信息会输出到log文件中。另
2015-04-30 22:37:39
1908
转载 linux中计划任务的用法at和cron
所谓计划任务就是指某一个时间系统自动做一件事情如输入指令或者保存文件等等 计划任务分两种:一次性计划任务命令(at)和周期性计划任务命令(crontab)at的用法:如果当前时间为2013年3月2日at 18:00 2013-03-3>w > /root/who.txt>init 0>(输入ctrl+d结束编辑) 此时将意味着我们的系统将在第二天
2015-04-30 16:18:11
620
转载 推荐系统开源软件列表汇总和点评
以下转自:http://blog.youkuaiyun.com/cserchen/article/details/14231153#tc_qz_original=691102124我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system),并附上了个人的一些简单点评(未必全面准确),这方面的中文
2015-02-27 09:37:13
319
转载 SSH 原理与运用
SSH 原理与运用SSH 是每一台 Linux 电脑的标准配置。随着 Linux 设备从电脑逐渐扩展到手机、外设和家用电器,SSH 的使用范围也越来越广。不仅程序员离不开它,很多普通用户也每天使用。SSH 具备多种功能,可以用于很多场合。有些事情,没有它就是办不成。本文是我的学习笔记,总结和解释了 SSH 的常见用法,希望对大家有用。什么是SSH简单说,SSH
2015-02-08 15:35:21
452
原创 ssh无密码登陆的一个问题:DN到ND不需要密码登录,ND到DN需要密码登录
已经做的工作(a)(b)(c)(a)机器三台的hostname是:master116、master117、master118(b)先设置hosts,把对应的IP和hostname加进去:192.168.0.116 master116192.168.0.117 slave117192.168.0.118 slave118(c)关闭防火墙#chkconfig i
2015-02-08 15:29:32
671
转载 Hadoop基准测试
测试对于验证系统的正确性、分析系统的性能来说非常重要,但往往容易被我们所忽视。为了能对系统有更全面的了解、能找到系统的瓶颈所在、能对系统性能做更好的改进,打算先从测试入手,学习Hadoop几种主要的测试手段。本文将分成两部分:第一部分记录如何使用Hadoop自带的测试工具进行测试;第二部分记录Intel开放的Hadoop Benchmark Suit: HiBench的安装及使用。1. H
2015-02-06 10:32:04
692
转载 HDFS小文件处理解决方案总结+facebook(HayStack) + 淘宝(TFS)
一、概述手机图片或者像淘宝这样的网站中的产品图片特点:(1)、大量手机用户同时在线,执行上传、下载、read等图片操作(2)、文件数量较大,大小一般为几K到几十K左右 HDFS存储特点:(1) 流式读取方式,主要是针对一次写入,多次读出的使用模式。写入的过程使用的是append的方式。(2) 设计目的是为了存储超大文件,主
2015-02-04 17:28:16
498
原创 Linux命令之awk学习笔记
一、awk命令:root@www ~]# awk '条件类型 1{动作 1} 条件类型 2{动作 2} ...' filename二、awk 后面接两个单引号并加上大括号 {} 来设定想要对数据进行的处理动作。在每一行的每个字段都是有变量名称的,那就是 $1, $2... 等变量名称。$0 代表『一整列资料』的意思~如图:
2015-01-31 12:06:04
347
转载 使用mahout fpgrowth算法求关联规则
首先,这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining,写这个出于几个原因,一 原文是英文的;二该博客貌似还被墙了,反正我是用了goagent才看到的;三 我简化了其实验内容,单纯的用数字表示item了。 首先是实验环境jdk >= 1.6mavenhadoop (>1.
2015-01-16 22:33:57
594
转载 Linux下安装MySQL
(一)linux下使用yum安装mysql 1)安装查看有没有安装过:# yum list installedmysql*# rpm -qa | grep mysql*查看有没有安装包:# yum list mysql*安装mysql客户端:# yum installmysql安装mysql 服务器端:# yum installmysql-ser
2015-01-08 14:03:24
383
原创 hadoop fs {args}、hadoop dfs {args}、hdfs dfs {args}三者的区别
这是摘自stackoverflow的话:Following are the three commands which appears same but have minute differenceshadoop fs {args}hadoop dfs {args}hdfs dfs {args}hadoop fs FS relates to a
2014-12-21 15:11:18
1208
转载 date.gettime()返回的是什么?
(一)java.util.Date ----------- date.getTime()返回的是什么? 问题: ------------- Date date = new Date(); System.out.println(date.getTime()); 输出结果是1210745780625 编译时间当时时间大概是2008年5.14好14.1
2014-12-20 20:37:13
116400
3
原创 结构化数据、半结构数据和非结构数据的总结
结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一
2014-12-17 21:47:59
8017
1
转载 Spark技术内幕:究竟什么是RDD
RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html 本文也是基于这篇论文和源码,分析RDD的实现。第一个问题,RDD是什么?Re
2014-12-16 22:18:06
505
转载 Lambda表达式让Spark编程更容易
近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8
2014-12-11 16:45:32
763
转载 HBase in Action-第二部分Advanced concepts-(3)非Java客户端【REST、Thrift】
HBase ShellHBase shell使用起来最方便,进入HBase shell控制台即可使用。[plain] view plaincopy$ $HBASE_HOME/bin/hbase shell 常见操作有create(创建表)/put(插入或更新数据)/get(根据rowkey查询)/scan(范围查询)/del
2014-12-05 09:16:04
92
转载 CMD命令进入某个目录
1.开始->运行->CMD2.进入某个磁盘,直接盘符代号:如D:,不用CD 命令切换3.进入除根录以下的文件夹 cd 文件夹路径 例如我要进入 E:/Program Files/PHP 就输入 E:回车 注: 不 能在一打开CMD的时候运行CD E:/Program Files/PHP,需要先进入磁盘(若一打开CMD的时候运行CD E:/Program Files
2014-12-03 10:40:28
708
原创 在Eclipse中使用Maven3遇见“Missing artifact ***”错误的一个解决方案
在Eclipse中,使用eclipse-java-luna-SR1-win32-x86_64+maven3.2.3+SVN的过程中,遇见如下错误:Missing artifact commons-beanutils:commons-beanutils:jar:1.7.0pom.xml/guangximobileline 1Maven Dependency Problem出现
2014-12-03 10:05:51
7371
转载 C语言 gets()和scanf()函数的区别
scanf( )函数和gets( )函数都可用于输入字符串,但在功能上有区别。若想从键盘上输入字符串"hi hello",则应该使用__gets__函数。gets可以接收空格;而scanf遇到空格、回车和Tab键都会认为输入结束,所有它不能接收空格。char string[15]; gets(string); /*遇到回车认为输入结束*/scanf("%s",string); /*遇到
2014-11-29 09:34:03
395
转载 Apriori算法的简单描述
(一)Apriori 算法 Apriori算法是种最有影响的挖掘布尔关联规则频繁项集的算法。它的核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集(简称频集),也常称为最大项目集。在Apriori算法中,寻找最大项目集(频繁项集)的基本思想是:算法需要对数据集进行多步处理。第一步,简单统计所有含
2014-11-26 09:09:18
4989
转载 I/O技术
I/O技术编程IOCPU说: 请读取一个字节CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 还没CPU说: 你读完了吗I/O说: 读完了CPU说: 你读到了什么I/O说: 0x35中断驱动IOCPU说: 请读
2014-11-25 12:29:58
456
转载 将Excel导入mySql
假如要把如图所示的Excel表格导入到MySql数据库中,如图:数据导入MySql - 一切随缘 - 海阔天空" src="http://cdn.verydemo.com/inc/test.jsp?url=http%3A%2F%2Fimg.blog.163.com%2Fphoto%2F98TnUMGA-vZARuORDb8b2A%3D%3D%2F3740520965509071548.j
2014-11-18 21:49:59
576
机器学习实践指南:案例应用解析 (大数据技术丛书)_含目录_可复制
2017-08-24
IBM数据生成器(Seq)
2017-03-27
数据挖掘十大算法
2016-06-02
《深入理解大数据》一书的源代码
2016-01-30
An Approach to Optimized ResourceScheduling Algorithm for Open-source .pdf
2014-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人