
大数据
文章平均质量分 69
大数据和并行计算
清霄
每天进步一点点
展开
-
flink scala 实现不带async I/O驱动的组件交互
flink async 实现主要解决两个问题1. 如果需要scala实现flink的异步调用,请参考代码2. 如果要异步调用的组件,并没有提供async I/O的驱动,那么请参考代码3. (非主要)对异步调用的线程池有兴趣,可以讨论以下废话不多说,直接上codepackage com.testimport java.util.Collectionsimport java.util.concurrent.{Executors, TimeUnit}import org..原创 2021-05-10 23:44:26 · 1815 阅读 · 0 评论 -
Spark java.lang.NoSuchMethodError: scala.Predef$.refArrayOps
1.问题2. spark运行的scala版本是有限制提示 with scala 2.10 support下载对应版本的scala,然后重新编译jar包原创 2017-08-22 16:52:45 · 2480 阅读 · 0 评论 -
spark提交任务java.nio.channels.ClosedChannelException
1.提交任务./spark-submit --master "yarn" --driver-memory 1g --executor-memory 1g --class KeyCount /root/IdeaProjects/SparkApp/out/artifacts/SparkApp_jar/SparkApp.jar报错如下:17/08/25 14:47:03 ERROR cl原创 2017-08-25 15:57:44 · 27407 阅读 · 1 评论 -
scala函数
好久没动过博客可,冒个泡,表示还存在。。。。scala> def f1(a:Int)(b:Int): Int = { | var c=a+2 | c+b | }f1: (a: Int)(b: Int)Intscala> def test(s:Int,f:(Int => Int...原创 2018-06-25 22:28:03 · 2760 阅读 · 0 评论 -
SparkSQL中UDF的定义方式
1. 老的Hive中的方式,支持.sql算子中的sql调用,例如select udf(col1) from 注册的表。def myUdf(id: Int) = s"tag$id"sqlContext.udf.register("myUdf", myUdf(_:Int))使用df.registerTempTable(“df”)sqlContext.sql(“select myU...原创 2019-07-13 23:35:18 · 453 阅读 · 0 评论 -
记一次Spark MlLib中ASL算法的参数接受问题
在Spark MlLib中的ASL 交替最小二乘法推荐模型,接收的参数为userID:IntitemID:Int评分:Int那么产生了两个问题:1. 生产数据的用户id和itemID可能是字符串2. 最大值问题首先说第一个问题,如果是字符串,需要重新定义整形的ID,重新定义ID的方式有两种RDD:data.map(_.uid).distinct().zipWithI...原创 2019-07-14 00:50:34 · 768 阅读 · 0 评论 -
基于Spark MlLib的协同过滤推荐模型
目录1. 介绍2. 开始干货a. 准备数据b. 数据标准化c. 模型训练d. 模型评估e. 推荐输出3. 拓展1. 介绍官方文档说明:http://spark.apache.org/docs/latest/ml-collaborative-filtering.html本文章源代码工程:https://github.com/johncai0/A...原创 2019-07-14 16:07:09 · 861 阅读 · 0 评论 -
基于SparkMLLib的随机决策森林多元回归模型
时间问题,有时间再说模型的训练,包括决策树/决策森林原理,特征向量的处理,因子的选择,超参数调整,管道,决策森林和决策树的关系,本次直接上干货,代码中有适量的注释。工程数据:https://github.com/johncai0/RandomForestClassification/tree/master/data工程库:https://github.com/johncai0/Random...原创 2019-07-14 20:07:21 · 620 阅读 · 0 评论 -
SparkSQL实现类似flatmap
RDD中flatmap可以将多信息化的列拍平,那么Spark SQL如何实现这个功能?如下:scala> val sentenceDataFrame = spark.createDataFrame(Seq( | (0, "Hi I heard about Spark"), | (1, "I wish Java could use case classes...原创 2019-07-15 15:16:38 · 2893 阅读 · 0 评论 -
elasticsearch安装部署文档
下载解压后./bin/plugin -install mobz/elasticsearch-head./bin/plugin --install lmenezes/elasticsearch-kopf/1.4.6./bin/plugin -u https://github.com/NLPchina/elasticsearch-sql/releases/download/1.3.1/原创 2015-03-03 11:28:54 · 1429 阅读 · 0 评论 -
MongoDB基本操作
下载wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.4.6.tgztar -zxvf http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.4.6.tgz -C /usr/local/ && mv /usr/local/mongodb-linux-x86_64原创 2013-09-08 13:23:22 · 895 阅读 · 0 评论 -
Hadoop cluster测试过程
接上篇http://blog.youkuaiyun.com/caiwenguang1992/article/details/9289401启动Hadoop cluster在Hadoop1上[root@Hadoop1 root]# start-dfs.sh [root@Hadoop1 root]# start-mapred.sh查看HDFShttp://188.188.3.2原创 2013-07-12 10:32:38 · 1827 阅读 · 0 评论 -
Hadoop cluster安装部署
Hadoop的安装硬件环境DELL R710Vmware ESXI 5.0 虚拟机 system:CentOS6.4_64(Base Server) 硬盘:40G 内存:2G CPU: 2 X 2 网卡:1000MB X 1配置规划hosts188.188.3.241 Hadoop1188.188.3原创 2013-07-10 11:54:27 · 1512 阅读 · 0 评论 -
MongoDB集群安装配置
MongoDB集群包括一定数量的mongod(分片存储数据)、mongos(路由处理)、config server(配置节点)、clients(客户端)、arbiter(仲裁节点:为了选举某个分片存储数据节点那台为主节点)。1、 shards:一个shard为一组mongod,通常一组为两台,主从或互为主从,这一组mongod中的数据时相同的,具体可见《mongodb分布式之数据复制》。数原创 2013-07-17 17:14:00 · 1235 阅读 · 0 评论 -
glusterfs文件系统安装配置
yum -y install flex fuse bison openssl* python-ctypeswget http://download.gluster.org/pub/gluster/glusterfs/3.3/3.3.1/glusterfs-3.3.1.tar.gztar -zxvf cd glusterfs-3.3.1.tar.gz && cd cd glusterfs-3原创 2013-07-17 17:10:34 · 1265 阅读 · 0 评论 -
GPFS安装配置
GPFS由IBM开发的集群文件系统这个集群文件系统在Linux下已经销声匿迹很久了,常玩AIX的同学想必对这个文件系统很是熟悉了。笔者只是最近有兴趣来测试一下,不过让人心碎的是IBM却不对外开放下载了,只有它的update包对外开放下载。唉,功夫不服有心人,笔者实在是太聪明了,最终解决了此问题,成功的安装了最新的GPFS文件系统。笔者在gg中寻她千万处,却没想到在乱草茂盛的原创 2013-07-17 17:29:03 · 5492 阅读 · 1 评论 -
RHEL6.4安装配置memcached
memcached是个开源的分布式内存缓存系统,能通过它减轻数据库,动态web的负载他会将常用的数据对象缓存在内存中,内存中的缓存可以通过api的方式被存取以下将进行memcached配置与安装过程memcahced依赖libevent可以首先来安装它,它可以用yum安装也可以源码包安装,此处不多赘述[root@localhost ~]# rpm -q libevent原创 2013-08-07 16:31:30 · 899 阅读 · 0 评论 -
MongoDB命令
一些概念 一个mongod服务可以有建立多个数据库,每个数据库可以有多张表,这里的表名叫collection,每个collection可以存放多个文档(document),每个文档都以BSON(binary json)的形式存放于硬盘中,因此可以存储比较复杂的数据类型。它是以单文档为单位存储的,你可以任意给一个或一批文档新增或删除字段,而不会对其它文档造成影响,这就是所谓的schema-fre转载 2013-09-08 17:28:19 · 600 阅读 · 0 评论 -
mongodb的备份与还原
用mongo自带的bin/mongodump和bin/mongorestore备份和还原# /usr/local/mongodb-2.4.8-master/bin/mongodump --helpExport MongoDB data to BSON files.options: --help produce help原创 2014-04-01 01:35:06 · 766 阅读 · 0 评论 -
mfs文件系统配置安装
安装依赖包yum -y install gcc gcc-c++ glib fuse zlib zlib-devel pkgconfig fuse-devel make下载mfswget http://jaist.dl.sourceforge.net/project/moosefs/moosefs/1.6.26/mfs-1.6.26.tar.gz创建mfs用户userad原创 2013-07-17 17:01:12 · 1946 阅读 · 0 评论