- 博客(22)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 linux通过screen离线运行程序、训练模型
安装:1.在线(base) [root@slave2 ~]# yum -y install screen2.离线:查看系统版本(base) [root@slave2 ~]# cat /etc/redhat-release然后在http://www.rpmfind.net/linux/rpm2html/search.php?query=screen下载自己需要的版本,然后安装rpm...
2020-04-14 12:41:17
901
原创 websocket连接失败!!
连接socket的时一定要把url对上:我的127.0.0.1就是localhost如果tomcat配置的是那这里也要改成
2020-04-03 18:03:46
6023
2
原创 Linux Centos7.5安装tensorflow
当前环境:centos7.5python3.7.6anaconda3安装anaconda: https://blog.youkuaiyun.com/ychgyyn/article/detai/82258136添加tensorflow环境conda create -n tensorflow python=3.7激活tensorflow环境conda active tensorflow进...
2020-03-24 15:07:34
531
原创 storm本地模式运行成功但不生产文件结果,ERROR o.a.s.d.s.ReadClusterState - Failed to Sync Supervisor
在local模式下出现了这个错误,百度得到的是版本信息不符合,但是local怎么会不对呢?解决:将休眠时间调大是主线程休眠的时间太短了,休眠10s,而此时storm还没有初始化完成,所以导致还没开始就结束了解决方案:将休眠时间调高,让程序可以正常执行...
2020-03-15 15:09:06
674
原创 word中优雅的插入代码块
打开 http://www.planetb.ca/syntax-highlight-word将代码复制至code块里选择编译语言,然后show highlights将新页面的代码复制至word即可
2019-12-23 14:07:51
320
原创 idea写spark程序时过滤掉INFO信息
编写spark程序时,INFO信息导致过多 导致输出非常不好找,因此给他过滤掉方法一:在代码中加入val spark = SparkSession.builder().appName("xx").master("local").getOrCreate()val sc = spark.sparkContextsc.setLogLevel("ERROR")//log中只会出现error级别的...
2019-12-17 15:05:38
940
原创 sparkSQL练习,分析处理篮球运动员数据
题目:(1) 分析2016年 ①②③④ 属性 z-score 排名package zhimport org.apache.spark.sql.SparkSession/** * * @author smallheroic * @Date 2019-12-12 15:18 * */object homework1 { case class nba(Age:Int,...
2019-12-16 14:28:05
2803
1
原创 Command line is too long. Shorten command line for OOP or also for Application default configuration
idea运行代码时出现解决:在.idea文件夹里的workspace.xml中的标签下添加:<property name="dynamic.classpath" value="true" />
2019-12-14 16:39:34
442
原创 sparkcore练习_2,各种算子的练习
数据集http://grouplens.org/datasets/movielens/MovieLens 1M Dataset相关数据文件users.datUserID::Gender::Age::Occupation::Zip-codemovies.datMovieID::Title::Genresratings.datUserID::MovieID::Rating::Tim...
2019-12-12 22:11:26
395
原创 idea通过maven创建scala项目及编写spark
file->new project->maven->填写gva:配置maven版本,如果配置了镜像则读取自己的setting.xmlnext->finish!!! scala版本一定要对应改成自己安装的版本,dos模式:scala --version将自动生成的.scala文件删除:file->project structurespa...
2019-12-12 16:36:16
364
原创 解决rdd无法调用toDF及 value toDF is not a member of org.apache.spark.rdd.RDD[names]
编译代码object homework01 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ch2homework01").setMaster("local[4]") val sc = new SparkContext(conf) val sp...
2019-12-10 13:58:41
1661
原创 spark中的map-side-join关联优化
将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-side-join。如果其中有张表较小的话,我们则可以自己实现在 map 端实现数...
2019-12-10 11:39:47
329
原创 spark scala读取文件选取特定列
spark scala读取文件选取特定列wordcount.txt:a,1c,2a,1选取最后一列//选取特定列.val data=sc.textFile("file:///E://table//wordcount.txt").flatMap(_.split("\n")) //按换行符分割文件,把文件分成一行行的.map{ line=> var splits=li...
2019-12-08 18:22:15
3507
原创 sparkcore练习_1,RDD转化为RDD[LabelPoint]和map-side-join以及将结果(RDD/dataframe)输出到一个文件保存
数据集net.gz为网络流量数据, 数据集每条记录展现每个连接的信息, 最后一列为攻击的标签(1) 请统计, 出现的攻击类型对应的攻击次数(2) 为了输入给算法, 请将RDD 类型转换为RDD[Labelpoint]( Labelpoint为Spark Vector)(1)不使用labelpoint:package homework.chapter2import org.apac...
2019-12-08 18:12:25
616
原创 Spark运行模式的区别
local :就是单机,jobs都在这台机器上运行。standalone:就是说多台机器组成一个集群,然后jobs可以分在多台机器上运行yarn:就是说spark程序运行在yarn上client :就是Jobs在不同机器运行,然后结果返回到这台机器上。cluster : 就是说jobs在不同机器上运行,结果返回到集群中的某一台机器上。...
2019-12-06 17:32:59
191
原创 scala一行代码实现wordcount解析
sc.textFile("/data/wordcount.txt").flatMap(.split(" ")).map(word=>(word,1)).reduceByKey(+).sortBy(._1,false).collect().foreach(println)这个file读的是hdfs文件,读文件的区别sc.textFile(args(0)) 读取这个变量地址指定的文件....
2019-12-06 10:36:04
516
原创 读取文件时,读取hdfs集群的文件和本机文件的scala代码写法
读取hdfs集群的文件val file=sc.textFile("/data/wordcount.txt")不能写成:val file=sc.textFile(“hdfs:IP地址///data/wordcount.txt”)读取本机文件val file=sc.textFile(“file:///data/wordcount.txt”)...
2019-12-06 10:02:31
762
原创 解决idea通过maven创建scala项目,自动生成的App.scala报错
直接删除自动生成的scala文件main里有一个test里有两个删了然后新建即可
2019-12-06 08:48:05
325
原创 解决idea编写spark程序时,import org.apache.spark报错
问题描述导入spark程序时,spark显示不能识别此符号解决:去官网对应spark版本的压缩包,链接解压,既有jars目录
2019-12-05 18:06:08
21691
2
原创 R语言第五次实训,dplyr 、tidyr和lubridate处理数据
题目1:1.数据处理【只用SY-20150401.csv】将数据处理成每条数据处于一天中的第几个5分钟(说明: 00:00:01在第一个5分钟内, 00:10:13在第三个5分钟内),由于一天可能多次乘坐地铁,根据卡号和进站时间,查询最近出站的时间,作为本次出站时间。参考函数lubridate::hms, lubridate:: period_to_seconds。处理的最终结果: da...
2019-12-05 16:40:41
677
原创 R语言第六次实训,leaflet绘制地铁线路图
题目:使用leaflet绘制地铁线路图,要求1) 图中绘制地铁线路2) 各站点展示进站流量(08:00:00-08:05:00间的数据),流量的大小用标记的大小表示,并且提示线路、站点、流量的具体数值。Shenyang <- leaflet() %>%setView(lng=123.44,lat=41.81,zoom = 11) %>% addProviderTil...
2019-12-05 16:25:12
1385
原创 解决idea中创建scala项目中maven-scala-plugin插件无法加载的问题
解决idea中创建scala项目中插件无法加载的问题解决方案先创建在用idea时由于自己使用的是老师给的pom,出现了始终飘红,无法下载解决方案在依赖下载中加上<!-- https://mvnrepository.com/artifact/org.scala-tools/maven-scala-plugin --> <dependency> ...
2019-12-05 15:54:18
22172
4
sparkSQL数据 basketball.zip
2019-12-16
spaakcore练习_1第二题数据.zip
2019-12-10
sparkcore1_1.corrected.gz
2019-12-08
R语言第六次实训数据.zip
2019-12-05
systation.csv
2019-12-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人