- 博客(259)
- 资源 (3)
- 收藏
- 关注
原创 在集群提交Saprk机器学习的推荐模型任务,报异常Exception in thread “dag-scheduler-event-loop“ java.lang.StackOverflowError
在输出目录中,可以看到一部分的输出,但是不完全,因为程序一直在栈溢出。错误原因内存过小,数据量过大,发生栈溢出,无法保存模型解决设置检查点在原程序的主方法中添加:sc.setCheckpointDir("your chpoint directory")因为我这是在hadoop集群上跑,这个目录必须是一个HDFS路径。其他情况自己看着办扩展checkpoint的意思就是建立检查点,类似于快照。例如在spark计算里面,计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果
2021-06-08 17:18:36
524
原创 Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo
问题在yarn集群上提交一个spark-submit的任务,最后抛出一个异常解决原因:因为在之前的项目中,在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩,这就导致上传到hdfs 的文件自动被压缩为lzo了。所以当使用提交spark-submit任务时,需要访问HDFS上的文件,而spark自身没有lzo的jar包所以无法找到。方法一:软链接到spark下的jars目录,注意自己的hadoop-lzo-0.4.20.jar的目录!ln
2021-06-07 20:09:27
812
2
原创 在centos7上执行自己写的脚本时报错:/bin/bash^M: 坏的解释器: 没有那个文件或目录
错误原因这个脚本文件是在Windows下编辑的,与linux的区别是:在Windows下每一行结尾是\n\rLinux下则是\n,所以才会有多出来的\r修改错误把多出来的\r替换成空白sed -i 's/\r$//' xxxxxxx.sh再次执行脚本,成功!...
2021-05-01 13:18:05
1048
原创 Spark中普通集合与RDD算子的zip()拉链有什么区别
集合中的zip:如果两个集合的元素个数不相等,那么会将同等数量的数据进行拉链,多余的数据省略不用RDD算子的zip:该操作可以将两个RDD中的元素,以键值对的形式进行合并。其中,键值对中的Key为第1个RDD中的元素,vaue为第2个RDD中的元素。不同于集合中的zip()方法,将两个RDD组合成 Key/value开式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。...
2021-03-29 13:12:27
435
原创 Spark中普通集合与RDD算子的sortBy()有什么区别
分别观察一下集合与算子的sortBy()的参数列表普通集合的sortBy()RDD算子的sortBy()结论:普通集合的sortBy就没有false参数,也就是说只能默认的升序排。如果需要对普通集合中的元素需要升序排怎么办?如图所示,我这调用的sortby()是List集合的方法了,不是算子,所以不能加false参数指定降序排,只能默认的升序排了,但是用reverse()反转就能达到一样的效果。或者使用takeRight()方法取后十个也一样,注意的是后十个也是按升序排的...
2021-03-29 12:36:16
334
原创 亚信科技笔试SQL题--case语法、生成序列号
1.创建一张表Table A,将上述数据插入表中,(字段名称自定)CREATE TABLE `a` ( `callnumber` varchar(255) DEFAULT NULL, `callednumber` varchar(255) DEFAULT NULL, `callcount` varchar(255) DEFAULT NULL, `calltime` datetime DEFAULT NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8IN.
2021-03-18 17:54:55
1342
原创 如何使用python把json文件转换为csv文件
文章目录了解json整体格式转换格式提取key和value使用pandas写入csv了解json整体格式这里有一段json格式的文件,存着全球陆地和海洋的每年异常气温(这里只选了一部分):global_temperature.json{ "description": { "title": "Global Land and Ocean Temperature Anomalies, January-December", "units": "Degrees Celsius", "
2021-03-12 16:43:52
4646
原创 spark优化
Spark Sql DataFrame DataSet:1.减少小文件使用coalesce()算子,缩小分区插入hive表 write.mode 选择插入模式,inserinto 兼容hive 根据字段顺序去匹配hive表。saveastable 不兼容hive 根据字段名字进行匹配2.windows下local模式访问集群资源core-site.xml, hdfs-site.xml ,hive-site.xml,yarn-site.xml放到resource源码包下HA支持:val spar
2021-03-12 15:41:48
855
原创 大数据模拟面试题
第一部分自我介绍 过于冗余项目介绍? 还可以分层以及为啥分层 不完善开发人员分工 一般日数类型及日数据量,业务库最大的表的数据量 一般拉链表逻辑及回滚 回滚不会重要指标及统计方法 不行。建模及原因 (星型模型,雪花模型)开发规范? 没答到点上Hive的理解及调优? 随机数获取(rand()) 小文件处理 group byMapjoin 不行指标一致性? 不行Spark函数 了解Mr shuffle 可以Hbase二级索引Flink熟吗Kyli
2021-03-10 13:17:46
435
6
原创 java创建对象的五种方式
new反射:使用Class类的forName()方法得到指定类对象,然后使用类对象的newInstance()方法创建对象克隆:实现Cloneable接口,需要已经有一个分配了内存的对象,使用这个已经创建的对象克隆新对象反序列化:实现Serializable接口,将一个对象序列化到磁盘上,采用反序列化可以将磁盘上的字节码文件加载到内存中。工厂模式...
2021-02-24 23:59:21
289
原创 scala:主构造方法和辅助构造方法
文章目录构造器(构造方法)Java中构造器Scala中构造器主构造方法辅助构造方法scala代码示例scala有参数的主构造方法构造器(构造方法)作用:构造对象初始化属性(给对象的属性赋值)Java中构造器方法名和类名保持一致构造方法没有返回值类型构造方法可以重载Scala中构造器主构造方法在声明类的同时,就定义了主构造方法,换言之,类就是主构造方法在一个类中,主构造方法只能有一个辅助构造方法方法名必须叫this在辅助构造方法开始(第一行)必须直接或者间接的调用主
2021-02-24 14:44:50
569
原创 java和scala的访问权限修饰符及其异同点
Java-private 只能在当前类中被访问-default(默认) 当前类以及同包的其他类-protected 当前类以及同包的其他类以及非同包的子类-public 所有类Scala-在scala中,类、方法、属性默认就是public修饰,但是没有public关键字-private 私有的,只能在当前类以及伴生对象中使用
2021-02-24 12:43:08
472
原创 scala:把函数作为值或参数进行传递、作为返回值进行返回,以及什么是闭包和柯里化
文章目录函数可以作为值进行传递函数可以作为参数进行传递函数可以作为返回值进行返回什么是匿名函数函数可以作为值进行传递语法var f = 函数名 _如果明确了变量的数据类型,那么下划线可以省略//函数正常的声明与调用 def foo():Int={ println("foo...") 10 } //将foo函数的执行结果赋值给res变量 //val res: Int = foo() //println(res) //函数作为
2021-02-22 17:42:45
1367
原创 scala:函数至简原则、函数简化过程
1.return可以省略,Scala会使用函数体的最后一行代码作为返回值2.如果函数体只有一行代码,可以省略花括号3.返回值类型如果能够推断出来,那么可以省略(:和返回值类型一起省略)4.如果有return,则不能省略返回值类型,必须指定5.如果函数明确声明unit,那么即使函数体中使用return关键字也不起作用6.Scala如果期望是无返回值类型,可以省略等号 这种形式称为过程7.如果函数无参,但是声明了参数列表,那么调用时,小括号,可加可不加8.如果函数没有参数列表,那么小括号可以.
2021-02-21 23:06:18
923
原创 使用hql-统计连续登陆的三天及以上的用户
文章目录数据提供输出字段解法一解法二建表导数据验证数据解决方案-使用解法二结果思路这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打车、连续逾期……数据提供 用户ID、登入日期 user01,2018-02-28 user01,2018-03-01 user01,2018-03-02 user01,2018-03-04 user01,2018-03-05 user01,2018-03-06 user01,2018-03-07 user02,2018-0
2021-02-21 00:20:32
680
原创 azkaban群起/群停脚本
群起包括:第一步启动exec此时这列的值为0,下一步激活后变成1第二步激活exec第三步打开web页面脚本代码(注意修改自己的主机名和安装路径)#!/bin/bashstart-web(){ for i in hadoop102; do ssh $i "cd /opt/module/azkaban/azkaban-web;bin/start-web.sh" done}stop-web(){ for i in hadoop102; do ssh $i
2021-02-15 23:19:59
866
原创 Hive读取索引文件问题:select * 和select count(*)读取出来的行数不一致
两种方式,分别查询数据有多少行:hive (gmall)> select * from ods_log;Time taken: 0.706 seconds, Fetched: 2955 row(s)hive (gmall)> select count(*) from ods_log;2959两次查询结果不一致的原因分析hive (gmall)> drop table if exists ods_log;CREATE EXTERNAL TABLE ods_log (`l
2021-02-04 17:41:11
1136
3
原创 scala/java等其他语言从CSV文件中读取数据,使用逗号‘,‘分割可能会出现的问题
众所周知,csv文件默认以逗号“,”分割数据,那么在scala命令行里查询的数据:可以看见,字段里就包含了逗号“,”,那接下来切割的时候,这本应该作为一个整体的字段会以逗号“,”为界限进行切割为多个字段。现在来看看这里的_c0字段一共有多少行记录。记住这个数字:60351行写scala代码读取csv文件并以逗号为分隔符来分割字段val lineRDD = sc.textFile("xxxx/xxx.csv").map(_.split(","))这里只读取了_c0一个字段,否则会报数组下标越
2021-01-30 00:43:02
1486
原创 hadoop3.1.3版本的secondaryNamenode的web界面不能显示的问题?
文章目录发现问题解决问题找到根源根治问题必看发现问题在浏览器输入secondaryNamenode的网址后不能显示,解决:先按F12,然后选择console,就能看见报错信息了:解决问题找到根源那就通过find命令找到这个dfs-dust.js文件:根治问题vim编辑器进入后,在命令模式输入:se nu设置行号,找到61行报错显示 monment is not defind,那就不要它了,反正也只是生成一个时间字符串删除这一行,自己写一个不就完了么?保存退出,一气呵成!
2021-01-28 16:59:07
1644
4
原创 启动kafka消费报错:WARN [Consumer clientId…] 1 partitions have leader brokers without a matching listener,…
别看其他文章了,你就是防火墙没关!不信试试看你的防火墙状态是不是running?firewall-cmd --state再送上关闭防火墙的命令:systemctl stop firewalld防火墙开机自启动:systemctl enable firewalld.service...
2021-01-28 14:56:42
3029
7
原创 centos6和centos7的防火墙命令,以及它们的区别是是什么?
文章目录一、 Centos6和Centos7 防火墙命令的区别iptables常用命令firewall常用命令一、 Centos6和Centos7 防火墙命令的区别Centos6自带的防火墙工具是iptablesCentos7自带的防火墙工具是firewalliptables 用于过滤数据包,属于网络层防火墙。firewall 能够允许哪些服务可用,哪些端口可用,属于更高一层的防火墙。iptables常用命令1.查询防火墙状态service iptables status
2021-01-27 17:57:48
634
原创 kafka项目经验之如何进行Kafka压力测试、如何计算Kafka分区数、如何确定Kaftka集群机器数量
文章目录Kafka压测Kafka Producer(生产)压力测试Kafka Consumer(消费)压力测试计算Kafka分区数Kafka机器数量计算Kafka压测用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈==(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。 ==使用下面两个kafka自带的脚本kafka-consumer-perf-test.shkafka-producer-perf-test.shKafka Producer(
2021-01-27 14:10:15
675
原创 /dev/null--Linux系统黑洞,解决在执行jar包时的控制台打印输出刷屏问题
通常控制台在执行某个jar包时,屏幕会刷个不停,直到程序执行完毕,类似这种:那么就可以编写一个脚本,把输出的内容全部扔进“黑洞”。此脚本模拟在hadoop102和hadoop103两台主机上循环执行jar文件:#!/bin/bashfor i in hadoop102 hadoop103do ssh $i "java -jar /opt/module/applog/gmall2020-mock-log-2020-05-10.jar 1>/dev/null 2>/de
2021-01-26 00:40:06
607
原创 /dev/null--Linux系统黑洞,解决控制台的刷屏问题
通常控制台在执行某个jar包时,屏幕会刷个不停,直到程序执行完毕,类似这种:那么就可以编写一个脚本,把输出的内容全部扔进“黑洞”。此脚本模拟在hadoop102和hadoop103两台主机上循环执行jar文件:#!/bin/bashfor i in hadoop102 hadoop103do ssh $i "java -jar /opt/module/applog/gm...
2021-01-26 00:40:00
435
原创 Linux的环境变量配置在/etc/profile或/etc/profile.d/*.sh文件中的区别是什么?
文章目录login shellnon-login shell它们的区别Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,~/.bashrc等,下面说明上述几个文件之间的关系和区别。bash的运行模式可分为login shell和non-login shell。login shell例如,我们通过终端,输入用户名、密码,登录系统之后,得到就是一个login shell。non-login shell而当我们执行以下命令ssh hado
2021-01-25 23:59:42
1376
原创 IDEA/Pycharm的config目录以及插件的安装位置在哪里?
文章目录在2020版前在2020版后在2020版前通过IDEA.properties文件可知config目录、system目录、插件安装目录都在用户目录下插件安装目录就在config目录下:在2020版后把pycharm和IDEA的config等目录都放在了这个路径下面:直接进去IDEA的目录,就相当于之前的config目录:...
2021-01-20 15:30:34
14922
1
原创 scala有哪些数据类型?
文章目录回顾:Java数据类型scala数据类型回顾:Java数据类型Java基本数据类型:char、byte、short、int、long、float、double、booleanJava引用类型:(对象类型)由于Java有基本类型,而且基本数据类型不是真正意义的对象,于是就有了基本数据类型的包装类:Java基本数据类型的包装类:Character、Byte、Short、Integer、Long、Float、Double、Boolean注意:Java中基本类型和引用类型没有共同的祖先。注
2021-01-15 20:39:51
1987
原创 scala的伴生类和伴生对象所属类是什么?
文章目录说在前面运行原理代码体现解析说在前面scala是纯面向对象的语言,C是纯面向过程的语言,Java就是面向过程+面向对象的语言。在说到伴生对象之前,要先说到java的static关键字,static关键字修饰的变量、方法可以使类对象共享,而非某个对象单独拥有,所以是通过类名.变量名/方法名去调用。而这违背了scala面向对象的初衷,因为这没有通过对象去调用。运行原理scala的编译与java大同小异:Java运行原理先编译,再解释.java源文件—>编译器(javac)
2021-01-13 20:41:35
453
原创 解析scala的伴生类和伴生对象所属类
@目录说在前面运行原理代码体现解析说在前面scala是纯面向对象的语言,C是纯面向过程的语言,Java就是面向过程+面向对象的语言。在说到伴生对象之前,要先说到java的static关键字,static关键字修饰的变量、方法可以使类对象共享,而非某个对象单独拥有,所以是通过类名.变量名/方法名去调用。而这违背了scala面向对象的初衷,因为这没有通过对象去调用。运行原理sca...
2021-01-13 20:41:00
245
原创 java集合有哪些分类以及集合下的ArrayList和LinkList的优缺点
文章目录集合Collection-存放单值类型数据List-有序、可重复ArrayListLinkedListVectorSet-无序、不可重复HashSetSortedSetTreeSetMap-存放的是键值对类型HashMapTreeMapSortedMap集合Collection-存放单值类型数据List-有序、可重复注意:有序指的是集合中的元素有下标,放进去和取出来的顺序一致ArrayList底层是数组优点:查询效率高,因为数组中的元素在内存中是连续的,可以快速的根据下标获取集合中的
2021-01-12 11:38:14
167
原创 更新pip时出现ReadTimeoutError…WARNING: You are using pip version……You should consider upgrading via the……
更新pip命令,在cmd窗口输入:python -m pip install --upgrade pip却出现报错警告!究其主要原因还是访问国外的网站,导致下载速度太慢,最后超时了!那就换成国内豆瓣的镜像源去下载!python -m pip install --upgrade pip -i https://pypi.douban.com/simple...
2020-12-29 23:13:51
302
原创 python正则表达式常用操作以及Re库主要功能函数
文章目录正则表达式的常用操作符Re库主要功能函数正则表达式的常用操作符操作符说明实例.表示任何单个字符[]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a-z]表示a到z单个字符[^]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符*前一个字符0次或无限次扩展abc*表示ab、abc、abcc、abccc等+前一个字符1次或无限次扩展abc+表示 abc、abcc、abccc等?前一个字符0次或1
2020-12-28 16:22:33
211
原创 虚拟机克隆后,重启网络服务时报错:网卡故障:弹出界面eth0: 错误:没有找到合适的设备:没有找到可用于链接System eth0 的……的解决办法
这通常是由于虚拟机克隆后,mac地址加了一行eth1,但是在这个文件里:/etc/sysconfig/network-scripts/ifcfg-eth0HWADDR仍是eth0的地址解决:修改指定网卡信息的文件vi /etc/udev/rules.d/70-persistant-net.rules找到eth1(除eth0以外),将NAME属性修改为eth0,并复制mac地址修改网卡配置文件vi /etc/sysconfig/network-scripts/ifcfg-eth0
2020-12-22 11:13:31
633
原创 jupyter不是内部或外部命令的解决方法
在cmd命令行中输入 :pip install jupyter notebook -i https://pypi.mirrors.ustc.edu.cn/simple
2020-12-19 17:29:01
2943
1
原创 jupyter代码自动补全插件、安装后出现警告“Config option `template_path` not recognized by `LenvsLatexExporter`”的解决方案
如果下面的所有命令都提示Not found,则需要配置好Anaconda和python的环境变量1.安装nbextensionspip install jupyter_contrib_nbextensions -i https://pypi.mirrors.ustc.edu.cn/simple这里-i指定了下载源,不然是从国外的官网下载,速度很慢!jupyter contrib nbextension install --user2.安装nbextensions_configurato.
2020-12-15 22:36:55
7870
8
原创 Hbase集群搭建以及启动(单点启动,群起)
文章目录HBase是什么HBase支持随机写HBase支持海量数据的实时读写HBase的安装和配置(重点)1.配置2.启动(重点)单点启动群起和群停集群同步HBase是什么HBase是基于hadoop的数据库!HBase支持随机写HBase的读写操作还是借助HDFS完成,要完成随机写,根本上还是需要复合HDFS的特性!HDFS只支持追加写!随机的操作: Update+Delete 借助 追加写+时间戳(版本号)只允许客户端查询时返回时间戳最新的数据!HBase支持海
2020-11-23 21:49:43
1789
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人