- 博客(9)
- 收藏
- 关注
转载 2020-09-27
原文链接:https://www.jianshu.com/p/ca9dce6b5c37Hive- UDF&GenericUDF在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分为三大类:UDF (用户自定义函数) 一行 ===》一行UDAF(用户自定义聚合函数) 多行 ===》一行UDTF(用户自定义表生成函数)一行 ===》多行自定义UDF简介Hive有两个不同的接口编写UDF程序:基
2020-09-27 14:25:45
350
原创 序列化特点(jdk的serializable,Hadoop的writeble,Spark引用框架kryo)
序列化概念 (Serialization)将对象的状态信息通过某种编码转化为二进制,可以存储或传输。序列化的好处和目的:实现了数据的持久化,通过序列化可以把数据永久的保存再硬盘上,通常是存在文件中;利用序列化实现远程通信,在网络上传送对象的字节序列,将对象从一个地方传递到另一个地方,eg:spark程序中将一个driver端的实例对象传送到executor中执行,此对象必须可序列化;– 序列化: 把对象转成字节序列;– 反序列化: 把字节序列转化为对象;– 持久化: 把内存数据存储到磁
2020-09-05 21:54:09
335
原创 Spark---IP归属地案例(广播变量,单例对象)
简介 access.log是电信运营商的用户上网数据;20090121000138654752000|123.197.46.211|www.45yo.cn|/|Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)||cck_lasttime=1232466678832; cck_count=020090121000138986515000|115.120.3.48|www.kujue.com|/modules/arti...
2020-08-17 22:05:31
398
原创 scala 自定义排序详解
scala 自定义排序详解学大数据,选多易!!!背景:使用RDD的sortBy或sortByKey方法进行排序,根据需求实现灵活的排序规则。场景:有一组数据类型是(姓名,工龄,工资),想按照分数降序,姓名升序进行排序。方式一:利用元组的排序规则特点元组排序规则:先比较第一个字段,相等再比较第二个字段,第二个相等再比较第三个字段........object MySort1 { def main(args: Array[String]): Unit = { val co
2020-08-15 21:06:18
901
原创 Spark 中cache和persist详解
cachecache: 缓存,可以将数据缓存到内存或持久化到磁盘[executor所在的磁盘] 。cache和persist严格来说不是transformation,也不是action,因为没有生成新的RDD,只是标记了当前RDD要cache或persist。cache和persist是lazy的,当第一次遇到Action算子的时侯才会进行缓存或持久化,以后再触发Action会读取、复用缓存的RDD的数据再进行操作。cache底层调用了persist方法;def persist():
2020-08-14 14:18:39
2344
原创 Scala匹配模式详解
Scala 匹配模式 Scala的模式匹配除了可以对值进行匹配之外,还可以对类型进行匹配、对Array和List的元素情况进行匹配、对case class进行匹配、甚至对有值或没值(Option)进行匹配。1.值匹配 匹配模式可以对字符串,整数等进行内容匹配!!2.类型匹配3.对元组进行匹配4.Array和List匹配5.样例类和样例对象匹配6.Option...
2020-08-03 15:05:54
176
转载 scala隐式转换
隐式转换是Scala中一种非常有特色的功能,是其他编程语言所不具有的,它允许你手动指定,将某种类型对象转换为另一种类型对象。通过这个功能可是实现 更加灵活强大的功能。转发写标明原文地址:原文地址Scala的隐式转换最为核心的就是定义隐式函数,即implicit conversion function,定了隐式函数,在程序的一定作用域中scala会 自动调用。Scala会根据隐式函数的签名,在程序中使用到隐式函数参数定义的类型对象时,会自动调用隐式函数将其传入隐式函数,转换为另一种类型对象并返回,这就
2020-08-01 13:49:26
155
原创 Akka简介和rpc项目程序总结
Akka框架 Akka是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。 Akka是JAVA虚拟机JVM平台上构建高并发、分布式和容错应用的工具包和运行时。 Akka处理并发的方法基于Actor模型。在Akka里,Actor之间通信的唯一机制就是消息传递。比喻介绍: 多名学生与多名老师之间的问题咨询;Actor编程模型1.每名学生和每名老师都是Actor,是用来接收和发...
2020-07-31 17:51:24
437
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人