
scala
fct2001140269
大数据架构、地理信息系统
展开
-
scala(List)
准在di列表过滤:scala> val info=List("lingang","wangfang","changhua","zhangjin","guanyu")info: List[String] = List(lingang, wangfang, changhua, zhangjin, guanyu)/*e1、count函数原型是:(p: Any => Boolean)Int转载 2018-04-15 16:02:37 · 237 阅读 · 0 评论 -
在使用Flink广播变量broadcast时遇到的坑
在使用Flink广播变量遇到的坑如下代码中需要特别注意:(1)需要手动导入org.apache.flink.api.scala._(2)需要手动导入scala.collection.JavaConverters._【如果不手动导入该包,导致asScala使用隐式转换失败】package testbrocastimport org.apache.flink.api.common.fun...原创 2018-11-23 20:00:57 · 3338 阅读 · 3 评论 -
Flink从kafka中消费数据--解析
一、情况介绍:基于scala语言的Flink从kafka中消费数据,然后使用protobuf解析,当然默认是使用string解析的,此处需要指定接收的数据格式package cetc.kakfa2flinkimport java.io.IOExceptionimport java.util.Propertiesimport com.hxy.protobuf.DSFusionimpo...原创 2018-11-14 17:05:35 · 8412 阅读 · 2 评论 -
Flink中scala提示错误——could not find implicit value for evidence parameter of type org.apa
Flink第一个简单的demo ,wordCountpackage cetc.flinkimport org.apache.flink.api.scala.ExecutionEnvironmentobject FlinKMain { def main(args: Array[String]): Unit = { // 1.设置运行环境 val env = Execu...原创 2018-11-14 14:42:36 · 8011 阅读 · 4 评论 -
基于scala的spark on yarn历史统计程序
我的测试程序代码:1.写好scala代码功能:从hdfs读取数据,然后处理后输出到hdfsimport org.apache.spark.sql.{Dataset, SparkSession}object TestLoadDbData { def main(args: Array[String]): Unit = { if (args.size != 1) { p...原创 2018-10-19 17:10:44 · 487 阅读 · 0 评论 -
SparkSeesion读写操作数据库
SparkSeesion读写操作数据库(亲测有效)object JDBCDemo { def main(args: Array[String]): Unit = { //获取spark的连接 val session = SparkSession.builder() .master("local") .appName(JDBCDemo.getClass...转载 2018-10-10 13:50:12 · 1649 阅读 · 1 评论 -
SparkSession解释
创建SparkSessionSpark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,用户不但可以使用DataFrame和Dataset的各种API,学习Spark2的难度也会大大降低。早期版本:在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext,代码如下://设置SparkConf配置参数,并创建...原创 2018-10-09 13:44:16 · 2819 阅读 · 2 评论 -
scala学习之路
scala集合–常用集合(看这个是基础)http://www.importnew.com/3673.htmlscala集合补充一http://www.importnew.com/3240.htmlscala集合补充二:http://www.importnew.com/4543.html...原创 2018-10-15 19:55:23 · 243 阅读 · 0 评论 -
【Spark篇】---Spark中yarn模式两种提交任务方式
转载:https://blog.youkuaiyun.com/LHWorldBlog/article/details/79300036 一、前述Spark可以和Yarn整合,将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交任务的方式。二、具体  ...转载 2018-10-06 18:30:57 · 258 阅读 · 0 评论 -
DataFrame、Dataset、RDD的区别与联系及相互之间的转换
DataFrame、Dataset、RDD的区别与联系及相互之间的转换本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种数据组织类型;它们各自适合的使用场景,是最常用的数据类型,在学习spark的过程中对其不是很了解,现在整理如下:一、共同点:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大...原创 2018-09-09 18:25:09 · 2407 阅读 · 0 评论 -
基于scala的spark程序必学知识点
scala中常用的集合操作: https://blog.youkuaiyun.com/wangxiyanw/article/details/78254360spark常用的算子操作: http://www.cnblogs.com/zlslch/p/5723857.htmlspark读写操作数据库: https://blog.youkuaiyun.com/mys_35088/article/details/81...原创 2018-09-09 16:51:58 · 254 阅读 · 0 评论 -
scala学习中遇到的问题
1.什么scala中的高阶函数所谓一阶函数就是函数的参数不是函数,而是普通的变量;所谓高阶函数就是函数的参数是函数,此时认为函数是高阶函数。 用+=可以向集合当中添加具体的元素,用++=可以向集合当中添加具体的集合(List或者Array)。3、简述List中的map、flatMap、foreach、filter的具体用法1>map就是对集合中的所有元素执行一个具体的函数...原创 2018-09-09 15:49:02 · 454 阅读 · 0 评论 -
spark中访问数据库多种方式(遇到坑)
问题描述:1在IDEA中使用scala语言在spark环境中访问postgres数据库,执行相应的sql语句,返回相应的结果. 自身在访问数据库中遇到了很多的坑,就尝试多种方式,如下:1.方式一(使用sparkSession方式):Properties connectionProperties = new Properties();//增加数据库的用户名(user)密码(...原创 2018-09-07 23:13:53 · 1978 阅读 · 0 评论 -
最近经历的一些大数据(Spark/Hadoop)面试题
转载:http://www.360doc.com/content/17/0607/09/14808334_660689483.shtml 公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。4.shuffle 是什么? 怎么调优?5.项目...转载 2018-08-18 18:32:11 · 1570 阅读 · 0 评论 -
什么是函数式编程
一、什么是函数式编程(FP)(1) 函数式编程: 它属于”结构化编程”的一种,主要思想是把运算过程尽量写成一系列嵌套的函数调用。 函数编程语言最重要的基础是λ演算(lambda calculus),而且λ演算的函数可以接受函数当作输入(参数)和输出(返回值)。【补充:Lambda演算是通过一个函数来解决这个问题,而这个函数又是由一系列别的函数组成,这样递归下去,最终达到常量。有...原创 2018-08-12 23:17:41 · 1801 阅读 · 1 评论 -
30个常见的大数据面试题 --让你的薪资更上一层
30个常见的大数据面试题:包含spark、scala、storm、hadoop等常见的大数据处理工具;常用的分布式数据库如hbase、MongoDB、Redis等;其他常用的java基础、linux相关技术等1.scala 语言有什么特点,什么是函数式编程?有什么优点2.scala 伴生对象有什么作用3.scala 并发编程是怎么弄得,你对 actor 模型怎么理解有何...原创 2018-08-14 22:45:13 · 1747 阅读 · 0 评论 -
flink运行过程中常见错误总结
错误1.flink常见错误flink错误提示:missing parameter typeError:(24, 15) reference to StreamExecutionEnvironment is ambiguous;it is imported twice in the same scope byimport org.apache.flink.streaming.api.scal...原创 2019-05-10 09:29:02 · 5543 阅读 · 1 评论