
spark
文章平均质量分 93
spark
王一1995
不想介绍
展开
-
[SPARK][HBASE]spark读取文件,生成hfile并批量导入hbase以及遇到的spark运行时候的问题
目录1.使用scala读取文件,生成hfile,bulkload2.展示一下java代码,不如scala快3.暂时认为最靠谱的put批量操作如果你支持scala,恭喜你,很容易一般写spark程序,文件路径都设置成hdfs路径,不容易报错;要不然容易踩坑,(⊙o⊙)…我踩坑了、将文件上传到hdfs吧。文件路径就写成 hdfs:///注意:1.使用spark的saveAsNewAPIHadoopFile一定要对rowkey,列族,子列 进行排序,否则执行的时候会报错: java.io.IOExcept原创 2021-04-13 21:03:43 · 1432 阅读 · 1 评论 -
用户画像——用户流失率的计算
目录1.流失概率预测需求2.特征工程—— 选择特征3.特征工程—— 特征数据源4.算法选择4.1逻辑回归分类算法4.1.1步骤4.1.2 向量规范化4.1.3 按照步骤写demo4.2朴素贝叶斯算法4.2.1特征值离散化4.2.2模型训练4.2.3 demo1.流失概率预测需求根据用户的活跃度以及消费情况,判断用户的流失意向。可以对有流失意向的用户及时召回。其中表包括:模型预测时间,用户i...原创 2020-04-25 18:08:08 · 1761 阅读 · 3 评论 -
关于spark core 和spark streaming 的区别
目录1.spark core快速使用简单通用运行灵活多种运行模式访问多种数据源总结2.spark streaming原理,概念,特点整合kafaka1.spark corespark core是一个基于内存的,大数据分布式计算框架(处理引擎)。快速比mapreduce快几倍甚至几百倍, 开发效率高。使用简单高度封装api 。支持多种编程语言通用支持sql。实时计算 spark s...原创 2020-04-22 21:27:56 · 1704 阅读 · 0 评论 -
sparkstreaming的exactly once
spark的exactly once1.利用mysql 的幂等性注:spark整合kafka可以实现exactly once,一种是事物性,另一种是幂等性绍幂: 幂等性就是未聚和的,在executor端获取偏移量,将偏移量和计算结果写入到ES或者Hbase,如果数据写入成功,但是偏移量未更新成功,覆盖原来的数据。事物:数据经过聚合后,数据已经变得很少,可以将计算好的结果收集到driver端...原创 2020-04-03 22:12:27 · 504 阅读 · 0 评论 -
隐式转换
scala隐式转换的概念简单说,隐式转换就是:当Scala编译器进行类型匹配时,如果找不到合适的候选,那么隐式转化提供了另外一种途径来告诉编译器如何将当前的类型转换成预期类型。隐式转换有四种常见的使用场景:将某一类型转换成预期类型类型增强与扩展模拟新的语法类型类语法隐式转换有新旧两种定义方法,旧的定义方法指是的“implict def”形式,这是Scala 2.10版本之前的写法,...原创 2019-12-21 00:16:30 · 422 阅读 · 0 评论 -
高德API请求demo
首先你必须注册一个账号,因为搞得查东西是花钱的(或者去某宝租一个短期的)object GaodeLBSDemo { def main(args: Array[String]): Unit = { import scala.collection.JavaConversions._ // 构造一个http客户端 val client = HttpClientBuilder...原创 2019-10-28 17:36:19 · 768 阅读 · 0 评论