
大数据之spark练习
文章平均质量分 73
lv_yishi
这个作者很懒,什么都没留下…
展开
-
spark中ip归属地访问的次数练习
IP地址归属地信息练习用户访问日志信息:**案例需求:**根据访问日志的IP地址计算出访问者的归属地,并且按照省份,计算出访问次数,然后将计算好的结果写入到MySQL**案例实现步骤**1,加载IP地址归属地信息,切分出IP字段和省份信息,(将IP地址转换成十进制,方便于后面快速查找)2,将IP地址和省份信息通过广播缓存到各个节点内存中(Executor中的内存中)3,...原创 2018-11-07 19:34:26 · 626 阅读 · 0 评论 -
spark中根据基站位置判断用户家庭工作地址练习
方式1:常规的RDD操作import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//(1)使用普通的RDD的方式object user1 { def main(args: Array[String]): Unit = { val conf = new Spa...原创 2018-11-08 01:24:16 · 799 阅读 · 0 评论 -
spark的RDD练习(关于求学生的成绩)
给定数据如下:数据 班级ID 姓名 年龄 性别 科目 成绩 12 张三 25 男 chinese 50 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 7...原创 2018-11-11 13:47:12 · 14169 阅读 · 0 评论 -
spark 求相邻的元素有多少个?
数据:数据 A;B;C;D;B;D;C B;D;A;E;D;C A;B 如上面的数据,A,B有两个 C,D有一个 D,C有两个/*A;B;C;D;B;D;CB;D;A;E;D;CA;B */object Demo2 { def main(args: Array[String]): Unit = { val session = SparkSessio...原创 2018-11-11 14:59:22 · 312 阅读 · 0 评论 -
基于spark sql 统计爬取到的个网站的一天访问量
数据:import org.apache.spark.sql.{DataFrame, SparkSession}object words1 { def main(args: Array[String]): Unit = { val session = SparkSession.builder().appName("words").master("local[*]").ge...原创 2018-11-14 19:09:26 · 912 阅读 · 2 评论 -
统计所有用户对每个学科的各个模块的访问次数,再取Top3
如有一下的数据: 20161123101523 http://java.learn.com/java/javaee.shtml 20161123101523 http://java.learn.com/java/javaee.shtml 20161123101523 http://ui.learn.com/ui/video.shtml 20161123101523...原创 2018-11-29 11:25:11 · 1224 阅读 · 0 评论