
数据处理案例
文章平均质量分 88
AngellYue
思维改变世界!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据处理案例一之"求同存异"
数据 a.txt: u1 12 zs u2 15 xx u3 18 aaa u4 20 xa1 u5 22 xa2b.txt u1 2016 9 m1 u2 2017 12 m2 u3 2017 1 m3 u3 2014 2 m4 u3 2012 3 m5 2. 需求 两个数据集: 数据集A id,age,name 数据集B id原创 2018-01-27 20:51:54 · 2018 阅读 · 0 评论 -
数据处理案例二之数据汇总
数据 1010,华语剧场|剧情|当代|类型,1,0 1010,剧情|剧情|家庭剧|类型|热血,1,1 1011,华语剧场|剧情|当代|类型,1,0 1011,剧情|爱情|家庭剧|类型|热血,1,1 1012,华语剧场|剧情|当代|类型,1,0 1012,剧情|爱情|剧情|剧情|家庭剧|类型|热血,1,1 1011,华语剧场|剧情|当代|类型,1,0 1012,剧情|爱情|剧情|剧情原创 2018-01-27 20:57:14 · 775 阅读 · 0 评论 -
数据处理三之 用户在线时长和登录次数统计
数据 2016-04-18 16:00:00 {“areacode”:”浙江省丽水市”,”countAll”:0,”countCorrect”:0,”datatime”:”4134362”,”logid”:”201604181600001184409476”,”requestinfo”:”{\”sign\”:\”4\”,\”timestamp\”:\”1460966390499\”,\”rema原创 2018-01-27 21:19:47 · 2581 阅读 · 0 评论 -
数据处理四之平均温度
数据生成逻辑import java.io.{File, FileWriter}import org.apache.spark.util.randomimport scala.util.Randomobject DealDataExample4_1 { val random = new Random() val arr = Array("北京","上海","广州","原创 2018-01-27 21:25:03 · 1127 阅读 · 0 评论 -
数据处理五之去重
数据 file1:2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 cfile2:2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4 d 2012-3-5 a 2012-3-6 c 2012-3-7 d原创 2018-01-27 21:30:17 · 567 阅读 · 0 评论 -
数据处理六之全局分组TOPN
数据 http://bigdata.edu360.cn/laozhang http://bigdata.edu360.cn/laozhang http://bigdata.edu360.cn/laozhao http://bigdata.edu360.cn/laozhao http://bigdata.edu360.cn/laozhao http://bigdata.edu360.cn原创 2018-01-27 21:40:06 · 502 阅读 · 0 评论 -
数据处理七之匹配ip查找地区
数据样例(数据量太大无法提供全部) ip.txt 1.2.4.0|1.2.4.255|16909312|16909567|亚洲|中国|北京|北京||中国互联网信息中心|110100|China|CN|116.405285|39.904989 1.2.5.0|1.2.7.255|16909568|16910335|亚洲|中国|福建|福州||电信|350100|China|CN|119.3062原创 2018-01-27 21:51:07 · 786 阅读 · 0 评论