
大数据
lies@
这个作者很懒,什么都没留下…
展开
-
Day18[20200801]
原创 2020-08-01 18:40:38 · 96 阅读 · 0 评论 -
Day17[20200731]
原创 2020-08-01 18:37:33 · 115 阅读 · 0 评论 -
Day16[20200730]
原创 2020-08-01 18:33:05 · 89 阅读 · 0 评论 -
Day15[20200727]
一、Hive练习1.分区表我们有这样的一组数据:6,APPLE,北京,352,APPLE,上海,47数据脱敏,将原来的真实数据中敏感的信息进行模糊化,或者部分数据直接删除。id-》uuid-》变成了自动增长手机型号-》具体到什么品牌什么型号-》只保留了手机品牌城市-》 国-县-市-区(数字表示)-》只保留城市年龄-》身份证号码-》经过脱敏后,转换为年龄继续脱敏,删除部分数据,去除字段 。。。。。数据量:55Wx2 -》 超过百万的数据量我们在hive中执行如下的命令select c原创 2020-08-01 18:17:47 · 275 阅读 · 0 评论 -
Day14[20200726]
一、回顾1.数据倾斜数据倾斜/数据热点数据倾斜产生的原因数据倾斜大部分情况下是不可避免的。数据倾斜解决方案2.自定义函数Hive不是MySQLHive的底层是JavaMySQL中的count()是MySQL提供的功能 , MySQL底层是CHive中的count()其实就是Java中的一个方法!我们就自己写一个简单的方法 , 导入Hive中完成一个简单的需求。统计字符串长度select word,charcount(word) from wc;hadoop 6ja原创 2020-08-01 18:12:40 · 271 阅读 · 0 评论 -
Day13[20200725]
一、课程回顾1.共同的问题(1)换行lines terminated by ‘\n’ -> 让Java将换行符作为两条数据分分隔符…metastore?\ncreate…xml的配置文件 不要有中文,不要有空格,不要有tab,不要换行****(2)关于日志hive的日志需要自己配置一下的[hadoop@hadoop212 conf]$ vim hive-log4j.properties 2.核心知识点(1)关于HiveHive是一个Java编写的应用程原创 2020-08-01 18:07:03 · 263 阅读 · 0 评论 -
Day12[20200724]
原创 2020-08-01 18:00:55 · 78 阅读 · 0 评论 -
Day11[20200723]
原创 2020-08-01 17:50:36 · 105 阅读 · 0 评论 -
Day09[20200721]
原创 2020-08-01 17:48:00 · 72 阅读 · 0 评论 -
Day08[20200720]
原创 2020-07-20 17:24:12 · 103 阅读 · 0 评论 -
Day07[20200719]
原创 2020-07-20 10:30:44 · 97 阅读 · 0 评论 -
Day06[20200718]
原创 2020-07-20 10:25:11 · 87 阅读 · 0 评论 -
Day04[20200716]_数据库高级
一、课程回顾1.数据的更新(1)新增数据insert into commoditytype (ct_id,ct_name) values (1,'玩具');insert into commoditytype (ct_id,ct_name) values (2,'文具')(3,'书籍');比较常见的错误:违反主键约束。违反外键约束。值的数量不匹配。(2)删除数据delete from commoditytype where ct_id=3;删除需要注意的事项:如果没有whe原创 2020-07-20 09:19:17 · 169 阅读 · 0 评论 -
Day05[20200717]
原创 2020-07-20 09:25:09 · 137 阅读 · 0 评论 -
Day02[20200714]_数据库核心
一、课程回顾1.数据库的分类和介绍数据库的分类:关系型数据 [MySQL57]非关系型数据库 [mongodb]NewSQL [MySQL80]2.MySQL数据库的下载和安装在安装的时候,我们需要学会观察日志文件。无论安装还是卸载,完成后必须重新启动计算机。MySQL安装成功的唯一标准是系统服务中能够正常启停服务。上图是MySQL进行操作的整个完整的流程。这个客户端是 mysql.exeC:\Program Files\MySQL\MySQL Server 5.7\binm原创 2020-07-19 23:44:24 · 236 阅读 · 0 评论 -
Day01[20200713]
原创 2020-07-19 07:55:57 · 92 阅读 · 0 评论 -
大数据竞赛的数据基本流程
准备的各个阶段原创 2020-04-26 08:44:56 · 1695 阅读 · 0 评论