- 博客(35)
- 收藏
- 关注
原创 编程实现Hadoop按日期统计访问次数
因为访问日期是数据文件中的第2列,所以先定义一个数组后,再提取第2个元素,与初始次数1一起构成要输出的键值对,即。数据总共有两列,第一列为用户名,第二列为登录的日期,想要统计每个自然日,也就是每一天的访问次数,可以转换为对日期值的词频统计,只要统计出每个日期出现的次数,就可以知道对应日期的日访问次数。通过统计日期的词频来统计每个自然日的访问次数,那么Map的输出就是,Reduce输出就是。以下为伪代码来编写Mapper的处理逻辑,代码如下。
2023-03-28 07:54:45
2179
原创 IDEA中安装配置Maven
打开conf文件夹下面的settings.xml 文件,在元素中添加以下代码注意上面标签有s,下面的标签mirror里面没有s。创建后,就会从阿里云下载依赖到本地仓库,以后就会从本地加载依赖,就不用每次下载了(因为是第一次从本地调用,所以需要花时间下载下来)经过第一次镜像下载,会看到本地文件repository文件下载了依赖,之后就直接调用了。创建好项目后,发现Maven版本过高,需要更换版本。我这里版本下载太高了,后面出错了,需要更换版本。创建成功只花了2秒多,还没有警告。
2023-03-27 14:51:51
286
原创 安装IDEA
重启电脑之后可以打开IDEA进行开发,由于IDEA的旗舰版只有30天免费试用期,可以在JetBrain官网申请教育账号,可以免费使用一年。我这里使用30天使用。点击下面连接下载插件。直接把它拖到代码区里。
2023-03-27 11:32:11
465
原创 使用Eclipse创建MapReduce工程
1.实训目标(1)掌握以Exlipse创建MapReduce工程2.实训环境(1)使用CentOS的Linux操作系统搭建的3个节点(2)使用Eclipse软件作为编程软件(3)使用插件hadoop-eclipse-plugin-2.x.x.jar3.实训内容(1)配置MapReduce环境(2)新建MapReduce工程4.实训步骤4.1配置MapReduce环境。
2023-03-27 11:26:32
3444
原创 提高数据库查询速度HIVE
hive分区表 partition内部表 外部表 数据表逻辑存储和数据物理存储查询 查询速度慢通过减少查询的数据量以提高查询速度分区实现一、 静态分区表1. 创建静态分区分区字段(year)逻辑上有呈现 实际存储 以目录的方式呈现2. 分区表录入数据。
2023-03-27 11:22:41
281
原创 向Hive导入数据
在本地储存位置创建一个bbb.txt文本文件。数据表规范格式HQL内部表 外部表都可以。使用hive1这个数据库。查看本地bbb.txt表。文件里面添加如下内容。查看hive里t1表。
2023-03-27 11:16:42
95
原创 Hive查询
一、创建表并录入数据,再进行全表查询二、where查询三、distinct 去重四、limit(限制五条数据查询)五、排序2 .order 全局排序3.sort 全局未必有序。
2023-03-27 11:11:06
1028
原创 Hive抽样查询(桶表)
select * from t1 tablesample(bucket 2 #不要超过总桶数 out of 4 #桶的因数 倍数 )桶表非常类似于分区表(将一块数据分成多块(也能提升查询速度))基于抽样分块 提升抽样速度。为了抽样而设计的结构(为了让抽样更快)sorted by(id) 排序。(分区表基于字段分区)
2023-03-27 10:04:38
201
原创 HIVE创建分区表
partitioned by ( c2 string ) # 创建分区 c1跟c2都是字段,但是创建的时候不能写在t2里面,只能写在分区里面(同时select查询的时候,c2的字段也要写在最后面)注意:当你退出过hive后,再次进入hive,不要忘记使用了哪个database,我这里使用的是test1118数据库。要加载数据到分区表,只需在原来的加载数据的语句上增加partition关键字,同时指定分区的字段值即可。但是这个时候是查看不了的,需要进行修复,输入以下命令。...=false 关闭。
2023-03-27 09:58:35
7178
原创 hbase的基本概念
在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载, 如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不 会维持太久。HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。
2023-03-27 09:52:56
108
原创 MySQL的零零碎碎笔记
2.如果要单纯查NULL值列,则使用IS NULL去查,单纯去查空值('')列,则使用=''。null是有长度,占用空间的空值,比如空气。('')不占空间,没有长度,比如真空。1.创建数据库,表格,导入数据。
2023-03-25 17:30:01
103
原创 项目九 索引和事务
任务1 创建和查看索引一、基本概念索引是为了加速检索而创建的一种存储结构,是针对一个表而建立的。它由储存放表的数据页面以外的索引页面组成,每个索引页面中的行都包含逻辑指针,指针指向存储在表中指定列的数据值,这些指针根据是定的索引字段值依次排列。通过该指针可以直接检索到数据,从而加快数据的检索速度。通常情况下,只有查询频繁使用的字段才需要在表上创建索引。索引会占用存储空间,并降低了添加、删除和更新行的速度,所以索引也不是建立得越多越好,而是根据实际应用的需要建立,才能有效提高检索速度。二、索引类型。
2023-03-25 16:28:40
121
原创 项目七 存储过程与函数
四、任务实施说明:定义局部变量,说明局部变量的存储值类型九、游标在存储过程和函数中,查询语句可能返回多条记录,使用游标可以实现逐条读取结果集中的记录。游标的使用分为四个步骤:声明游标、打开游标、使用游标和关闭游标。十、任务实施课后习题/**** //;* \\ .' |* (___________))))))) 攻城湿*/。
2023-03-25 16:25:00
1158
原创 项目六 视图
说明:DESCRIBE关键字可用其缩写DESC,用于显示视图中的字段名称、数据类型、是否为空等数据字段定义信息。说明:show table status[LIKE'视图名'] 不带[LIKE'视图名']时,显示的是当前数据库的表和视图的状态信息。语法:show create view 视图名说明:查看视图的详细定义说明:Information_schema是MYSQL数据库的元数据信息系统数据库,用于存储有关数据库、表、视图等数据对象的定义信息。VIEWS表存储了所有视图详细信息。作用:查看各用户的各类
2023-03-25 12:43:53
1034
原创 项目三,创建和管理数据表
FIRST|AFTER [字段名] 表示添加的字段需要放到表的哪一列的前面或者后面,省略则添加到表的最后,列的顺序没有关系,显示顺序可以用后面学习的检索语句来实现。设置外键的时候需要注意以下几点:(1)外键是用于两个表的数据之间建立连接,可以是一列或者多列,即一个表可以有一个或多个外键。可以通过下面语句来查询数据表和表结构。(3)外键可以不是这个表的主键,但必须和另外一个表的主键相对应(字段的类型和值必须一样)。(5)另一个表的主键没有空值,必须是主键,这个表的外键跟另一个表的主键数据类型要一样。
2023-03-25 00:10:09
527
原创 项目二 ,创建和管理数据库
项目二 ,创建和管理数据库一、查看数据库1.查看当前服务器包含的数据库。SHOW DATABASES;2.创建一个名为name的数据库CREATE DATABASE name;3.选择使用name数据库USE name;4.查看当前数据库SELECT DATABASE();5.查看数据库系统服务版本SELECT VERSION();6.查看数据库定义脚本SHOW CREATE DATABASE name;二、
2022-04-12 17:03:51
1272
原创 项目一:初识数据库应用系统
项目一:初识数据库应用系统任务二一、下载MySQL官网 MySQL :: Download MySQL Community ServerArchives可以下载其他版本Select Operating System 选择需要支持的操作系统,默认是Microsoft WindowsMSI是安装版的安装包ZIP是免安装版的安装包点击Download下载LoginNo thanks,just start my download.二、安装与配置MySQL1.安装版
2022-04-12 16:01:46
458
原创 MySQL项目五,数据查询
项目五:数据查询本项目以电商购物管理系统的商品及其相关信息的检索和统计查询为案例,主要包括基本数据查询、统计数据查询、跨表连接查询和子查询应用四个任务。任务1:基本数据查询一.SELECT基本查询语句在“MySQL>”提示符下执行HELP SELECT可以获得应用说明文档和官网文档的访问地址。二.查询表的全部信息1.在db_shop数据库中,查询部门信息表的全部部门信息。USE db_shop;SELECT * FROM department;三.查询表部分
2022-03-24 20:49:01
3147
原创 大数据数学基础之使用Pycharm需要进行的设置
大数据数学基础之使用Pycharm需要进行的设置1.先创建一个项目,这里我已经创建好了2.打开设置3.打开项目下面的python解释器,点击加号。4.分别下载numpy、scipy、sympy、statsmodels5.安装完成/*** * ,%%%%%%%%, * ,%%/\%%%%/\%% * ,%%%\c "" J/%%% * %. ...
2022-03-19 15:16:19
3070
原创 PyCharm安装
PyCharm安装打开官网下载社区版建议不要安装在C盘安装好后打开到此就安装好啦。/*** * ,%%%%%%%%, * ,%%/\%%%%/\%% * ,%%%\c "" J/%%% * %. %%%%/ o o \%%% * `%%. %%%% _ |%%% * `%% `%%%%(__Y__)%%' * // ;%%...
2022-03-19 13:05:19
350
原创 python的安装与环境配置
python的安装与环境配置1.在官网里选择你系统对应的版本,选择稳定版本,不一定要追求最新版本2.下载好后选择自定义安装,建议不要装在c盘,勾选Add Python to PATH3.这样安装好后进入cmd输入指令python查看是否安装好,环境是否配置好。4.如果没有出现可以自行在配置环境进入编辑后添加的是自己安装的路径,刚刚我就是安装在D盘下面的一个目录,你复制路径粘贴下来就可以了。复制粘贴这样python
2022-03-18 10:21:31
4459
原创 MySQL创建数据库与表格...
MySQL创建数据库与表格创建数据库,名字为dashujuyiCREATE DATABASE dashujuyi ;正在上传…重新上传取消查看有哪些数据库SHOW DATABASES ;正在上传…重新上传取消查看创建的dashujuyi库SHOW CREATE DATABASE dashujuyi ;正在上传…重新上传取消进入使用dashujuyi这个库USE dashujuyi ;正在上传…重新上传取消查看当前使用
2022-03-17 15:30:52
1421
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人