随缘zzz-优快云博客

原创 mysql进阶，索引的基础和优化

mysql优化索引是什么：排好序的快速查找数据结构索引语句：创建 CREATE INDEX indexName ON mytable(columnname(length)); ALTER mytable ADD INDEX ON (columnname(length)) 删除 DROP INDEX ON mytable; 显示 SHOW INDEX FROM table_name 需要创建索引的情况：主键自动建立唯一索引频繁作为查询条件的字段应该创建索引查询中与其他表关联的字段，外键关系建立索

2020-06-13 14:40:39 214

原创 Flume几个常见业务的配置文件信息（复制后注意修改主机名和路径）

使用 Flume 监听一个端口，收集该端口数据，并打印到控制台添加内容如下： a1.sources = r1 a1.sinks = k1 a1.channels = c1 #配置source代码块 #sources类型 a1.sources.r1.type = netcat #主机名 a1.sources.r1.bind = localhost #端口号 a1.sources.r1.port = 44444 #sink类型 a1.sinks.k1.type = logger #channel配置

2020-06-06 15:43:07 364

原创 hive操作用到MR时卡住问题的原因和解决方法

hive操作用到MR时卡住问题的原因和解决方法：原因：在配置hadoop时yarn nodemanager时没有配置内存，或者配置的内存不够导致运行到MR任务时卡住不动了解决方法：在yarn-site.xml中设置内存大小 <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>20480</value> </proper

2020-06-03 11:31:50 1960

原创 hive分区的概念以及操作方法

hadoop生态组件之hive hive处理的数据是存储在HDFS中 hive分析数据底层的默认实现是mapReduce 执行程序运行在Yarn上在开启hive之前一定要先开启hdfs和yarn hive的分区概念： hive分区按照设置的分区字段，将一个大的数据集根据业务需要分割成小的数据集，在查询时通过WHERE子句中的表达式选择查询所需要指定的分区，这样的查询效率会提高很多。分区的操作流程： 1.创建分区表（分区属性可以自定义，相当于在原表的基础上添加一个特殊标识的字段） create table

2020-06-01 11:20:53 659

原创自定义OutputFormat的使用方法

自定义OutputFormat使用为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat. 自定义OutFomat步骤 1)A定义类继承FileOutputFormat，返回B自定义类 2)B自定义类继承RecordWriter类,重写write()方法实现业务逻辑。先继承FileOutFormat,返回FRecordWriter public class FileterOutputFormat extends FileOutputFormat<Text, NullWrita

2020-05-30 15:34:52 1162

原创 GroupingComparator分组排序使用

GroupingComparator分组（辅助排序）对Reduce阶段的数据根据某一个或几个字段进行分组。分组排序步骤： 1.自定义类继承WritableComparator 2.重写compare()方法 @Override public int compare(WritableComparable a, WritableComparable b) {// 比较的业务逻辑 return result; } 3.创建一个构造将比较对象的类传给父类 protected OrderGroupingCo

2020-05-30 14:55:02 349

原创 hadoop中的Combiner合并操作

Shuffle中的Combiner合并 Combiner父类是Reducer Combiner是在每一个MapTask所在的节点运行，Reducer是接收全局所有Mapper的输出结果 Combiner能够应用的前提是不能影响最终的业务逻辑，在累加的情形下使用，但求平均值的时候不能使用combiner Combiner的实现过程 1.自定义一个Combiner继承Reducer，重写Reduce方法 public class WordcountCombiner extends Reducer<Text

2020-05-30 14:29:19 341

原创 Shuffle过程中重要的WritableComparable排序入门

WritableComparable排序 MapTask和ReduceTask均会对数据按照key进行排序，改操作属于hadoop的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序按照字典顺序排序，且实现该排序的方法是快速排序。自定义排序WritableComparable 当bean对象作为key传输，需要实现WritableComparable接口序列化过程： //反序列化 @Override public void readFields(DataInput in)

2020-05-29 11:17:49 196

原创 Shuffle中的Partition分区（入门）

Partition分区：分区运行时间是在map后reducer前。解决如：要求将统计结果按照条件输出到不同文件中。此类问题。默认分区：自定义Partitionner步骤自定义的类继承Partitioner,重写getPartition()方法 //前两个参数是map输出的K,V，最后一个参数是设置分区的数量，在Driver中设置 public int getPartition(Text key, FlowBean value, int numPartitions) { //里面是控制分区的

2020-05-29 10:36:56 1323

原创 linux学习之用户与用户组的基本命令

关机&重启命令 shutdown –h now 立该进行关机 shudown -h 1 “hello, 1 分钟后会关机了” shutdown –r now 现在重新启动计算机 halt 关机，作用和上面一样. reboot 现在重新启动计算机 sync 把内存的数据同步到磁盘. 在提示符下输入 logout 即可注销用户用户管理添加用户基本语法 useradd 用户名细节说明 ...

2020-05-05 21:40:02 253

原创 linux学习之目录结构

具体的目录结构: /bin [重点] (/usr/bin 、 /usr/local/bin) • 是Binary的缩写, 这个目录存放着最经常使用的命令 /home [重点] • 存放普通用户的主目录，在Linux中每个用户都有一个自己的目录，一般该目录名是以用户的账号命名的。 /root [重点] • 该目录为系统管理员，也称作超级权限者的用户主目录。 /sbin (/usr/sbin 、 /...

2020-05-05 21:31:33 151

原创 Centos三种网络连接方式的不同

桥连接, Linux可以和其它的系统通信。但是可能造成ip冲突 2.NAT：网络地址转换方式: linux可以访问外网，不会造成ip冲突。主机模式：你的 linux是一个独立的主机，不能访问外网 ...

2020-05-05 21:25:50 744

原创用java生成验证码（新手）

这个类用来生成图片验证码 import java.awt.BasicStroke; import java.awt.Color; import java.awt.Font; import java.awt.Graphics2D; import java.awt.image.BufferedImage; import java.io.IOException; import java.io.Outpu...

2020-04-29 20:51:32 288

原创登录模块的设计思路（新手）

*登录模块的思路 login.jsp（登录的主页）: 提供登录的表单，将表单的信息请求LoginServlet LoginServlet（登录的Servlet）:获取请求参数，校验用户是否登录成功失败：保存错误信息到request域中，转发到login.jsp页面（login.jsp显示request域中的错误信息）成功：保存用户信息到session域中(为了验证其他页面是否登录了)，重定...

2020-04-28 22:22:53 2427

原创 JDBC小白

标题 JDBC小白基础 java连接mysql关键步骤： 1.导入mysql-connector-java-5.1.7-bin.jar包 2.利用反射加载Driver类 3.配置好数据库名，密码，url 其中mysql的url的格式固定为jdbc:mysql://localhost:3306/数据库名 4.建立连接这样，就可以成功连接上数据库了 JDBC的操作数据库增删改查查询：使用pr...

2020-04-27 22:46:08 184

weixin_44122269的博客