qq_45688530-优快云博客

原创实操安装部署Cassandra

UPDATE system.local SET cluster_name = '你修改后的名称' where key='local';seeds节点，将每个节点的ip加进去，"x.x.x.x,xx.xx.xx.xx"不用加尖括号！这时候可以ctrl+c 停止安装，停止完了以后还是可以连接数据库的。单机部署，下载安装包，进行解压安装。不报错，一直停在一个地方，尝试连接数据库，执行bin/cqlsh。然后重复单机安装的操作，在连接数据库的时候加上ip。解压安装后进行一些参数修改，主要是这里。

2022-10-25 15:24:37 668

原创 DataX Hdfs HA(高可用)配置支持

用压缩工具打开hdfsreader-0.0.1-SNAPSHOT.jar（如360压缩，右键用360打开，非解压），将上面三个文件直接拖入即可。如果是拷贝hdfsreader-0.0.1-SNAPSHOT.jar到其他路径下操作的，将操作完的jar包替换掉原来datax对应hdfsreader路径下的hdfsreader-0.0.1-SNAPSHOT.jar。进一步发现，使用此方法配置后，datax json中连hadoopCofig参数都不需要配置了，简直是不能再赞了。

2022-10-10 09:58:18 2108

原创 MongoDB之Too many open files

在生产环境中很容易到达这个值，因此这里就会成为系统的瓶颈，对于MongoDB来说，默认的文件打开数一般是不够的，需要使用ulimit去进行设置，以下是常见的MongoDB的最大打开文件数不足的报错。所以需要修改系统的总限制才可以。5. limit的值可以是一个数值，也可以是一些特定的值，比如：hard，soft，unlimited，分别代表当前硬件限制、当前软件限制、不限制。1. 利用ulimit命令可以对资源的可用性进行控，Linux系统打开文件最大数量限制（进程打开的最大文件句柄数设置）。

2022-09-26 15:28:29 2421

原创一篇文章搞懂数据仓库：维度表（设计原则、设计方法

1、什么是维度表？2、维度表设计原则（1）维度属性尽量丰富，为数据使用打下基础（2）给出详实的、富有意义的文字描述（3）区分数值型属性和事实（4）沉淀出通用的维度属性，为建立一致性维度做好铺垫（5）退化维度（DegenerateDimension）（6）缓慢变化维（Slowly Changing Dimensions）3、维度表设计方法维度是维度建模的基础和灵魂。在维度建模中，将度量称为“事实” ，将环境描述为“维度”。维度表包含了事实表中指定属性的相关详细信息，最常用的维度表有日期维度、城市维度等。例，

2022-07-06 15:51:12 6682

原创三种事实表（设计原则，设计方法、对比）

三种事实表（设计原则，设计方法、对比）

2022-07-06 14:04:31 901

原创解决hivecomment备注乱码的问题

解决hivecomment备注乱码的问题

2022-07-04 15:42:48 140

原创 datax 配置postgresql到HDFS一键生成脚本

datax 配置postgresql到HDFS一键生成脚本

2022-06-22 16:29:52 639

原创 USDP安装部署及问题

UDSP安装部署及部署过程出现的问题

2022-06-17 16:18:55 1329 3

原创 FULL JOIN关联表的函数理解

关联表常用的函数有三个FULL JOIN ：FULL OUTER JOIN 关键字返回左表（Websites）和右表（access_log）中所有的行。如果 "Websites" 表中的行在 "access_log" 中没有匹配或者 "access_log" 表中的行在 "Websites" 表中没有匹配，也会列出这些行。我来举个例子a1表ID name number A1 aa 1 A2 bb 2 A3 cc 3 a2表I

2021-12-16 10:29:25 1373

原创 hadoop常用的调优参数

以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xm 配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。 mapreduce.reduce.memory.mb 一个ReduceTask可使用的资源上限（单位:MB），默

2021-12-11 08:56:22 98

原创 kafka开启后线程显示，一会后线程就不显示了

这种情况大概率是因为虚拟机挂起，然后电脑关机，至少我的应该是这样。

2021-12-11 08:50:40 1162

原创 hive的Metastore服务

Metastore中文是元数据的意思，在初学者很多人喜欢在hive-site.xml这个配置文件配置这么一个参数现在我来说说配置了这个参数和没没有配置的区别Metastore服务是hive为了发布元数据起的服务，hive的数据存储在hdfs上，元数据存在mysql上。当你配置了这个参数，你就必须通过Metastore服务去连接，就是你的Metastore服务必须启动。你没有配置这个参数，你可以直接使用hive。...

2021-12-10 09:02:38 2244 2

原创离线数仓项目之数据采集

一、采集数据1.准备工作：hadoop安装 zookeeper安装 kafka安装 flume安装 sqoop安装2.思想架构：3.架构解析 1.使用flume->kafka->flume的原因？在生产环境中我们使用架构不能局限于当下，在采集日志数据的时候采用flume->kafka-&...

2021-12-08 18:28:58 995

原创 Partition分区

1.分区总结(l)女如果Reduce Task的数量>getPartitiong的结果数，则会多产生几个空的输出文件part-r-Ox✉x;(2)女如果1<Redice Task的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception;(3)如果Reduce Task的数量=1，则不管Map Taski端输出多少个分区文件，最终结果都交给这一个RedceTask,最终也就只会产生一个结果文件part-r-00000;(4)分区号必须从零开始，逐一

2021-12-07 11:49:28 138

原创 Hadoop小文件弊端及解决方案

Hadoop小文件弊端HDFS上每个文件都要在NameNode上创建相应的元数据，这个元数据大小约为150byte，这样的小文件比较多时，会产生很多的元数据文件，一方面会大量占用NameNode的内存空间，一方面因为元数据文件过多，会使寻址速度变慢小文件过多，在进行,MR计算时，会产生过多切片4，需要启动过多的MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动时间还小，造成资源的浪费Hadoop小文件解决方案小文件优化的方向：（1）在数...

2021-12-07 11:45:43 474

原创 hadoop生态圈之各种框架简介

目前学习的框架都是围绕Hadoop进行的，可以称之为Hadoop生态圈，目前学习了Hadoop框架hive框架zookeeper框架Kafka框架HBase框架Flume框架Hadoop框架简介： Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。它最新的版本是3.0版本，它与2.0相比主要是有部分优化。2.0与1.0相比就是一个框架的改动。1.0只有HDFS和MapReduce，其中HDFS负责存储。MapReduce负责资源调度和计算。但是

2021-12-07 11:40:41 865

原创 Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object

在进行spark与hive互联的时候出现的，启动spark-shell没有任何问题，但是启动hive，查询表和库，就出现这个错误，查看了配置文件，没发现有什么问题，百度下，有人出现了这种问题，是hadoop的配置文件有问题就是图片上的lzo压缩有问题，hive支持lzo压缩，但是spark不支持所以就有问题了只要把hadoop的配置文件core-site.xml中的lzo压缩注掉就行。具体我的步骤如下1.错误演示hive查询报错spark查询正常原因是有...

2021-12-04 16:27:52 796 1

qq_45688530的博客