Hive 生产中数据问题踩的坑

本文讨论了使用 Sqoop 从 Oracle 迁移数据到 Hive 的过程中遇到的问题,包括数据错行、长数字数据重复等,并提供了相应的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

生产环境使用的时Sqoop 从Oracle 抽数

经历过错行----去掉一些特殊字符解决

大字段错行----https://blog.youkuaiyun.com/u012422198/article/details/84662691

长数字数据重复,特别是金融数据的各种号,长长的一串

当Hive上数据处理时,去重发现Hive比Oracle数据少很多。

因为Hive默认的长数字显示为科学技术法,把字段类型改为字符型。

<think>我们正在讨论搭建Linux+Hadoop态大数据处理平台时的注意事项和经验。根据引用内容,我们可以总结以下几点:1.**环境准备阶段注意事项**:-使用全新的系统环境(如CentOS7),避免已有Hadoop环境导致冲突(引用[2])。-确保所有节点使用相同的操作系统版本和配置。-正确设置JAVA_HOME环境变量,并确保所有节点一致(引用[4])。注意:某些组件(如ClouderaManager)可能需要显式在配置文件中指定JAVA_HOME(引用[4]中提到的`/etc/default/cloudera-scm-server`)。2.**安装包管理**:-提前下载好所需安装包(如HDP、Ambari或CDH),并确保版本兼容性(引用[2])。-注意:在安装过程中,避免使用可能干扰安装的外部工具(如ntfs-3g),安装完成后再启用(引用[2])。3.**集群节点管理**:-建议先用少量节点(如3台)搭建实验集群,验证成功后再扩展节点(引用[2])。-节点之间需要配置SSH免密登录,确保通信畅通。4.**用户和权限管理**:-Hadoop态组件(如HDP)会创建多个专用用户(如hdfs、yarn、hive等),安装前需确保这些用户不存在或提前清理(引用[2])。-权限问题:HDFS目录权限、Linux文件系统权限需协调一致。5.**安装过程中的常见问题**:-**JAVA_HOME问题**:即使系统环境变量已设置,某些服务(如ClouderaManager)仍可能找不到,需在服务配置文件中显式指定(引用[4])。-**端口冲突**:Hadoop组件使用大量端口,安装前需检查端口占用情况(如8080、50070等)。-**主机名解析**:确保所有节点的主机名(hostname)能正确解析(通过/etc/hosts或DNS),且避免使用localhost。6.**安装后的测试与监控**:-启动服务后,通过WebUI(如NameNode的50070端口)和日志(/var/log/)验证服务状态。-使用监控工具(如Ambari或ClouderaManager)进行集群健康检查。###经验总结:1.**重装集群的复杂性**:引用[4]指出,重装集群可能比初次安装更复杂,因为残留的配置文件、数据或用户账户可能导致问题。彻底清理的方法包括:-卸载所有相关软件包。-删除残留文件和目录(如Hadoop的临时目录、日志目录、HDFS元数据目录等)。-删除相关用户和用户组。2.**小文件问题**:HDFS不适合存储大量小文件(引用[3]的面试题可能涉及),解决方案:-使用HAR(HadoopArchive)或SequenceFile合并小文件。-调整HDFS的blocksize和NameNode内存配置。3.**资源分配**:YARN资源管理需根据集群硬件合理配置,避免内存溢出或CPU争抢。###关键命令示例:```bash#检查Java环境echo$JAVA_HOME#彻底清理Hadoop残留(重装前)rm-rf/etc/hadoop*/tmp/hadoop*/var/log/hadoop*/hdfs/data/*/hdfs/name/*userdel-rhdfsyarnmapredhive#删除相关用户#格式化NameNode(初次启动前)hdfsnamenode-format```§§相关问题§§1.如何彻底清理Hadoop集群以便重装?2.Hadoop集群中如何优化小文件存储?3.集群节点间SSH免密登录如何配置?4.如何解决Hadoop服务启动时的端口冲突问题?5.如何监控Hadoop集群的健康状态?</think>### 搭建Linux+Hadoop态平台的注意事项与经验 #### 一、环境准备阶段 1. **操作系统选择** - 使用纯净的CentOS 7系统(避免残留配置冲突)[^2] - 所有节点必须保持**相同版本**的操作系统 - 禁用防火墙和SELinux(否则会导致节点通信失败) 2. **Java环境配置** - 统一使用JDK 8(兼容性最佳) - 需在所有节点显式设置`JAVA_HOME` ```bash # 必须同时在/etc/profile和组件配置文件中声明 export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_171 ``` - 典型:Cloudera Manager启动报错"JAVA_HOME not found",需在`/etc/default/cloudera-scm-server`添加环境变量[^4] #### 二、集群搭建核心环节 1. **节点规划陷阱** - 避免在已有Hadoop环境的机器上安装(残留用户/配置会导致冲突)[^2] - 先使用**3台测试机验证**成功后再扩展节点 - 主机名必须可解析:`/etc/hosts`需包含所有节点IP-hostname映射 2. **存储设备处理** - 外部存储设备(如NTFS格式移动硬盘)需安装`ntfs-3g` ```bash yum install ntfs-3g # 传输安装包后必须卸载,否则引发HDP安装警告[^2] ``` - 安装完成后立即卸载第三方存储驱动 3. **权限管理雷区** - Hadoop会创建`hdfs`、`yarn`等系统用户,提前检查是否已存在 ```bash getent passwd hadoop # 存在则删除 userdel -r hadoop ``` - 目录权限错误导致NameNode启动失败: `chown -R hdfs:hdfs /var/log/hadoop-hdfs` #### 三、组件安装特殊问题 1. **HDFS格式化风险** - 仅首次启动时格式化NameNode:`hdfs namenode -format` - **严禁重复格式化**:会导致ClusterID变化,DataNode无法加入 2. **端口冲突解决方案** - 常见冲突端口:8080(Ambari), 50070(HDFS), 2181(Zookeeper) - 检测命令:`netstat -tulnp | grep <端口号>` - 修改默认端口:在`hdfs-site.xml`中添加 ```xml <property> <name>dfs.namenode.http-address</name> <value>0.0.0.0:50071</value> <!-- 修改默认50070 --> </property> ``` 3. **配置文件同步要求** - 所有节点的核心配置必须完全一致: - `core-site.xml`中的`fs.defaultFS` - `yarn-site.xml`中的`yarn.resourcemanager.hostname` - 使用`rsync`同步配置: ```bash rsync -av /etc/hadoop/conf/ worker1:/etc/hadoop/conf/ ``` #### 四、典型故障处理 1. **DataNode无法注册** - 现象:Live nodes显示为0 - 排查步骤: 1. 检查`/etc/hosts`主机名解析 2. 确认所有节点时间同步(安装`ntpdate`) 3. 清理DataNode的`version`文件: `rm -rf /data/hadoop/dfs/data/current/VERSION` 2. **资源管理器启动失败** - 查看日志定位原因:`tail -f /var/log/hadoop-yarn/yarn-yarn-resourcemanager-*.log` - 常见错误: `Unable to load realm info from SCDynamicStore` 解决方案:在`yarn-env.sh`添加`export HADOOP_SECURE_DN_USER=yarn` #### 五、生产环境特别建议 1. **磁盘配置原则** - 数据目录使用**单独磁盘**(非系统盘) - 配置多目录提升吞吐: ```xml <!-- hdfs-site.xml --> <property> <name>dfs.datanode.data.dir</name> <value>/data1/hdfs,/data2/hdfs,/data3/hdfs</value> </property> ``` 2. **安全加固要点** - Kerberos认证:防止未授权访问 - HDFS透明加密:保护敏感数据 - 启用审计日志:`hadoop.security.audit.logger` > **关键经验**:搭建失败时优先检查`/var/log/`下的组件日志,70%的问题可通过日志定位[^3]。每次变更后使用`hadoop dfsadmin -report`验证集群状态。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值