大数据之将txt文件上传到HDFS并用Hive查询

原创

已于 2022-10-09 14:47:30 修改 · 2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hive #hdfs

于 2022-10-09 14:46:12 首次发布

本文介绍如何将TXT文件上传至HDFS，并利用Hive进行数据读取及分析的过程。首先通过工具如Xftp上传文件，接着创建HDFS目录存放数据，最后使用Hive SQL查询分析数据。

在生产上，一般对数据清洗之后直接放到HDFS上，再将目录加载到分区表中，之后通过hive去查询分析数据；

1、准备数据

order_created.txt

用 tab分割

10703007267488 2014-05-01 06:01:12.334+01

10101043505096 2014-05-01 07:28:12.342+01

10103043509747 2014-05-01 07:50:12.33+01

10103043501575 2014-05-01 09:27:12.33+01

10104043514061 2014-05-01 09:03:12.324+01

order_created.txt 存放位置

[root@zjj101 soft]# pwd
/root/soft

[root@zjj101 soft]# ls
data docker hadoop-2.7.2 hive-1.2.1 myconf order_created.txt tmp

2、在hdfs上创建准备放数据的目录

准备放到这里:

/user/hive/warehouse/order_partition/

[root@zjj101 soft]# hadoop fs

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

种麦南山下

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

[Hive基础]-- 查看hive 表在hdfs上的存储路径

欢迎来到我的博客，一起探索代码里的世界！

07-19

5万+

1、执行hive，进入hive窗口 2、执行show databases,查看所有的database; 3、执行use origin_ennenergy_onecard; 则使用origin_ennenergy_onecard数据库 4、执行show create table M_BD_T_GAS_ORDER_INFO_H;则可以查看table在hdfs上的存储路径如下： hive (...

探索大数据领域 HDFS 的数据治理方案

最新发布

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

05-24

783

在当今大数据时代，企业和组织积累了海量的数据。HDFS 作为 Hadoop 生态系统中重要的分布式文件系统，为大数据的存储提供了强大的支持。然而，随着数据量的不断增长，HDFS 中的数据面临着数据质量参差不齐、数据安全难以保障、元数据管理混乱等问题。本文的目的在于探索一套适用于 HDFS 的数据治理方案，涵盖数据质量提升、元数据管理、数据安全保障等方面，以提高 HDFS 数据的可用性、可靠性和安全性。

参与评论您还未登录，请先登录后发表或查看评论

hive-表对应hdsf文件数量，可用于查hdfs小文件数量的

qq_42828748的博客

04-24

1293

hive表对应hdsf文件数量

HiveUdf动态设置读取HDFS上的配置文件

sinat_23257429的博客

12-09

2454

hive udf 动态设置读取hdfs 上配置文件的路径。

hive读取hdfs存放文件_Hive操作

weixin_39999222的博客

11-29

1954

数据存储▼ 个人测试方法LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]如果命令中带有LOCAL，说明从本地文件系统加载数据，文件路径可以是相对路径，也可以是绝对路径。在这种情况下，首先将文件从本地复制到hdf...

hive 修改cluster by算法_疯狂Hive之DDL操作一（二）

weixin_39540271的博客

10-22

306

DDL操作Hive中的表如何与HDFS上文件中的数据产生映射关系？在HDFS上创建映射文件在node01上创建文件夹：mkdir hivedata在hivedata中新建一个文件1.txt文件：cd hivedatavi 1.txt在1.txt中编写如下数据将1.txt文件上传到HDFS上的hivedata目录中HDFS新建hivedata目录：hadoop fs -mkdir /hivedata...

大数据组件hive的安装步骤

12-04

根据给定文件信息，以下是对标题《大数据组件hive的安装步骤》和描述《这篇pdf里面详细的介绍了在centos7版本下Hive的安装方法，按照文章里面步骤可以快速搭建起Hive，而且里面也有关于MySQL的详细安装步骤。...

Hive实战：将xml文件处理为txt文件，并用Hive进行微博数据分析

王某的博客

10-21

2670

一 -xml文件处理文件简述 xml处理代码遇见的问题及解决过程 i -nbsp之类的字符无法解析 ii -0xc0x11之类的字符无法解析 iii -javalangOutOfMemoryError Java heap space 二 -写到txt file工具代码io版三 -Nio版的代码四 -两种版本的效率对比五 -建表加载数据加载数据报错要加载的数据格式与目标表的格式不同查询

Hadoop+hive+flask+echarts大数据可视化项目之hive环境搭建与系统数据的分析思路

play_big_knife的博客

07-26

4940

收集linux系统信息上传hadoop平台, hive导入hadoop平台的信息,将信息的分析结果以flask接口的形式返回前台,前台使用echarts进行显示。本博文主要针对于项目中hive环境的搭建及hive导入上传到hadoop中的信息，最终实现系统数据分析的思路。...

Hive访问Hdfs理解

qq_52299578的博客

10-20

1241

hive访问理解

HDFS文件读写操作

10-11

本文档是关于hadoop中HDFS的文件读写操作的一份ppt,适用于学习hadoop新手.

查看hive表对应的hdfs文件路径

热门推荐

L13763338360的博客

10-21

1万+

1. 一般情形一般情形，spark-sql执行show create table xxx.xxx命令，就可以看到hdfs路径：LOCATION show create table xxx.xxx; 2. 特殊情形有些情况，比如spark用saveAsTable方法创建的表，一般情形不适合，查不到hive表对应的hdfs路径。 spark-sql> show create table default.leon_hive_table; CREATE TA...

hive读取hdfs文件内容并存入表中

weixin_29419279的博客

08-01

703

给大家整理了一些有关【HDFS,Hive,F】的项目学习资料（附讲解～～）：https://edu.51cto.com/course/31545.htmlhttps://edu.51cto.com/course/27963.html使用Hive读取HDFS文件内容并存入表中的完整指南在大数据处理中，Apache Hi...

查看创建的hive表对应的hdfs文件路径

qq_38603049的博客

02-26

2080

查看创建的hive表对应的hdfs文件路径

hive 中常用的HDFS命令

ganghaodream的博客

05-07

1062

1.查看表路径：desc formatted 表名。2.查看数据文件： dfs -ls 表路径。HIVE中常用的shell命令。

HIVE架构

SpringHeather的专栏

05-23

541

什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 HIve架构基本组成用户接口：包括 CLI、JDBC/ODBC、WebGUI。元数据存储：通常是存储在关系数据库如 mysql,derby中。解释器、编译器、优化器、执行器。各组件的基本功能 1. 用户接口主要由三个：CLI、JDBC/ODBC和WebGUI。其中，CLI为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库J.

Hive读取HDFS上面的数据和使用Squirrel客户端连接Hive

lbship的博客

11-14

4455

一、把数据从HDFS导入到hive的表里前面已经测试了利用Sqoop把数据从SQL Server导入到hdfs中，但是分成了好多小文件，这里有两种方法读取数据。第一种方法：创建内部表导数据 1.建表在hive里面建立好对应的表格 create table sites(xxx int,xxx string,xxx timestamp) row format delimit...

hive中执行HDFS命令，查看目录属性等

weixin_34247299的博客

11-03

2113

为什么80%的码农都做不了架构师？>>> ...

Hive读取Flume正在写入的HDFS

张伟的专栏

08-24

264

原因比较明显，Hive处理前获取了对应分区下的所有文件信息，其中包含xxx.tmp文件，而传递给MapReduce处理时，由于Flume进行了切换，导致原来的xxx.tmp变成了xxx，新的.tmp名称又变成了yyy.tmp，这样自然找不到xxx.tmp了。如果Hive在执行过程中，Flume切换文件，即将xxx.tmp重命名为xxx，这时Hive会报错如file not found xxx.tmp。这样就产生了针对问题2的处理方案一）配置Flume，针对正在写入的文件，以.号开头。

大数据之 将txt文件上传到HDFS并用Hive查询

1、准备数据

2、在hdfs上创建准备放数据的目录

大数据之将txt文件上传到HDFS并用Hive查询