将mysql查询的表数据插入到hive库

本文介绍了一种使用Apache Spark将MySQL数据库中的数据迁移到Hive数据仓库的方法。通过Java编程,利用SparkSession读取MySQL数据,并将其写入Hive表,实现数据的高效迁移。
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import java.util.Properties;

public class MysqlTohive {
    // TODO: 2020/9/16 将mysql查询的表数据插入到hive库

    public static void main(String[] args) {

        SparkSession spark = SparkSession.builder().appName("sqlToHive").getOrCreate();
        Properties dbConfPro = new Properties();
        dbConfPro.setProperty("user", "root");
        dbConfPro.setProperty("password", "root");

        String query="(select * from student) m";
        Dataset<Row> result = spark.read().jdbc("jdbc:mysql://192.168.8.103:3306/test?rewriteBatchedStatements=true", query, dbConfPro);

        //创建对应的视图表
        result.createOrReplaceTempView("student");
        spark.catalog().setCurrentDatabase("test");
        String query2="insert overwrite table student select * from student";
        spark.sql(query2);


    }
}
所需pom.xml

 <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.1.0</version>
            <scope>provided</scope>
        </dependency>


        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.27</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.logging.log4j/log4j-core -->
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.12.1</version>
        </dependency>

    </dependencies>

 

MySQLHive都是数据管理系统,但在处理大数据分析和存储方面,Hive通常更适合用于实时的批处理作业。如果你想从MySQL中提取数据并加载到Hive中,可以按照以下步骤操作: 1. **连接数据**:首先,你需要通过JDBC(Java Database Connectivity)驱动程序连接MySQL数据,这是最常见的做法。 2. **SQL查询**:在MySQL中运行SELECT语句获取需要的数据。记得只选择你需要的部分列,因为这将直接影响到后续的导入速度和 Hive 的性能。 ```sql SELECT column1, column2, ... FROM your_table; ``` 3. **导出数据**:然后,你可以使用如`mysqldump`命令(如果数据量不大),或者第三方工具(如Navicat、Heidi SQL等)将结果集直接导出为文件,比如CSV或文本文件。或者,如果你的数据量非常大,考虑使用`INSERT INTO TABLE`语句直接将数据插入Hive,但这通常会涉及到Hive的Tunneling机制或者临时。 4. **加载到Hive**:在Hive环境中,可以使用`LOAD DATA INPATH`命令(如果数据已保存为本地文件)或`INSERT OVERWRITE TABLE`(如果想覆盖原有数据)来导入数据。 ```sql LOAD DATA LOCAL INPATH '/path/to/your/data.csv' INTO TABLE your_hive_table; ``` 或者 ```sql INSERT INTO TABLE your_hive_table SELECT * FROM TBL_NAME; -- 使用临时名TBL_NAME,这个名称取决于具体的导入策略 ``` 5. **优化**:Hive可能需要一些时间来处理和优化数据,特别是在处理大量数据时。确保清理临时文件并调整Hive的配置以提高性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值