学习笔记3 hive数据分析(实例)

该博客记录了一次利用Hive进行数据分析的实践过程,主要探讨了企业新闻舆情的正负面性与非法集资风险之间的关系。通过数据去重、表连接、筛选和数据可视化等步骤,分析了新闻情绪分类(积极、中立、消极)与企业风险的关联。
  1. 目的:
    分析企业新闻舆情的正负面性与该公司是否有非法集资风险的关系。

  2. 思路:
    将两张表连接成一张新表;根据“id:企业唯一标识、positive_negtive:新闻正负面性、public_date:发布日期、label”进行数据去重。

  3. 操作:
    1.使用xftp将数据集远程传输到本地中。
    2.创建数据库

create database if not exists mytask;

3.选择操作某数据库

use mytask;

4.创建表

create external table test(id string ,positive_negtive string,public_date string) row format delimited fields terminated by ',';

5.导入数据

load data local inpath '/task/news_info.csv' into table test;

6.连接两张表
将数据集news_info和entprise_info 通过相同的企业ID合并成一张表,筛除没有关联的数据,并存储所需数据。

create external table test1(n_id string ,n_attitude string,n_label string) row format delimited fields terminated by ',';
```sql
insert into test1 select n1.id,n1.positive_ndgtive,n1.public_date,e1.label from news info n1,entprise info e1 where n1.id = e1.id;

7.数据查重
以“id:企业唯一标识、positive_negtive:新闻正负面性、public_date:发布日期、label”作为标准进行查重。
再建表保存去重的数据。

create external table test2(n_id string ,n_attitude string
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值