-
目的:
分析企业新闻舆情的正负面性与该公司是否有非法集资风险的关系。 -
思路:
将两张表连接成一张新表;根据“id:企业唯一标识、positive_negtive:新闻正负面性、public_date:发布日期、label”进行数据去重。 -
操作:
1.使用xftp将数据集远程传输到本地中。
2.创建数据库
create database if not exists mytask;
3.选择操作某数据库
use mytask;
4.创建表
create external table test(id string ,positive_negtive string,public_date string) row format delimited fields terminated by ',';
5.导入数据
load data local inpath '/task/news_info.csv' into table test;
6.连接两张表
将数据集news_info和entprise_info 通过相同的企业ID合并成一张表,筛除没有关联的数据,并存储所需数据。
create external table test1(n_id string ,n_attitude string,n_label string) row format delimited fields terminated by ',';
```sql
insert into test1 select n1.id,n1.positive_ndgtive,n1.public_date,e1.label from news info n1,entprise info e1 where n1.id = e1.id;
7.数据查重
以“id:企业唯一标识、positive_negtive:新闻正负面性、public_date:发布日期、label”作为标准进行查重。
再建表保存去重的数据。
create external table test2(n_id string ,n_attitude string

该博客记录了一次利用Hive进行数据分析的实践过程,主要探讨了企业新闻舆情的正负面性与非法集资风险之间的关系。通过数据去重、表连接、筛选和数据可视化等步骤,分析了新闻情绪分类(积极、中立、消极)与企业风险的关联。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



