数据分析师-笔试题目
提交时请在文件名称前加上你的名字
import pandas as pd
pandas-数据预处理
df_1 = pd.DataFrame(data=
[
['抖音','双十一','2022-11-09','2022-11-11'],
['微博','双十一','2022-11-10','2022-11-11'],
['抖音','圣诞节狂欢','2022-12-24','2022-12-26'],
['微博','圣诞节狂欢','2022-12-23','2022-12-25']
],columns=['平台','活动名称','活动开始日','活动结束日'])
df_1
平台 | 活动名称 | 活动开始日 | 活动结束日 | |
---|---|---|---|---|
0 | 抖音 | 双十一 | 2022-11-09 | 2022-11-11 |
1 | 微博 | 双十一 | 2022-11-10 | 2022-11-11 |
2 | 抖音 | 圣诞节狂欢 | 2022-12-24 | 2022-12-26 |
3 | 微博 | 圣诞节狂欢 | 2022-12-23 | 2022-12-25 |
df_2 = pd.DataFrame(data=
[
['2022-11-09','抖音','2000'],
['2022-11-10','抖音','4184'],
['2022-11-11','抖音','25816'],
['2022-11-12','抖音','1000'],
['2022-11-09','微博','4000'],
['2022-11-10','微博','16781'],
['2022-11-11','微博','13219'],
['2022-11-12','微博','6000'],
['2022-11-12','微博','6000'],
['2022-11-12','微博','6000'],
['2022-11-12','微博','6000'],
['2022-12-23','抖音','4000'],
['2022-12-24','抖音','8618'],
['2022-12-25','抖音','11382'],
['2022-12-26','抖音','6000'],
['2022-12-23','微博','2000'],
['2022-12-24','微博','5129'],
['2022-12-25','微博','14871'],
['2022-12-26','微博','1000']
],columns=['日期','平台','热度'])
df_2
日期 | 平台 | 热度 | |
---|---|---|---|
0 | 2022-11-09 | 抖音 | 2000 |
1 | 2022-11-10 | 抖音 | 4184 |
2 | 2022-11-11 | 抖音 | 25816 |
3 | 2022-11-12 | 抖音 | 1000 |
4 | 2022-11-09 | 微博 | 4000 |
5 | 2022-11-10 | 微博 | 16781 |
6 | 2022-11-11 | 微博 | 13219 |
7 | 2022-11-12 | 微博 | 6000 |
8 | 2022-11-12 | 微博 | 6000 |
9 | 2022-11-12 | 微博 | 6000 |
10 | 2022-11-12 | 微博 | 6000 |
11 | 2022-12-23 | 抖音 | 4000 |
12 | 2022-12-24 | 抖音 | 8618 |
13 | 2022-12-25 | 抖音 | 11382 |
14 | 2022-12-26 | 抖音 | 6000 |
15 | 2022-12-23 | 微博 | 2000 |
16 | 2022-12-24 | 微博 | 5129 |
17 | 2022-12-25 | 微博 | 14871 |
18 | 2022-12-26 | 微博 | 1000 |
数据去重
对df_2进行去重,保证【日期】与【平台】是唯一的,并替换原有df_2,
df_2 = df_2.drop_duplicates(subset=['日期', '平台'])
df_2