数据分析师-笔试题目
提交时请在文件名称前加上你的名字
import pandas as pd
pandas-数据预处理
df_1 = pd.DataFrame(data=
[
['抖音','双十一','2022-11-09','2022-11-11'],
['微博','双十一','2022-11-10','2022-11-11'],
['抖音','圣诞节狂欢','2022-12-24','2022-12-26'],
['微博','圣诞节狂欢','2022-12-23','2022-12-25']
],columns=['平台','活动名称','活动开始日','活动结束日'])
df_1
|
平台 |
活动名称 |
活动开始日 |
活动结束日 |
| 0 |
抖音 |
双十一 |
2022-11-09 |
2022-11-11 |
| 1 |
微博 |
双十一 |
2022-11-10 |
2022-11-11 |
| 2 |
抖音 |
圣诞节狂欢 |
2022-12-24 |
2022-12-26 |
| 3 |
微博 |
圣诞节狂欢 |
2022-12-23 |
2022-12-25 |
df_2 = pd.DataFrame(data=
[
['2022-11-09','抖音','2000'],
['2022-11-10','抖音','4184'],
['2022-11-11','抖音','25816'],
['2022-11-12','抖音','1000'],
['2022-11-09','微博','4000'],
['2022-11-10','微博','16781'],
['2022-11-11','微博','13219'],
['2022-11-12','微博','6000'],
['2022-11-12','微博','6000'],
['2022-11-12','微博','6000'],
['2022-11-12','微博','6000'],
['2022-12-23','抖音','4000'],
['2022-12-24','抖音','8618'],
['2022-12-25','抖音','11382'],
['2022-12-26','抖音','6000'],
['2022-12-23','微博','2000'],
['2022-12-24','微博','5129'],
['2022-12-25','微博','14871'],
['2022-12-26','微博','1000']
],columns=['日期','平台','热度'])
df_2
|
日期 |
平台 |
热度 |
| 0 |
2022-11-09 |
抖音 |
2000 |
| 1 |
2022-11-10 |
抖音 |
4184 |
| 2 |
2022-11-11 |
抖音 |
25816 |
| 3 |
2022-11-12 |
抖音 |
1000 |
| 4 |
2022-11-09 |
微博 |
4000 |
| 5 |
2022-11-10 |
微博 |
16781 |
| 6 |
2022-11-11 |
微博 |
13219 |
| 7 |
2022-11-12 |
微博 |
6000 |
| 8 |
2022-11-12 |
微博 |
6000 |
| 9 |
2022-11-12 |
微博 |
6000 |
| 10 |
2022-11-12 |
微博 |
6000 |
| 11 |
2022-12-23 |
抖音 |
4000 |
| 12 |
2022-12-24 |
抖音 |
8618 |
| 13 |
2022-12-25 |
抖音 |
11382 |
| 14 |
2022-12-26 |
抖音 |
6000 |
| 15 |
2022-12-23 |
微博 |
2000 |
| 16 |
2022-12-24 |
微博 |
5129 |
| 17 |
2022-12-25 |
微博 |
14871 |
| 18 |
2022-12-26 |
微博 |
1000 |
数据去重
对df_2进行去重,保证【日期】与【平台】是唯一的,并替换原有df_2,
df_2 = df_2.drop_duplicates(subset=['日期', '平台'])
df_2
|
日期 |
平台 |
热度 |
| 0 |
2022-11-09 |
抖音 |
2000 |
| 1 |
2022-11-10 |
抖音 |
4184 |