Python联动Word实现数据提取和B站弹幕数据分析

文章介绍了使用Python和python-docx库处理Excel数据,分析B站教学视频的弹幕数据,发现3、4月弹幕活跃度高与春招有关,而9、10月较低可能因年后学习节奏变化。此外,还对用户等级、时间分布进行了可视化,以支持业务活动的精准投放。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据来源GitHub

导入python-docx第三方库调用document方法,筛选所需要的数据利用for循环取出所需要的数据,进行保存

document = Document()
for i in range(len(merge)):
    if merge.iloc[i]['品牌'] != merge.iloc[i-1]['品牌'] or i == 0:
        document.add_heading(merge.iloc[i]['品牌'], level=1)
    document.add_heading(merge.iloc[i]['视频标题'], level=2)
    document.add_paragraph(f'达人昵称:{merge.iloc[i]["BloggerName"]}')
    document.add_paragraph(f'视频地址:douyin.com/video/video{merge.iloc[i]["AwemeId"]}')
    document.add_paragraph(merge.iloc[i]['视频文案'])

B站教学视频弹幕可视化分析

循环导入excel数据

excel_list = []
for item in os.listdir('D:\数分资料\【戴师兄】python2023自学课程-3.0最新版\python第三讲资料\danmu'):
    if 'xlsx' in item and 'user_level' not in item:
        excel_list.append(item)
excel_list
danmu = pd.DataFrame()
for item in excel_list:
    excel = pd.read_excel(f'D:\\数分资料\\【戴师兄】python2023自学课程-3.0最新版\\python第三讲资料\\danmu\\{item}',converters={'uid':str,'id':str})
    excel['视频标题'] = item
    danmu = pd.concat([danmu,excel],axis=0)
danmu

对弹幕集中的月份进行可视化

图中可看出3,4月份弹幕数据量达到高峰,初步认为是春招爆发影响求职者进行技能的更新,但9,10月没有出现同样情况,推测可能是因为年后精力比较充分,能接受高强度的学习。

对弹幕集中的星期进行可视化

图中可看出用户偏向于在周末休息,工作日进行技能的学习

对用户等级进行可视化分析

可得出b站本地用户较多,但也有部分站外用户,可能是宣传渠道引流

通过数据的可视化可以找出隐藏在大批量数据中的部分规律,总结出用户年龄段和大致特征,再次进行业务活动时可以针对这一部分用户进行精准投放,以达成快速聚集用户的目的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值