数据来源GitHub
导入python-docx第三方库调用document方法,筛选所需要的数据利用for循环取出所需要的数据,进行保存
document = Document()
for i in range(len(merge)):
if merge.iloc[i]['品牌'] != merge.iloc[i-1]['品牌'] or i == 0:
document.add_heading(merge.iloc[i]['品牌'], level=1)
document.add_heading(merge.iloc[i]['视频标题'], level=2)
document.add_paragraph(f'达人昵称:{merge.iloc[i]["BloggerName"]}')
document.add_paragraph(f'视频地址:douyin.com/video/video{merge.iloc[i]["AwemeId"]}')
document.add_paragraph(merge.iloc[i]['视频文案'])
B站教学视频弹幕可视化分析
循环导入excel数据
excel_list = []
for item in os.listdir('D:\数分资料\【戴师兄】python2023自学课程-3.0最新版\python第三讲资料\danmu'):
if 'xlsx' in item and 'user_level' not in item:
excel_list.append(item)
excel_list
danmu = pd.DataFrame()
for item in excel_list:
excel = pd.read_excel(f'D:\\数分资料\\【戴师兄】python2023自学课程-3.0最新版\\python第三讲资料\\danmu\\{item}',converters={'uid':str,'id':str})
excel['视频标题'] = item
danmu = pd.concat([danmu,excel],axis=0)
danmu
对弹幕集中的月份进行可视化
图中可看出3,4月份弹幕数据量达到高峰,初步认为是春招爆发影响求职者进行技能的更新,但9,10月没有出现同样情况,推测可能是因为年后精力比较充分,能接受高强度的学习。
对弹幕集中的星期进行可视化
图中可看出用户偏向于在周末休息,工作日进行技能的学习
对用户等级进行可视化分析
可得出b站本地用户较多,但也有部分站外用户,可能是宣传渠道引流
通过数据的可视化可以找出隐藏在大批量数据中的部分规律,总结出用户年龄段和大致特征,再次进行业务活动时可以针对这一部分用户进行精准投放,以达成快速聚集用户的目的。