利用python提取弹幕纯文字部分

尼恩久

已于 2023-11-09 21:13:55 修改

阅读量387

点赞数 1

分类专栏： Python 文章标签： python pandas

于 2023-11-09 21:12:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_69388510/article/details/126146560

版权

Python 专栏收录该内容

6 篇文章

订阅专栏

老早之前写的草稿，现在发现可能以后会想回忆或者找找灵感。

随便选取B站一个弹幕较多的视频，将其弹幕文件作为练习：

提取前：

提取后：

分析：

【最好直接用正则表达式提取（一步解决）：data = re.findall('<d p=".*?">(.*?)</d>'， data)

（.*?代表任意字符，括号括起来的表示需要提取的部分，其他不需要提取的需观察共有部分照写上去，后面，data那个参数表示对data变量进行提取）】

1、首先读取原文件，打印输出发现是2105行9列二维的DataFrame，只有最后一列包含了需要提纯的弹幕，前8列都是与弹幕内容无关的信息，[:, 8]表示所有行，第9列。

2、因为需要访问具体行列，所以要将DataFrame转换成ndarray

否则会有以下错误：

TypeError: '(slice(None, None, None), 1)' is an invalid key

参考：https://blog.youkuaiyun.com/qxqxqzzz/article/details/88315577

3、最后存储文件用pandas的to_csv函数，每条弹幕换行存储也即间隔为'\n'

（最后：如果no module names pandas，去setting里将project interpreter 设为python 3.10）

代码：

import pandas as pd

data = pd.read_csv('炮姐.txt', error_bad_lines=False)

# 遇到问题1：dataframe转成ndarray的问题(即用下面一行来解决）
data = data.values

data_new = data[:, 8]

# 存储：
data2 = pd.Series(data_new) # 再将其转为DataFrame
data2.to_csv('after.txt', sep='\n', index=False)

现在效果图：

最后用pandas的dtype查看元素类型发现是object类型的元素，文件里存储的是一个完整的元素，对一个元素删改不同与对一个数组删改，由于对一个元素删改较复杂。

所以最后还是选择用txt自带的查找功能：ctrl +H 手动花1min将有规律的多余部分替换为空。并先删去与内容无关的第一行。即可满足需求。

博客等级

码龄3年

30
原创

90
点赞

138
收藏

43
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

winrar自解压删除多个目录下文件、解压后运行
尼恩久: 抱歉，才看到消息，其实不太行，文件全可删，文件夹删不掉
winrar自解压删除多个目录下文件、解压后运行
私は婕が好きだ: 5的删除文件有效果吗，我这边试了好像删不掉
python将页面找上的磁力（特别多）存到csv
优快云-Ada助手: Python入门技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
python运行bat脚本，并传递txt文件参数
优快云-Ada助手: 恭喜您发布了新的博客！看到您已经掌握了如何在Python中运行bat脚本并传递参数，这是一个不错的技能！接下来，您可以考虑深入探讨如何在不同操作系统上运行bat脚本，或者尝试结合其他技术来实现更多功能。希望您能继续保持创作的热情，不断学习进步！祝您写作顺利！
记录python将图片打包在代码中，或将微信收款码保存到本地图片
优快云-Ada助手: 恭喜您在博客中分享了如何使用Python将微信收款码保存到本地图片的方法，这对于需要频繁使用微信收款码的用户来说一定非常实用！希望您能继续保持创作的热情，分享更多有趣的技术教程或经验分享。或许下一步您可以尝试探索如何利用Python实现自动化处理图片或者更深入地了解图像处理相关的知识，相信这些内容也会吸引到更多的读者！期待您的更多精彩内容，加油！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。