萌新学习Python爬取B站弹幕+R语言分词demo说明

最新推荐文章于 2025-03-11 22:58:51 发布

原创

最新推荐文章于 2025-03-11 22:58:51 发布 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍了Python新手如何使用Scrapy爬取B站弹幕，详细讲解了从环境搭建到爬虫代码实现的过程，并展示了如何在R语言中使用jiebaR进行分词和绘制词云。遇到的问题包括词云结果不理想和关键词提取后的数据格式转换等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码地址如下：
http://www.demodashi.com/demo/11578.html

一、写在前面

之前在简书首页看到了Python爬虫的介绍，于是就想着爬取B站弹幕并绘制词云，因此有了这样一个简单的尝试，从搭建环境到跑通demo，不懂语法，不知含义，装好环境，查到API，跑通Demo，就是目标！纯零基础萌新！
关于环境的安装及调试过程中遇到的问题记录请移步

二、Python爬取B站弹幕

环境说明

windows8.1 x64+python3.6+scrapy1.4
参考文档：
scrapy github
scrapy document
scrapy爬虫框架入门实例

步骤说明

安装python3.6
安装scrapy1.4
建立scrapy demo
跑通demo遇到问题、解决问题
更改demo为B站弹幕爬取demo
我这边是按照参考文档中 scrapy爬虫框架入门实例这个demo来做的，这个文章里面无论是介绍还是scrapy的入门都非常详细，建议大家按照- 这个来入门，但是由于慕课网的结构样式以及更改了，所以demo是跑不起来的，因此我换成了爬取B站的弹幕demo。截止2017年9月2日亲测可跑通。

Demo说明

1. 安装scrapy成功之后建立项目scrapytest

scrapy startproject scrapytest

2. demo目录

本demo目录仅保留当前demo可用的文件，且文件名字不同于scrapy自动生成的文件名字，对于未涉及到的文件进行了删除

│  scrapy.cfg//项目的配置文件
└─scrapytest
    │  CourseItems.py//定义一个容器保存要爬取的数据
    │  MyPipelines.py//项目中的pipelines文件.
    │  settings.py//项目中的设置文件.
    ├─spiders
    │  │  data.json//爬取数据生成的文件
    │  └─ Myspider.py//爬虫主代码