自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

zz_zss的博客

博客等级

码龄6年

31
原创

29
点赞

116
收藏

12
粉丝

关注

私信

热门文章

分类专栏

最新评论

解决多线程中资源竞争
普通网友: 码住，求博主联系方式，我的微信cto51shequ，在线等回复
使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据
赵清河: xpath，你可能写错了，没怎么用过的话先下载一个chrome的插件 xpath-helper去获取正确的xpath，或者获取的书库为空的话，可能是ip被封了
使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据
xingTTxing: 百度贴吧做了防爬机制，取得的response对象大部分内容被注释了，你是怎么用xpath提取到的
使用pandas处理数据
赵清河: 上述方法使用创建全为0的数组然后进行变1操作，可用来处理比如电影分类问题，每一个电影有多个分类这种情况，因此需要这种统计方法。当我们需要统计的数目索引很清晰明确且每一个数据仅属于一类时可以直接使用groupby方法统计# 当我们需要的信息很明确而且仅一列时可以直接使用函数groupby对我们想要的一列进行统计数目 counts = df.groupby(by="country").count()["title"] print(counts)
关于python中pip安装各种包失败的解决方法
赵清河回复張沖: 一般pip就可以解决大部分安装包，pip无法解决的用conda 就基本可以解决，我是pip安装一直出错就用了清华园总有一种方法可以成功的吧

爬取贴吧帖子数据

关注

文章平均质量分 92

关注数：文章数：1 文章阅读量：2392 文章收藏量：8

作者: 赵清河

这个作者很懒，什么都没留下…

展开

专栏收录文章

使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据

scrapy为爬虫框架通过框架更加效率的提取数据使用scrapy框架时只需要通过正则或者xpath 提取想要爬取的数据首先安装 scrapy 模块使用命令行 pip install scrapy 如果安装失败则使用其他方法安装在其他文章里面有详细介绍再创建一个项目先cd到所需文件夹 scrapy startproject teiba 再创建一个爬虫先cd到所建项目 cd teiba scrapy genspider tb tieba.baidiu.com

原创 2020-07-05 22:14:48 · 2392 阅读 · 2 评论