自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 爬去孔夫子所有店铺的评论

我们上次爬去了孔夫子店铺的一家评论 现在我们要爬去孔夫子店铺的所有评论 一, 首先,找到一个店铺网站的目录:该网站地址 从这个网站中获取到各家店铺的网址。 用最简单的正则表达式就可以爬取到 二,上次我们得知每个店铺的url都是稍微不同其中: 所以我们先要获取到每个店铺的userId 然后进行爬去内容。 三,要爬取完所有的内容,我们必须要将页数设置到最大。 但是会返回值为空。当返回值为空时。我们...

2019-11-24 21:50:43 232

原创 爬去孔夫子旧书网店铺评论

首先,我们要知道孔夫子旧书网的属于动态网址,也就是说我们无法从html中直接获取信息。 我们要采用从网站文件里获取信息。在店铺的网站点击检查然后找到对应的店铺评论的文件。 图片里的文件就是这个店铺的评论信息。然后找到这个文件对应的url 就可以获取到这个评论信息了。 我们获取到的这个文件是个json文件所以要提取json文件里的内容我们需要安装一个json的模块。Python中自带json的模...

2019-11-17 17:15:44 599

原创 把爬去的贴吧图片保存在MySQL

一Mysql的使用 首先安装pymysql模块,以便Python与数据库进行连接。 然后我们需要连接到Mysql: 我们知道数据库的host user database password charset。 然后与数据库进行连接 二我们需要创建一个表,将数据保存在表中。 创建完表格之后就保存数据了,在保存数据之前我们需要爬去数据 三爬去数据 爬去贴吧图片 四保存数据。 爬去完的贴吧图片保存在刚才...

2019-11-11 19:02:33 204

原创 爬取网站内的全部小说

爬取网站内的全部小说 我们需要用到的模块有 re BeautifulSoup 首先我们要确定我们爬取的网站:http://www.136book.com/tuijian.php?id=1 一在爬取各个书目录的网址时我选择了用正则表达式来爬取: 选用正则爬取单独的href是比较方便的。爬取后要确定是否为书的网站。我发现目录章节的网址的后缀target="blank。用此确定是否为目录的href ...

2019-11-03 20:56:16 1330

原创 爬去贴吧图片

爬去贴吧图片 本次爬去贴吧图片运用的是request模块和正则表达式。爬去的网站链接 我们要将爬去贴吧图片分为三步(爬去图片网址自选): 1,获取网页的HTML 2,找到图片的链接 3,保存图片!!! 一,获取爬取的网址 首先我们引入re和request模块 其次获取网页的HTML **二,**找到图片的链接 我们需要用到正则表达式 图片的格式基本一样有共同的后缀.jpg **三,**保存图...

2019-10-24 20:50:03 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除