GHALB-优快云博客

原创爬去孔夫子所有店铺的评论

我们上次爬去了孔夫子店铺的一家评论现在我们要爬去孔夫子店铺的所有评论一，首先，找到一个店铺网站的目录：该网站地址从这个网站中获取到各家店铺的网址。用最简单的正则表达式就可以爬取到二，上次我们得知每个店铺的url都是稍微不同其中：所以我们先要获取到每个店铺的userId 然后进行爬去内容。三，要爬取完所有的内容，我们必须要将页数设置到最大。但是会返回值为空。当返回值为空时。我们...

2019-11-24 21:50:43 232

原创爬去孔夫子旧书网店铺评论

首先，我们要知道孔夫子旧书网的属于动态网址，也就是说我们无法从html中直接获取信息。我们要采用从网站文件里获取信息。在店铺的网站点击检查然后找到对应的店铺评论的文件。图片里的文件就是这个店铺的评论信息。然后找到这个文件对应的url 就可以获取到这个评论信息了。我们获取到的这个文件是个json文件所以要提取json文件里的内容我们需要安装一个json的模块。Python中自带json的模...

2019-11-17 17:15:44 599

原创把爬去的贴吧图片保存在MySQL

一Mysql的使用首先安装pymysql模块，以便Python与数据库进行连接。然后我们需要连接到Mysql：我们知道数据库的host user database password charset。然后与数据库进行连接二我们需要创建一个表，将数据保存在表中。创建完表格之后就保存数据了，在保存数据之前我们需要爬去数据三爬去数据爬去贴吧图片四保存数据。爬去完的贴吧图片保存在刚才...

2019-11-11 19:02:33 204

原创爬取网站内的全部小说

爬取网站内的全部小说我们需要用到的模块有 re BeautifulSoup 首先我们要确定我们爬取的网站：http://www.136book.com/tuijian.php?id=1 一在爬取各个书目录的网址时我选择了用正则表达式来爬取：选用正则爬取单独的href是比较方便的。爬取后要确定是否为书的网站。我发现目录章节的网址的后缀target="blank。用此确定是否为目录的href ...

2019-11-03 20:56:16 1330

原创爬去贴吧图片

爬去贴吧图片本次爬去贴吧图片运用的是request模块和正则表达式。爬去的网站链接我们要将爬去贴吧图片分为三步（爬去图片网址自选）： 1，获取网页的HTML 2，找到图片的链接 3，保存图片！！！一，获取爬取的网址首先我们引入re和request模块其次获取网页的HTML **二，**找到图片的链接我们需要用到正则表达式图片的格式基本一样有共同的后缀.jpg **三，**保存图...

2019-10-24 20:50:03 248