
爬虫
致最长的电影
真正的勇气是上帝给你的一切!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
IP代理池的使用
参考书籍:python3网络爬虫开发与实战 作者个人博客:https://cuiqingcai.com/下载IP代理池的程序,其作者放在了GitHub:https://github.com/Python3WebSpider/ProxyPool需要的工具:pycharm、各种库、python37、redis安装、redis可视化工具(在参考书籍作者博客中都有安装方法)1、下载IP...原创 2019-10-02 14:47:34 · 2316 阅读 · 0 评论 -
python爬虫代理的不同设置
以下内容分为1、urllib库代理的设置 2、requests库代理的设置 3、selenium+chrome代理的设置1、urllib库的代理的设置#对于urllib设置代理from urllib.error import URLErrorfrom urllib.request impor...原创 2019-10-02 12:28:23 · 347 阅读 · 0 评论 -
Selenium+Chrome爬取淘宝美食商品并存入MongoDB数据库中
Selenium自动化测试工具,支持多种浏览器,主要用来解决JavaScript渲染的问题需要的工具:Pycharm、python37、Chromedriver环境配置好、Chrome浏览器、Selenium库、MongoDB可视化工具、pymongo库参考的书籍:python3网络爬虫开发与实战---崔大神Selenium+Chrome爬取淘宝美食并存入MongoDB数据库中...原创 2019-09-30 15:51:28 · 1232 阅读 · 0 评论 -
今日头条组图下载本地,并存入MongoDB
我是跟着崔大神的视频进行学习的,这是他的一个案例,一步一步敲,代码肯定是没有问题的,肯定能学到一点东西,注释不想加了,下面自己一步一步完成的。(代码注释的部分,是为了测试,时常打印一下信息,看有没有问题)流程框架:爬取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息 下载图片并保存...原创 2019-09-29 15:01:21 · 664 阅读 · 0 评论 -
scrapy爬取知乎全站用户信息,存入mongodb数据库
源码地址github,里面有详细注释:https://github.com/15160200501/scrapy-可以直接运行,不能运行的话,接口应该是换了工具:pycharm、python37、mongodb数据库、数据库可视化工具robo3t知乎:思路:1、选定候选人 2、获取粉丝和关注列表 3、获取列表用户信息 4、获取每位用户...原创 2019-09-26 23:26:56 · 339 阅读 · 0 评论 -
pycharm、微博爬取个人数据存入Mongodb
前提安装好RoBo 3T可视化工具,安装好pymongo库。下面是爬取微博个人数据,有微博id,正文,点赞数,评论数,转发数from urllib.parse import urlencodeimport requestsfrom pyquery import PyQuery as pqfrom pymongo import MongoClient#表示请求的URL的前半部分...原创 2019-09-13 15:28:37 · 1024 阅读 · 3 评论 -
python爬取猫眼电影前100,生成本地txt文件
import requestsfrom bs4 import BeautifulSoup#json 数据格式 字典"""data = {"name":"ming"}字典data = {'name':'ming'}"""#在网页中爬取的数据保存到python对象中为字典,但是文件写入不了对象所以我们要转成json字符串写入import json"""思路:1、使用网络...原创 2019-09-10 21:45:11 · 559 阅读 · 0 评论 -
GitHub模拟登录
参考书籍:python3网络爬虫开发与实战 作者个人博客:https://cuiqingcai.com/需要的工具:requests库,puquery库概要:打开网页然后模拟登录,实际上是在客户端生成了Cookies,而cookies里面保存了SessionID的信息,登录之后的后续请求都会携带生成后的Cookies发送给服务器。服务器就会根据Cookies判断出对应的Sessio...原创 2019-10-03 14:00:43 · 309 阅读 · 0 评论