
python 爬虫
没有梦想何必远方。
如需要源码,请加VX:yuanchengruanjian
展开
-
python爬虫 Ajax数据爬取(通过爬取接口的方式--打印源码不会出现所需的数据信息)
1.什么是ajax数据爬取: 通常我们在使用requests抓取页面的时候,得到的html源码可能和在浏览器中看到的不一样,在页面上则可以看到数据,这是因为数据是听过ajax异步加载的,原始页面不会包含某些数据,原始页面加载完之后,会向服务区请求某个接口获取数据,然后数据才会被呈现在页面上,这其实就是发送了一个ajax请求。 2.如何爬取? 可通过requests和urllib这两个库来爬取数据:...原创 2019-06-23 18:43:27 · 2907 阅读 · 0 评论 -
pathon爬虫 动态渲染页面爬取 /Selenium的使用/各种操作
1.什么是动态渲染页面爬取? ajax方式也是动态渲染的一种,但是动态渲染并不止有ajax这一种,比如有些网页是由javascript生成的,并非原始html代码,这其中并不包含ajax请求,,比如Echarts官网,其图形都是经过javaScript计算之后生成的。还有就是淘宝这种网页,它既是是ajax获取的数据,但是其ajax接口含有很多加密参数,我们很难找出其中的规律,也很难直接分析ajax...原创 2019-06-23 20:48:20 · 713 阅读 · 0 评论 -
python 爬虫 存入 PostgreSQL Selenium使用
1.在Python中可以用来连接PostgreSQL的模块很多,这里比较推荐psycopg2: 2.安装:pip install psycopg2 3.爬取信息 存入postgre 使用Selenium : # -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.by import ...原创 2019-06-27 17:47:38 · 592 阅读 · 0 评论 -
python 爬虫 Selenium练习 爬取淘宝页面 /使用Selenium/点击下一页/BeautifulSoup解析源码获取数据
1.一般使用Selenium 爬取页面 就以下步骤: 1.使用Selenium 请求页面 2.使用wait.until()等到指定的元素标签被加载出来,才继续往下执行,开始打印源码,否则抛出异常。 3.得到源码后 使用BeautifulSoup 解析库 解析页面 获取数据 别的解析库也行。 4.入库。 5.代码 : # -*- coding:utf-8 -*- from selenium impo...原创 2019-06-28 16:12:50 · 3367 阅读 · 0 评论 -
原 python 爬虫 Selenium 模拟登录 获取源码
代码: # -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait from selenium.webd...原创 2019-06-28 18:01:17 · 794 阅读 · 0 评论 -
python 爬虫安装 tesserocr图形识别库
1.用于识别验证码:OCR,即 Optical Character Recognition,光学字符识别 2.要安装tesserocr先安装 tesseract :选 Additional language data(download)选项来安装 OCR识别支持的语言包,这样 OCR 便可以识别多国语言。 然后一路点击 Next 按钮即可 () 2-1:配置环境变量: C:\pachongxian...原创 2019-07-05 10:25:24 · 252 阅读 · 0 评论