
python爬虫
qxdoit
这个作者很懒,什么都没留下…
展开
-
使用selenium模拟浏览器抓取淘宝美食信息
大概思路:1. 首先,访问淘宝主页面,在搜索框输入关键字,输入回车或点击搜索按钮,跳转到具体的关键词页面。2. 对于关键词页面的解析。由于后台数据传到前台采取的是ajax技术,所以要么对ajax请求和返回json文件进行解析 要么就是控制浏览器,等到ajax请求加载到前台后,再从前台页面中取得数据。这就是用selenium模拟浏览器爬取数据 的主要方式。3. 要能够得到总共要爬取的页面...原创 2018-06-13 00:04:47 · 317 阅读 · 0 评论 -
Scrapy框架安装
在windows下安装scrapy框架出错,还是稍微有些麻烦的最终解决参考了如下的博客:windows下安装scrapy主要是首先安装Twisted,下载wheel文件,打开所在文件目录 然后 pip install xxx.whl注意一定要和自己的python版本匹配,否则会出错。下载了Twisted然后再pip install Scrapy.whl这样就成功了不能自己pip install s...原创 2018-06-16 19:07:04 · 214 阅读 · 0 评论 -
scrapy -- cmd 命令
bench --原创 2018-06-16 23:00:20 · 761 阅读 · 0 评论 -
pyquery的用法1
pyquery 完全模仿jquery首先把要解析的网页源代码包装成pyquery对象。调用doc()方法具体的初始化方法有三种。初始化方法:1: 字符串初始化:from pyquery import PyQuery as pq html = ''' <div> <ul> <li>hello</li> ...原创 2018-06-10 00:00:25 · 400 阅读 · 0 评论 -
selenium1
selenium用于驱动浏览器,爬虫中用于解决js渲染问题。基本使用:1.声明浏览器对象from selenium import webdriver browser = webdriver.Chrome()2.得到页面from selenium import webdriver browser = webdriver.Chrome() browser.get('http://www.taobao....原创 2018-06-10 13:53:08 · 229 阅读 · 0 评论