
爬虫
文章平均质量分 88
choven_meng
这个作者很懒,什么都没留下…
展开
-
python网络数据学习范例-正则表达式+lambda函数
from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("http://www.pythonscraping.com/pages/page3.html") bsObj = BeautifulSoup(html,"html.parser") images = bsObj.fin转载 2017-10-06 13:58:40 · 764 阅读 · 0 评论 -
selenium和pyquery爬取淘宝美食商品信息
1、用selenium自动爬取淘宝美食的商品信息,先定义search方法,该方法用来在搜索框中输入“美食”,然后点击搜索按钮。浏览器加载需要时间,要判断浏览器加载成功再执行下一步的操作,其使用方法可在python-selenium官网查看waits相关的介绍,部分代码复制粘贴即可。设置的条件要在指定的时间内加载出来,否则会抛出异常,使用try回归这个方法。 Input为搜索框,submit为搜索原创 2017-11-22 15:25:31 · 1516 阅读 · 0 评论 -
selenium学习笔记
官方api:http://selenium-python.readthedocs.io/api.html# 1、访问网页 from selenium import webdriver #声明浏览器对象,使用ie浏览器 brower=webdriver.Ie() brower.get('https://taobao.com') print(brower.page_source) #输出转载 2017-11-16 16:00:24 · 353 阅读 · 1 评论 -
利用requests和正则表达式re爬取猫眼电影top100,并下载图片
利用requests和正则表达式re爬取猫眼电影top100,并下载图片转载 2017-11-15 20:38:34 · 602 阅读 · 0 评论 -
ajax动态抓取今日头条街拍美图
1、分析网站源码。 网站是局部动态变化,offset变化加载内容,变化范围为0,20,40··· 首先要获取索引页代码数据,定义索引页,由于是ajax请求,offset根据索引变化0、20、40···,用requests获取网页代码,urlcode将字典转换为url请求参数,然后异常处理,根据url_code状态码判断请求是否成功,返回文本格式,最后定义main函数调用。可根据可变原创 2017-11-20 14:33:34 · 1849 阅读 · 0 评论 -
正则表达式
正则表达式原创 2017-10-26 18:22:36 · 286 阅读 · 0 评论 -
python.scrapy爬虫-xpath查询语法
xpath查询语法 1、查询标签中带有某个class属性的标签://div[@class=’c1’]即子子孙孙中标签是div且class=‘c1’的标签 。 2、 查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签: //div[@class=’c1’][@name=’alex’] 3、 查询某个标签的文本内容://div/span/text()转载 2017-10-11 13:38:43 · 572 阅读 · 0 评论 -
python网络数据采集学习范例-通过互联网采集
这个程序从http://oreilly.com 开始,然后随机地从一个外链跳到另一个外链 from urllib.request import urlopen from bs4 import BeautifulSoup import re import datetime import random pages = set() random.seed(datetime.datetime转载 2017-10-08 20:54:55 · 1105 阅读 · 1 评论 -
爬取猫眼电影相关信息
import json import re import requests from requests.exceptions import RequestException #定义抓取一个页面代码 def get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Apple...原创 2018-11-07 10:54:01 · 420 阅读 · 0 评论