
python爬虫
Jere_Chen
如果你发现我的文章有错误,请毫无保留的指出,谢谢。因为这正是我写文章的目的,虚心请教!
展开
-
python爬虫--正则爬取内涵段子文字
背景:虚拟机ubuntu16.04 爬取内涵段子文字,replace处理字符串要求,根据客户要求要爬取的page数,将段子爬取下来:源码如下: 1 # -*- coding:utf-8 -*- 2 3 import urllib2 4 import re 5 6 class Spider: 7 def __init__(self): 8 ...原创 2018-02-13 20:20:21 · 1811 阅读 · 0 评论 -
python爬虫--scrapy爬取腾讯招聘网站
背景:虚拟机Ubuntu16.04,爬取https://hr.tencent.com/招聘信息!第一步:新建项目:scrapy startproject tencent第二步:编写items文件 1 # -*- coding: utf-8 -*- 2 3 # Define here the models for your scraped items 4 # ...原创 2018-02-24 23:42:31 · 4609 阅读 · 2 评论 -
python爬虫--xpath结合re同时爬取文字与图片
还是老家的旅游网址:http://www.patour.cn/site/pananzxw/tcgl/index.html,将这些特产的图片及其介绍都爬取下来!源码:1 # -*- coding:utf-8 -*- 2 import urllib2 3 import re 4 from lxml import etree 5 6 class Spider: 7 ...原创 2018-02-16 16:06:26 · 3428 阅读 · 1 评论 -
python爬虫--re结合xpath爬取图片
背景:虚拟机ubuntu16.04利用xpath与爬取www.uumnt.cc/图片当然,我们要爬取的是动物板块!程序分析,将动物板块一页一页分析拿取出来,然后拿去各种动物页面的链接,然后对链接分析拿取图片(每个链接拿取4张图)效果为:源码如下: 1 # -*- coding:utf-8 -*- 2 3 #准备爬取https://www.uumn...原创 2018-02-05 09:01:43 · 2042 阅读 · 0 评论 -
python爬虫出现HTTPError :403:forbidden错误!
背景:虚拟机上的ubuntu16.04做爬虫测试!ubuntu自带火狐浏览器,查看自身的user-agent:在网页按F12会出来一个窗口然后点network(网络) 然后在当前页面随便点一个链接就可以看到network里面有新的请求信息,点击就可以看详情,Request Headers(请求头)里面就有你要找的user-agent 运行程序,出现urllib2.HTTPE...原创 2018-01-29 19:54:03 · 5840 阅读 · 0 评论 -
python爬虫--利用xpath爬取图片(虚拟机ubuntu16.04)
此篇爬虫的背景是:虚拟机刚装好的ubuntu 16.04,系统环境还需配置,爬虫的程序是之前几个月前在windows上写的,今天放到虚拟机上跑一跑!(安装了VMware Tools就可以把宿主机上的文件拉进虚拟机中!)xpath爬取用到了urllib2与lxml库,ubuntu16.04自带python2.7.11,包含了urllib2库,但lxml还需安装!上程序: # -*-...原创 2018-01-26 10:43:09 · 2292 阅读 · 0 评论