
爬虫
Calm微笑
若不是终点,请微笑向前!
展开
-
网络爬虫一
想要爬取网页首先就要把网页下载下来,python提供的urllib2模块可用来下载URL。有三种方法1,网站地图爬虫该方法依赖于sitmap文件。#coding:utf-8import refrom common import downloaddef crawl_sitemap(url): # 下载网络地图文件即.xml文件 sitemap = down...原创 2019-01-03 21:15:06 · 306 阅读 · 0 评论 -
网络爬虫二
以抓取豆瓣电影前250为例,如何从下载的网页提取数据提取数据主要有三种方法 ,正则表达式,beautiful soup 和lxml首先查看网页代码构造利用开发人员工具 # coding:utf-8import requestsfrom bs4 import BeautifulSoupimport reimport timeimport sysimport i...原创 2019-01-04 18:53:16 · 217 阅读 · 0 评论 -
网络爬虫三
scrapy 是一个流行的网络爬虫框架一,创建项目 在终端输入scrapy startproject example (example为项目名)cd example此时会生成几个文件二,定义模型example/items.py文件包含如下代码# -*- coding: utf-8 -*-import scrapy#存储想要抓取的信息class Exam...原创 2019-01-05 16:04:09 · 192 阅读 · 0 评论 -
Python3.5安装Scrapy遇到的错误及解决方法
安装步骤详见官方网址http://doc.scrapy.org/en/latest/intro/install.html 一 、sudo pip3 install Scrapy出现错误pyasn1-modules 0.2.4 has requirement pyasn1<0.5.0,>=0.4.1, but you'll have pyasn1 0.1.9 which i...原创 2019-02-18 18:04:30 · 5892 阅读 · 0 评论