
爬虫
Deep_IT
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python网络爬虫(Get、Post抓取方式)
简单的抓取网页 import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read() 直接将URL保存为本地文件 import urllib.request url="http://www.xxxx.com/转载 2016-02-19 10:07:46 · 1189 阅读 · 0 评论 -
python网页爬虫之列车时刻表的抓取-完整的python脚本
#! /usr/bin/env python #coding=utf8 # by meichenhui@gmail.com 2010/5/30 from HTMLParser import HTMLParser from pyquery import PyQuery as pq import sqlite3,urllib2,logging,sys from datetime imp转载 2016-02-19 10:10:47 · 3256 阅读 · 0 评论 -
pytho多线程+html正文抽取
今天将 一个bfs 的爬虫 和 抽取Html整合到一起了。现在功能还是有局限性 。 其中抽取正文,详见 http://www.fuxiang90.me/2012/02/%E6%8A%BD%E5%8F%96html-%E6%AD%A3%E6%96%87/ 现在只限定爬取 http 协议的网址,并只在内网测试了,因为和外网的连接不是不快。 一个全局的 url 队列 和 url set 。队转载 2016-02-19 10:15:53 · 529 阅读 · 0 评论 -
python XPath
作用:提取Item 资料http://doc.scrapy.org/topics/selectors.html#topics-selectors 这是一些XPath表达式的例子和他们的含义 /html/head/title: 选择HTML文档元素下面的 标签。/html/head/title/text(): 选择前面提到的 元素下面的文本内容//td: 选择所有 元素//div[原创 2016-02-26 15:22:26 · 746 阅读 · 0 评论 -
python mysql
windows python+mysql安装包: http://www.codegood.com/archives/129 分为32和64位~直接安装即可原创 2016-02-26 16:56:38 · 656 阅读 · 0 评论