
Python爬虫
瑞行AI
这个作者很懒,什么都没留下…
展开
-
Python3的builtwith模块修改
builtwith模块是Python里的网站技术信息查询工具,开发团队来自于澳大利亚。利用该网站所提供的功能,你可以查询出某网站背后是由哪些技术来支持的,比如操作系统的类型、所采用的访问量统计服务、采用的发布平台、广告平台、语言框架、聚合功能、页面文档信息、网站编码及操作系统信息等等。可帮助更深一层次了解该网站的运营情况。但builtwith模块是在 Python2 环境下开发的,Python3 的原创 2017-10-04 13:08:49 · 480 阅读 · 0 评论 -
Python3网络爬虫框架库scrapy
scrapy是一个爬虫框架,官方说明文件参考: https://doc.scrapy.org/en/master/topics/architecture.html 自己配置scrapy的用户会了解到scrapy是基于Twisted配置的,scrapy使用Twisted这个异步网络库来处理网络通讯。scrapy对同一域名允许最多8个并发下载,每2次下载之间没有延时,所以很容易被检测到遭封禁。scr原创 2017-10-16 19:02:01 · 674 阅读 · 0 评论 -
Python网页请求库Requests
Requests库官方中文文档 http://cn.python-requests.org/zh_CN/latest/# coding:utf-8 Python2加# 用requests库发送各种请求import requests#Requests拥有了urllib3的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码原创 2017-10-10 21:01:40 · 856 阅读 · 0 评论 -
Python3.5.2爬虫框架库Scrapy安装,Twisted安装
Win7操作系统里Python的API更新不匹配真是坑爹啊,再加上API开发与Python的版本不一致。。。Twisted和Python3.5.2绝对是有仇。。。 本文主要记录Win7(64位)操作系统,Python3.5.2安装Scrapy库需要wheel库、Twisted库等,主要麻烦是Twisted库更新与wheel和Scrapy端口不匹配。。。首先,去https://pypi.pyt...原创 2017-10-12 21:56:24 · 1450 阅读 · 1 评论 -
Python数据抓取——多线程,异步
本文主要是为了加快数据抓取任务,考虑使用多进程、多线程、异步原理,相关概念可以参考 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868322563729e03f6905ea94f0195528e3647887415000操作系统可以同时运行多个任务。首先,考虑单核CP原创 2017-10-12 18:08:53 · 19490 阅读 · 6 评论 -
Python网页测试库selenium,动态网页抓取
selenium是自动化网页测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,使用selenium需要浏览器版本与selenium版本匹配,同时配合浏览器驱动便可实现Web界面的测试,也就是 selenium 支持这些浏览器驱动。 首先,在命令行窗口安装selenium库:pip install selenium, 通过命令:pip show se原创 2017-10-11 23:53:55 · 2884 阅读 · 0 评论 -
HTML网页源码,CSS定位
HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)。HTML 不是一种编程语言,而是一种标记语言 (markup language)。标记语言是一套标记标签 (markup tag)。HTML 使用标记标签来描述网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用原创 2017-10-10 15:49:07 · 6119 阅读 · 0 评论 -
Python静态网页解析库Bequtifulsoup4
Beautifulsoup4是用于解析html文本的Python库,官方指南参考 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlfind, select方法:用CSS定位器查找html元素# coding:utf-8import requestsfrom bs4 import BeautifulSoup原创 2017-10-11 14:59:06 · 808 阅读 · 0 评论 -
Python3网页抓取urllib
爬虫原创 2017-10-03 22:20:56 · 541 阅读 · 0 评论 -
Python豆瓣静态网页抓取,lxml解析和显示(实验)
联系网页https://movie.douban.com/review/best/ Python源码:import sysimport requestsimport timeurl='https://movie.douban.com/review/best/'data=requests.get(url)print(data.encoding)print(data.status_code原创 2017-10-17 00:58:06 · 591 阅读 · 0 评论