
爬虫
小孟Tec
为什么我的眼里常含泪水?
因为我对这土地爱得深沉……
展开
-
Web Spider - 爬虫
相关Python 模块有urllib、BeautifulSoup、lxml、Scrapy、PdfMiner、Requests、Selenium、NLTK、Pillow、unittest、PySocks等。理论上,网络数据采集是一种通过多种手段收集网络数据的方式,不光是通过与API 交互(或者直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用HTML 表单或其...原创 2018-07-25 12:40:16 · 292 阅读 · 0 评论 -
爬虫基础
请求 由客户端向服务端发出,可以分为4 部分内容:请求方法( Request Method ) 、请求的网址( Request URL )、请求头( Request Headers ) 、请求体( Request Body )。1 . 请求方法常见的请求方法有两种: GET 和POST 。在浏览器中直接输入URL 井回车,这便发起了一个GET 请求,请求的参数会直接包含到...原创 2018-09-17 15:08:45 · 167 阅读 · 0 评论 -
基本库的使用 -- urllib
最基础的HTTP 库有urllib 、httplib2 、requests 、treq 等。使用urllib urllib 库,它是Python 内置的HTTP 请求库,也就是说不需要额外安装即可使用。它包含如下4 个模块。request : 它是最基本的HTTP 请求模块,可以用来模拟发送请求。就像在浏览器里输入网挝然后回车一样,只需要给库方法传入URL 以及额外的参数,就可以...原创 2018-09-18 10:49:23 · 202 阅读 · 0 评论 -
Python 之 多进程 multiprocessing.Pool 类
multiprocessing包是Python中的多进程管理包。它与 threading.Thread类似,可以利用multiprocessing.Process对象来创建一个进程。该进程可以允许放在Python程序内部编写的函数中。该Process对象与Thread对象的用法相同,拥有is_alive()、join([timeout])、run()、start()、terminate()等方法。...转载 2018-09-23 17:04:45 · 233 阅读 · 0 评论 -
基本库的使用 -- requests
import requestsr = requests.get('https://www.baidu.com')print(type(r))print(r.status_code)print(type(r.text))print(r.text)print(r.cookies)这里我们调用get()方法实现与url op e n ()相同的操作,得到一个R es po n ...原创 2018-09-18 23:50:52 · 297 阅读 · 0 评论 -
爬虫--解析库的使用 XPath、BeautifulSoup、pyquery
1. XPathXPath , 全称XML Path Language ,即XML 路径语言,它是一门在XML 文档中查找信息的语言。它最初是用来搜寻XML 文档的,但是它同样适用于HTML 文档的搜索。XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点...原创 2018-09-19 16:53:57 · 2387 阅读 · 0 评论