
python爬虫
ITYTI
这个作者很懒,什么都没留下…
展开
-
初学python爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 爬虫不需要精通python,但爬虫的原理与python的基础知识是需要掌握的,请看爬虫的流程: 当我们获取了数据就可以对数据进行操作分析,应用于其他的方面。以下是...原创 2018-09-19 13:10:17 · 388 阅读 · 0 评论 -
BeautifulSoup中select的使用方法
html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b&a原创 2018-10-25 19:51:01 · 15407 阅读 · 3 评论 -
Scrapy爬虫urlparse之urljoin() 必备
首先导入模块,用help查看相关文档>>> from urllib import parse>>> help(parse.urljoin)Help on function urljoin in module urlparse:urljoin(base, url, allow_fragments=True) Join a base URL a...转载 2018-10-26 10:38:07 · 4349 阅读 · 0 评论 -
爬虫中异步数据写入MySQL数据库方法
爬虫中异步数据写入MySQL数据库方法(adbapi)数据库pymysql的commit()和execute()在提交数据时,都是同步提交至数据库,由于scrapy框架数据的解析和异步多线程的,所以scrapy的数据解析速度,要远高于数据的写入数据库的速度。如果数据写入过慢,会造成数据库写入的阻塞,影响数据库写入的效率。通过多线程异步的形式对数据进行写入,可以提高数据的写入速度。 使...原创 2018-10-30 00:24:39 · 1869 阅读 · 0 评论 -
python requests cookies的处理
python requests cookies的处理兼容性try: import cookielib # 兼容Python2except: import http.cookiejar as cookielib # python 3 need import http.cookiejar创建 sessionsession = requests.session(...原创 2018-11-01 16:02:07 · 998 阅读 · 0 评论 -
Python中PYTHONPATH的os.path以及sys.path模块简介
1.sys.path —— 动态地改变Python搜索路径如果python中导入的package或module不在环境变量PATH中,那么可以使用sys.path将要导入的package或module加入到PATH环境变量中。 import sys sys.path.append(’引用模块的地址') #或者 import sys sys.path....转载 2018-11-02 11:01:39 · 796 阅读 · 0 评论 -
反爬虫机制(一)----伪装User-Agent之fake-useragent
今天首先讲解反爬机制的伪装User-Agent第一种:在cmd命令行里用pip安装fake_useragentpip install fake-useragent使用方法:from fake_useragent import UserAgentimport randomfake_ua=UserAgent() # 构建UserAgent()对象headers = {'Us...原创 2018-11-05 21:42:24 · 3558 阅读 · 2 评论 -
Selenium安装+Python测试
本次进行selenium安装并使用python进行测试相关知识Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看...原创 2018-11-16 10:33:40 · 947 阅读 · 0 评论 -
Tesseract-OCR安装
1. 安装tesseractOCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。tesseract下载地址:https://digi.bib.uni-mannheim.de/tess...转载 2019-01-18 10:39:51 · 997 阅读 · 0 评论