
爬虫
文章平均质量分 73
LIJZ_Python
科技特长生资源总结与分享
展开
-
史上最简单的爬虫小程序(Python)
说明: Python2import urllib2if __name__ == '__main__': print(urllib2.urlopen("http://www.baidu.com").read())原创 2018-03-16 10:55:49 · 4948 阅读 · 0 评论 -
爬虫Selenium+PhantomJS爬取动态网站图片信息(Python)
from urllib import request, errorfrom requests import RequestExceptionimport lijzMD5from lijzLog import *import requestsimport json, re, time, random, osfrom selenium import webdriverfrom bs4 ...原创 2018-03-24 22:07:05 · 1065 阅读 · 0 评论 -
Selenium + PhantomJS爬去动态网站的数据示例(Python)
Selenium一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵;Selenium也可以做类似的事情,但是它是在浏览器中做这样的事情。安装: sudo pip install selenium(pip install selenium)在Python中from selenium import webdriver 来测试是否装好说明:想要用Python做自动化测试的童...原创 2018-03-21 11:22:02 · 260 阅读 · 0 评论 -
爬虫代理和本地封装类库的实现和使用(Python)
1. 封装好的类库from urllib import request, errorfrom requests import RequestExceptionimport lijzMD5from lijzLog import *import requestsimport json, re, time, random, osfrom selenium import webdriverf...原创 2018-03-25 19:02:49 · 496 阅读 · 0 评论 -
爬虫requests库简单抓取页面信息功能实现(Python)
import requestsimport re, json,time,randomfrom requests import RequestExceptionUserAgentList = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.9...原创 2018-03-21 15:46:11 · 1346 阅读 · 0 评论 -
urllib通过Get请求爬取KeyWords页面信息
import baseSpiderimport urllib# www.baidu.com/s?wd=pythonkeyword = input("请输入你要查询的关键词:")wd = {"wd":keyword}# 这里需要做urlencode,以保证浏览器能够识别所有的字符信息wd = urllib.parse.urlencode(wd)#print(wd)url = "...原创 2018-03-27 14:36:04 · 527 阅读 · 1 评论 -
BeautifulSoup的基本使用
import requestsfrom bs4 import BeautifulSoupdef del_span(l): while True: if '\n' in l: l.remove('\n') else: break return lif __name__ == '__main__': url = ...原创 2018-06-09 14:07:01 · 480 阅读 · 0 评论 -
requests + re 爬去网站图书信息(Python)
# -*- coding: utf-8 -*-import requestsimport re, jsonif __name__ == '__main__': content = requests.get('https://book.douban.com/').text reg_base = '<ul.*?list-col list-col5 list-express slide...原创 2018-06-09 14:08:32 · 802 阅读 · 0 评论 -
PyQuery库的简单实用(Python)
import requestsfrom bs4 import BeautifulSoupfrom pyquery import PyQuery as pqif __name__ == '__main__': # 实例1 # url = 'https://book.douban.com' # response = requests.get(url).text ...原创 2018-06-09 22:35:01 · 512 阅读 · 0 评论 -
爬虫Get请求参数匹配得到字典类型格式(Python)
import reif __name__ == '__main__': urls = 'i=d%0A&from=AUTO&to=AUTO&smartresult=dict' pattern = r'&' reg = re.compile(pattern).split(urls) pattern2 = r'=' d = {}...原创 2018-03-20 17:40:24 · 1609 阅读 · 0 评论 -
urllib通过Post请求爬去数据并解析JSON(Python)
1. 封装的请求post函数:def downloadPostPage(url, dictdata, headers, charset='utf-8', reqnum=5): data = bytes(parse.urlencode(dictdata), encoding=charset) req = request.Request(url, data, headers=hea...原创 2018-03-20 17:13:13 · 3084 阅读 · 0 评论 -
JSON的简单数据解析与转换(Python)
import jsonjsonDict = {'One':'1', 'Two':'2'}# json encode# dict --> json string# json.dumpsjsonDumps = json.dumps(jsonDict)print(jsonDumps) # str类型print(type(jsonDumps)) # <cla...原创 2018-03-20 14:42:06 · 323 阅读 · 0 评论 -
爬虫技术库-urllib.request和requests库的使用(Python)
1. requests库 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',...原创 2018-04-19 22:04:33 · 2621 阅读 · 0 评论 -
简单爬虫函数的封装(Python)
def downloadPage2(url, req_num=10, charset='utf-8', user_agent=None): """ 下载网页信息,user-Agent的设置 处理了500-600的错误 限制了错误处理的上限次数 网页的编码设置 :param url: 请求的url连接 :return: 返回值 """...原创 2018-03-19 10:22:01 · 1224 阅读 · 0 评论 -
爬虫库BeautifulSoup的使用(Python)
1. 安装 sudo pip3 install beautifulsoup42. 导包 from bs4 import BeautifulSoup3. 测试代码from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story...原创 2018-03-19 18:31:05 · 253 阅读 · 0 评论 -
BeautifulSoup库中解析器的比较(Python)
1. 安装解析库 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:$ apt-get install Python-lxml$ easy_install lxml$ pip install lxml另一个可供选择的解析器是纯Python实现的 html5lib , ...原创 2018-03-19 18:36:46 · 1703 阅读 · 0 评论 -
爬虫XPath库的使用(Python)
XPath的使用: bookStore.xml文档内容如下: <?xml version="1.0" encoding="utf-8" ?> <bookstore> <book> <title lang="eng">Harry Potter</title&原创 2018-03-19 18:45:55 · 595 阅读 · 0 评论 -
常用的正则表达式匹配(Python)
手机号: r'(13|14|15|18|17)[0-9]{9}' 邮箱:^\w+@\w+\.[^@]+$ 网址url: r'^((https|http)?:\/\/)[^\s]+' 中文匹配: r'[\u4e00-\u9fa5]' 身份证号码: r'\d{17}[\d|x]|\d{15}' 邮政编码: r'\d{6}' IP地址匹配: r'^(?:[0-9]{1,3}\.){3}[0-9]...原创 2018-03-19 18:57:50 · 774 阅读 · 0 评论 -
爬虫Scrapy框架的安装和使用(Python)
Scrapy框架: 好处: 省事,快速搭建一个系统,快速抓取数据。 坏处: 细节不清楚,框架的限制需要考虑,学习成本高,可能隐藏了很多未知的问题。1. 安装Scrapy 安装Scrapy in Ubuntu: sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev ...原创 2018-03-23 15:03:07 · 298 阅读 · 0 评论 -
urllib模块的使用(Python3.x)
1.基本方法urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)- url: 需要打开的网址- data:Post提交的数据- timeout:设置网站的访问超时时间...原创 2018-03-20 13:31:32 · 212 阅读 · 0 评论 -
Selenium的基本使用(Python)
import time, os, sysfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.common.action_chains import Acti...原创 2018-06-10 14:34:20 · 918 阅读 · 0 评论