自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 封装 python爬虫 爬取妹子图到mysql数据库

import requestsfrom lxml import etreefrom mysql import MYSQL1. 声明一个lianjia函数def lianjia(url,headers): # 2.给于url路径 # url = 'http://bj.lianjia.com/ershoufang/pg2/' for i in range(...

2018-08-22 22:01:48 608

转载 BeautifulSoup作用

功能BeautifulSoup是用来从HTML或XML中提取数据的Python库。 对于不具备良好格式的 HTML 内容,lxml 提供了两个有用的包:lxml.html 模块和 BeautifulSoup 解析器。导入使用方法: from bs4 import BeautifulSoup soup = BeautifulSoup(html)pycharm内导入Beaut...

2018-08-22 21:18:30 10344

原创 简单实现webdriver网页驱动 百度搜索、简书测试

Ⅰ、百度搜索 webdriver网页驱动测试# 导入 selenium 下的 webdriver(网页内驱动模块)from selenium import webdriver# 导入 time 时间模块import time# websriver(网页内驱动)Chrome(谷歌浏览器)driver = webdriver.Chrome()# time.sleep(睡眠等待...

2018-08-21 23:57:45 1343 1

原创 什么是 Selenium 和 WebDriver?

Selenium是一个浏览器自动化操作框架。selenium主要由三种工具组成。 1.第一个工具——SeleniumIDE,是Firefox的扩展插件,支持用户录制和回访测试。录制/回访模式存在局限性,对许多用户来说并不适合。2.因此第二个工具——Selenium WebDriver提供了各种语言环境的API来支持更多控制权和编写符合标准软件开发实践的应用程序。3.最后一个工具——Sel...

2018-08-21 23:32:38 10741 2

原创 python基础链家网爬虫实战

封装一个与数据库连接的MySQL类文件命名为 mysql.py#导入pyMySQL包import pymysqlclass MYSQL(object): def __init__(self): self.db=pymysql.connect(host='127.0.0.1',user='root',password='123456',port=3306,d...

2018-08-20 23:20:12 890

原创 python爬取 xueqiu网 数据 存入MySQL数据库中

#导入包from urllib import request import json import pymysql#声名一个class类class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',u...

2018-08-17 00:37:45 841

原创 基础反爬虫 cookie反爬 post / get 方法 函数封装

from urllib import request,parsefrom urllib.error import HTTPError,URLError保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar...

2018-08-14 22:28:53 1635

原创 python爬虫人人网登陆

Day1:人人网登录第一种方式#导入模块from urllib import request,parse from http import cookiejar#保存cookie,实例化cookiecookie = cookiejar.CookieJar() handler = request.HTTPCookieProcessor(cookie) opener = req...

2018-08-14 22:20:06 388

原创 python爬虫基础函数的封装

from urllib import request,parse from urllib.error import HTTPError,URLError import json封装get()请求def get(url,headers=None): return urlrequests(url,headers=headers)封装post()请求def post(...

2018-08-13 22:25:46 514 1

原创 session 和 cookie的区别, 他们都是什么?

什么是Session?1.由于HTTP协议是无状态的协议,所以服务端需要记录用户的状态时,就需要用某种机制来识具体的用户,这个机制就是Session. 2.Session用于标识这个用户,并且跟踪用户,Session是保存在服务端的,有一个唯一标识。在服务端保存Session的方法很多,内存、数据库、文件都有。 3.大型的网站,一般会有专门的Session服务器集群,用来保存用户会话,这个...

2018-08-13 20:45:33 6236 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除