yx_ming-优快云博客

原创封装 python爬虫爬取妹子图到mysql数据库

import requestsfrom lxml import etreefrom mysql import MYSQL1. 声明一个lianjia函数def lianjia(url,headers): # 2.给于url路径 # url = 'http://bj.lianjia.com/ershoufang/pg2/' for i in range(...

2018-08-22 22:01:48 608

转载 BeautifulSoup作用

功能BeautifulSoup是用来从HTML或XML中提取数据的Python库。对于不具备良好格式的 HTML 内容，lxml 提供了两个有用的包：lxml.html 模块和 BeautifulSoup 解析器。导入使用方法： from bs4 import BeautifulSoup soup = BeautifulSoup(html)pycharm内导入Beaut...

2018-08-22 21:18:30 10344

原创简单实现webdriver网页驱动百度搜索、简书测试

Ⅰ、百度搜索 webdriver网页驱动测试# 导入 selenium 下的 webdriver(网页内驱动模块)from selenium import webdriver# 导入 time 时间模块import time# websriver(网页内驱动)Chrome(谷歌浏览器)driver = webdriver.Chrome()# time.sleep（睡眠等待...

2018-08-21 23:57:45 1343 1

原创什么是 Selenium 和 WebDriver?

Selenium是一个浏览器自动化操作框架。selenium主要由三种工具组成。 1.第一个工具——SeleniumIDE，是Firefox的扩展插件，支持用户录制和回访测试。录制/回访模式存在局限性，对许多用户来说并不适合。2.因此第二个工具——Selenium WebDriver提供了各种语言环境的API来支持更多控制权和编写符合标准软件开发实践的应用程序。3.最后一个工具——Sel...

2018-08-21 23:32:38 10741 2

原创 python基础链家网爬虫实战

封装一个与数据库连接的MySQL类文件命名为 mysql.py#导入pyMySQL包import pymysqlclass MYSQL(object): def __init__(self): self.db=pymysql.connect(host='127.0.0.1',user='root',password='123456',port=3306,d...

2018-08-20 23:20:12 890

原创 python爬取 xueqiu网数据存入MySQL数据库中

#导入包from urllib import request import json import pymysql#声名一个class类class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',u...

2018-08-17 00:37:45 841

原创基础反爬虫 cookie反爬 post / get 方法函数封装

from urllib import request,parsefrom urllib.error import HTTPError,URLError保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar...

2018-08-14 22:28:53 1635

原创 python爬虫人人网登陆

Day1:人人网登录第一种方式#导入模块from urllib import request,parse from http import cookiejar#保存cookie，实例化cookiecookie = cookiejar.CookieJar() handler = request.HTTPCookieProcessor(cookie) opener = req...

2018-08-14 22:20:06 388

原创 python爬虫基础函数的封装

from urllib import request,parse from urllib.error import HTTPError,URLError import json封装get（）请求def get(url,headers=None): return urlrequests(url,headers=headers)封装post（）请求def post(...

2018-08-13 22:25:46 514 1

原创 session 和 cookie的区别, 他们都是什么？

什么是Session？1.由于HTTP协议是无状态的协议，所以服务端需要记录用户的状态时，就需要用某种机制来识具体的用户，这个机制就是Session. 2.Session用于标识这个用户，并且跟踪用户，Session是保存在服务端的，有一个唯一标识。在服务端保存Session的方法很多，内存、数据库、文件都有。 3.大型的网站，一般会有专门的Session服务器集群，用来保存用户会话，这个...

2018-08-13 20:45:33 6236 1

yx_ming的博客