jingwenliu-优快云博客

原创 58同城——爬取步骤

以下这几个文件的构造：scrapy_ljw scrapy_ljw spiders a58tc.py items.py pipelines.py settings.py mysql_save.py run_58.pya58tc.py# -*- coding: ...

2018-08-27 23:36:39 3263

原创 Scrapy的文件结构以及几个文件之间的联系

（！！！————本篇博客以 ” 伯乐在线 “ 网站为例————！！！）Scrapy的文件结构1. items.py ———（是定义scrapy内部数据的文件）# (1) items.py 里的类都是继承 scrapy.item，如：# (2) 这个类里边所有的属性都等于scrapy.Field() class BoleItem(scrapy.Item): ...

2018-08-25 01:08:13 1478

原创 selenium 自动化检测——2

from selenuim import webdriver import time# 获取一个浏览器操作对象driver = webdriver.Chrome()url = 'http://www.baidu.com'# 在该浏览器打开指定url页面driver.get(url)# 通过 id 找到百度的搜素框并把要搜索的内容的关键词输入进去driver.find_...

2018-08-21 21:34:35 258

原创 selenium 自动化检测 —— 1

from selenium import webdriverimport timeurl = 'http://www.baidu.com'1. 获取一个谷歌浏览器的操作对象driver = webdriver.Chrome()2. 通过url打开指定页面driver.get(url)3. 获取html的内容html_str = driver.page_...

2018-08-21 20:55:02 344

原创进程、线程以及它们之间的区别

进程程序并不能单独运行，只有将程序装载到内存中，系统为它分配资源才能运行，而这种执行的程序就称之为进程。程序和进程的区别就在于：程序是指令的集合，它是进程运行的静态描述文本；进程是程序的一次执行活动，属于动态概念。进程只能在一个时间干一件事，如果想同时干两件事或多件事，进程就无能为力了。进程在执行的过程中如果阻塞，例如等待输入，整个进程就会挂起，即使进程中有些工作不依赖于输入的数据...

2018-08-20 22:46:35 493

原创 xueqiu_mysql （雪球数据存到数据库）

import jsonfrom urllib import requestimport pymysqldb = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='ljw')cursor = db.cursor()b=-1i=0while i<4: ...

2018-08-15 23:23:24 1129

原创正则练习 re_my

import re# 1. 以 h 开头# 2. 以h开头后面跟着一个字符# 3. 以h开头后面跟着任意数量的数字# 4. 以3结尾# 5. 以h开头，以3结尾，中间只有一个字符串# 6. 以h开头，以3结尾，中间可以存在任意数量的字符串'''match(参数一，参数二) 函数是从头开始匹配不用写^ 默认就是从头匹配第一个参数是：正则匹配第二个参数是：被匹配的字...

2018-08-15 22:17:25 199

原创 requests_xcdl（requests_西刺代理）

import requestsurl = 'http://www.xicidaili.com'# proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118'}# headers = { 'User-Agent':'M...

2018-08-15 22:16:42 295

原创 requests_baidufanyi（用requests 实现的百度翻译）

import requestsimport jsonurl = 'http://fanyi.baidu.com/sug' # sug是打开f12以后重新输入需要翻译的词即可从Network中找到def translate(kw): form = { 'kw':kw } response = requests.post(url,data=for...

2018-08-15 22:14:22 997

原创 2018-8-14 人人网——2

from day02.tuozhan_all2 import sessionimport json# urlurl = 'http://www.renren.com/ajaxLogin/login?1=1&amp;uniqueTimestamp=2018721441132'# formform = { 'email': '18510556963', 'icode': ''...

2018-08-14 22:47:42 1536

原创 2018-8-14 人人网——1

导包from day02.tuozhan_all import post, getimport jsonfrom urllib import request, parsefrom http import cookiejar实例化CookieJar（）通过实例化的对象保存cookiecookie_object = cookiejar.CookieJar()根据...

2018-08-14 22:44:29 869

原创 2018-8-14 人人网

from day02.tuozhan_all import get# 0. url# 1. 构造headers# 2. 调用get函数# 3. 保存页面url = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,application/xml;q...

2018-08-14 22:27:40 266

原创 tuozhan_all2（拓展_all_2）

from urllib import request, parsefrom urllib.error import HTTPError, URLError# 保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar.C...

2018-08-14 22:24:32 204

原创 tuozhan_all（拓展__all）

from urllib import request, parsefrom urllib.error import HTTPError, URLError#a. get(url, headers=None)def get(url, headers=None): return urlrequests(url, headers=headers)def post(url, form...

2018-08-13 22:56:55 200

原创 cookie和session的区别

　cookie和session的区别关键词 cookie session 存储机制 cookie 保存在客户端浏览器上 session 保存在服务器上是否安全相对不安全相对安全（存放登陆信息等重要信息）保存格式字符串对象是否占用服务器资源不占用占用存储限制 &lt;10k 理...

2018-08-13 22:52:34 167

jingwenliu的博客