自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 58同城——爬取步骤

以下这几个文件的构造:scrapy_ljw scrapy_ljw spiders a58tc.py items.py pipelines.py settings.py mysql_save.py run_58.pya58tc.py# -*- coding: ...

2018-08-27 23:36:39 3263

原创 Scrapy的文件结构 以及 几个文件之间的联系

(!!!————本篇博客以 ” 伯乐在线 “ 网站为例————!!!)Scrapy的文件结构1. items.py ———(是定义scrapy内部数据的文件 )# (1) items.py 里的类都是继承 scrapy.item,如:# (2) 这个类里边所有的属性都等于scrapy.Field() class BoleItem(scrapy.Item): ...

2018-08-25 01:08:13 1478

原创 selenium 自动化检测——2

from selenuim import webdriver import time# 获取一个浏览器操作对象driver = webdriver.Chrome()url = 'http://www.baidu.com'# 在该浏览器打开指定url页面driver.get(url)# 通过 id 找到百度的搜素框 并把要搜索的内容的 关键词 输入进去driver.find_...

2018-08-21 21:34:35 258

原创 selenium 自动化检测 —— 1

from selenium import webdriverimport timeurl = 'http://www.baidu.com'1. 获取一个谷歌浏览器的操作对象driver = webdriver.Chrome()2. 通过url打开指定页面driver.get(url)3. 获取html的内容html_str = driver.page_...

2018-08-21 20:55:02 344

原创 进程、线程以及它们之间的区别

进程  程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。进程只能在一个时间干一件事,如果想同时干两件事或多件事,进程就无能为力了。进程在执行的过程中如果阻塞,例如等待输入,整个进程就会挂起,即使进程中有些工作不依赖于输入的数据...

2018-08-20 22:46:35 493

原创 xueqiu_mysql (雪球数据存到数据库)

import jsonfrom urllib import requestimport pymysqldb = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='ljw')cursor = db.cursor()b=-1i=0while i<4: ...

2018-08-15 23:23:24 1129

原创 正则练习 re_my

import re# 1. 以 h 开头# 2. 以h开头后面跟着一个字符# 3. 以h开头后面跟着任意数量的数字# 4. 以3结尾# 5. 以h开头,以3结尾,中间只有一个字符串# 6. 以h开头,以3结尾,中间可以存在任意数量的字符串'''match(参数一,参数二) 函数是从头开始匹配 不用写^ 默认就是从头匹配 第一个参数是:正则匹配 第二个参数是:被匹配的字...

2018-08-15 22:17:25 199

原创 requests_xcdl(requests_西刺代理)

import requestsurl = 'http://www.xicidaili.com'# <!-- 添加proxy -->proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118'}# <!-- 添加 headers -->headers = { 'User-Agent':'M...

2018-08-15 22:16:42 295

原创 requests_baidufanyi(用requests 实现的百度翻译)

import requestsimport jsonurl = 'http://fanyi.baidu.com/sug' # sug是打开f12以后 重新输入需要翻译的词即可从Network中找到def translate(kw): form = { 'kw':kw } response = requests.post(url,data=for...

2018-08-15 22:14:22 997

原创 2018-8-14 人人网——2

from day02.tuozhan_all2 import sessionimport json# urlurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721441132'# formform = { 'email': '18510556963', 'icode': ''...

2018-08-14 22:47:42 1536

原创 2018-8-14 人人网——1

导包from day02.tuozhan_all import post, getimport jsonfrom urllib import request, parsefrom http import cookiejar实例化CookieJar() 通过实例化的对象 保存cookiecookie_object = cookiejar.CookieJar()根据...

2018-08-14 22:44:29 869

原创 2018-8-14 人人网

from day02.tuozhan_all import get# 0. url# 1. 构造headers# 2. 调用get函数# 3. 保存页面url = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,application/xml;q...

2018-08-14 22:27:40 266

原创 tuozhan_all2(拓展_all_2)

from urllib import request, parsefrom urllib.error import HTTPError, URLError# 保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar.C...

2018-08-14 22:24:32 204

原创 tuozhan_all(拓展__all)

from urllib import request, parsefrom urllib.error import HTTPError, URLError#a. get(url, headers=None)def get(url, headers=None): return urlrequests(url, headers=headers)def post(url, form...

2018-08-13 22:56:55 200

原创 cookie和session的区别

 cookie和session的区别 关键词 cookie session 存储机制 cookie 保存在客户端浏览器上 session 保存在服务器上 是否安全 相对不安全 相对安全(存放登陆信息等重要信息) 保存格式 字符串 对象 是否占用服务器资源 不占用 占用 存储限制 <10k 理...

2018-08-13 22:52:34 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除