- 博客(15)
- 收藏
- 关注
原创 58同城——爬取步骤
以下这几个文件的构造:scrapy_ljw scrapy_ljw spiders a58tc.py items.py pipelines.py settings.py mysql_save.py run_58.pya58tc.py# -*- coding: ...
2018-08-27 23:36:39
3263
原创 Scrapy的文件结构 以及 几个文件之间的联系
(!!!————本篇博客以 ” 伯乐在线 “ 网站为例————!!!)Scrapy的文件结构1. items.py ———(是定义scrapy内部数据的文件 )# (1) items.py 里的类都是继承 scrapy.item,如:# (2) 这个类里边所有的属性都等于scrapy.Field() class BoleItem(scrapy.Item): ...
2018-08-25 01:08:13
1478
原创 selenium 自动化检测——2
from selenuim import webdriver import time# 获取一个浏览器操作对象driver = webdriver.Chrome()url = 'http://www.baidu.com'# 在该浏览器打开指定url页面driver.get(url)# 通过 id 找到百度的搜素框 并把要搜索的内容的 关键词 输入进去driver.find_...
2018-08-21 21:34:35
258
原创 selenium 自动化检测 —— 1
from selenium import webdriverimport timeurl = 'http://www.baidu.com'1. 获取一个谷歌浏览器的操作对象driver = webdriver.Chrome()2. 通过url打开指定页面driver.get(url)3. 获取html的内容html_str = driver.page_...
2018-08-21 20:55:02
344
原创 进程、线程以及它们之间的区别
进程 程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。进程只能在一个时间干一件事,如果想同时干两件事或多件事,进程就无能为力了。进程在执行的过程中如果阻塞,例如等待输入,整个进程就会挂起,即使进程中有些工作不依赖于输入的数据...
2018-08-20 22:46:35
493
原创 xueqiu_mysql (雪球数据存到数据库)
import jsonfrom urllib import requestimport pymysqldb = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='ljw')cursor = db.cursor()b=-1i=0while i<4: ...
2018-08-15 23:23:24
1129
原创 正则练习 re_my
import re# 1. 以 h 开头# 2. 以h开头后面跟着一个字符# 3. 以h开头后面跟着任意数量的数字# 4. 以3结尾# 5. 以h开头,以3结尾,中间只有一个字符串# 6. 以h开头,以3结尾,中间可以存在任意数量的字符串'''match(参数一,参数二) 函数是从头开始匹配 不用写^ 默认就是从头匹配 第一个参数是:正则匹配 第二个参数是:被匹配的字...
2018-08-15 22:17:25
199
原创 requests_xcdl(requests_西刺代理)
import requestsurl = 'http://www.xicidaili.com'# <!-- 添加proxy -->proxy = { 'http':'http://root:Yao+ql2011@101.200.50.18:8118'}# <!-- 添加 headers -->headers = { 'User-Agent':'M...
2018-08-15 22:16:42
295
原创 requests_baidufanyi(用requests 实现的百度翻译)
import requestsimport jsonurl = 'http://fanyi.baidu.com/sug' # sug是打开f12以后 重新输入需要翻译的词即可从Network中找到def translate(kw): form = { 'kw':kw } response = requests.post(url,data=for...
2018-08-15 22:14:22
997
原创 2018-8-14 人人网——2
from day02.tuozhan_all2 import sessionimport json# urlurl = 'http://www.renren.com/ajaxLogin/login?1=1&amp;uniqueTimestamp=2018721441132'# formform = { 'email': '18510556963', 'icode': ''...
2018-08-14 22:47:42
1536
原创 2018-8-14 人人网——1
导包from day02.tuozhan_all import post, getimport jsonfrom urllib import request, parsefrom http import cookiejar实例化CookieJar() 通过实例化的对象 保存cookiecookie_object = cookiejar.CookieJar()根据...
2018-08-14 22:44:29
869
原创 2018-8-14 人人网
from day02.tuozhan_all import get# 0. url# 1. 构造headers# 2. 调用get函数# 3. 保存页面url = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,application/xml;q...
2018-08-14 22:27:40
266
原创 tuozhan_all2(拓展_all_2)
from urllib import request, parsefrom urllib.error import HTTPError, URLError# 保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar.C...
2018-08-14 22:24:32
204
原创 tuozhan_all(拓展__all)
from urllib import request, parsefrom urllib.error import HTTPError, URLError#a. get(url, headers=None)def get(url, headers=None): return urlrequests(url, headers=headers)def post(url, form...
2018-08-13 22:56:55
200
原创 cookie和session的区别
cookie和session的区别 关键词 cookie session 存储机制 cookie 保存在客户端浏览器上 session 保存在服务器上 是否安全 相对不安全 相对安全(存放登陆信息等重要信息) 保存格式 字符串 对象 是否占用服务器资源 不占用 占用 存储限制 &lt;10k 理...
2018-08-13 22:52:34
167
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅