- 博客(108)
- 收藏
- 关注
原创 bs4-爬取图片--xpath复习
# -*- coding:utf-8 -*-from urllib import requestfrom bs4 import BeautifulSoupimport osfrom fake_useragent import UserAgentagent = UserAgent()class IvskySpider(object): def __init__(self): se...
2018-03-09 13:22:21
978
原创 bs4_lxml的基本用法(不同于正则和xpath)
1.本文件需要引用的index.html文件代码为:<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>bs4测试网页</title> <style>
2018-03-08 20:14:54
4295
1
原创 正则的应用--读取本地文件2--网页版解析--豆瓣
第一部分读取本地文件1.进入豆瓣主页,获取其网页源代码,保存下载到本地,由于代码过多,这里就不展现出来了2.进入影评主页,获取源代码,保存下载到本地3.在本地文件中进行解析test.json文件中代码为:{"body":"\n \n \n \n \n <div class=\"main-bd\">\n\n\n \n \n \n\n <div id=\...
2018-03-08 19:36:15
580
原创 正则的应用--读取本地文件1--例如豆瓣-codecs
1.之前ip没有被封,可以查询出 所有的评论# -*- coding:utf-8 -*-# codecs 打开文件可以指定编码方式import codecsimport refrom urllib import requestimport jsonfrom fake_useragent import UserAgentagent = UserAgent()with codecs....
2018-03-08 19:17:36
1413
原创 正则的应用--爬取百度贴吧NBA的精品贴详细的回复信息
1.代码中需要引入的包import refrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()from tool import Toolsimport xlwt2.解析url爬取-----精品贴https://tieba.baidu.com/f?kw=nba&tab=good&...
2018-03-08 19:09:06
435
原创 正则的应用--糗事百科(数据写入数据库中)
一.基本知识1.delete from qsbk先删除数据库中的数据,在执行本文件2.需要引入的包import reimport timefrom tool import Tools, DBManagerfrom urllib import requestfrom fake_useragent import UserAgentagent = UserAgent()3.当网页在第一页的时候...
2018-03-07 18:16:44
259
原创 工具类 2018-3-7代码中引用
1.工具类自己另外写一个文件,该文件中的类,满足对数据的某些处理,不用和数据类在一个文件中数据类文件可以直接引用# -*- coding:utf-8 -*-import reimport sqlite3class Tools(object): @classmethod def strip_char(cls, string): """ :p...
2018-03-07 18:06:56
242
原创 代理ip的用法
1.代理ip用法例1 url = 'http://www.baidu.com' # 准备代理ip proxy_ip = { 'http': '139.224.135.94:80' } # 根据代理ip创建代理对象 proxy_handler = request.ProxyHandler(proxy_ip) # 自己创建一个发送...
2018-03-07 18:03:46
18383
原创 正则的应用--快代理网站
网站被封,自己写的只能获取一页数据,老师写的,不能检测是否正确自己:# -*- coding:utf-8 -*-import refrom urllib import request, parseimport xlwtfrom fake_useragent import UserAgentagent = UserAgent()class IPSpider(object): ...
2018-03-07 18:00:00
248
原创 正则的应用-爬取内涵段子(加载更多-时间戳)
一.基本知识1.下面的网页中'http://neihanshequ.com/joke/?is_json=0&app_name=neihanshequ_web&max_time=' is_json=0获取到的是html数据is_json=1获取到的是json数据2.时间戳只要有max_time就一直有数据本次爬取的网页没有下一页,只有“加载更多”,只有获取到max_time(不同)...
2018-03-07 17:56:42
415
原创 正则的应用--智联招聘--parse.urlencode/request/xlwt
一.包的引用1.正则import re2.请求from urllib import request, parse3. xlwt 操作Excel表格import xlwt例如:# 1.创建 一个工作簿对象 workbook = xlwt.Workbook(encoding='utf-8') # 2.添加一张表 sheet = workbook.add_sheet('pytho...
2018-03-06 17:27:01
390
原创 正则应用--爬取天堂图片网图片(普通版本,函数版本,类版本)
第一部分:普通版本一.os包的用法先引入import os# 如果文件夹不存在,创建文件夹 if not os.path.exists(title): # 创建文件夹 os.makedirs(title)二.用urlopen发起请求 发起请求,接收响应response = request.urlopen(req) 将返回的字节数据 转换为str数据html...
2018-03-06 17:01:40
671
原创 使用urllib发起请求- urlopen发起请求read/decode/getcode/info/geturl-post请求抽屉网
引入本文件需要用到的包import urllibfrom urllib import request, parse, response一.使用urllib发起请求.read() 函数读取响应中的响应数据decode() 将bytes类型的数据转换为str类型rep = request.urlopen('http://www.baidu.com')# .read() 函数读取响应中的响应数...
2018-03-05 19:47:50
1254
原创 正则re.S-验证手机号是否正确
1.带有\n换行符的字符串re.S 作用就是会将大字符串中的换行符看做一个普通的字符进行处理,这样可以\n也可以匹配到# -*- coding:utf-8 -*-import re# 带有\n换行符的字符串string = ''' aaaaaaa ssss dd f aasd'''# re.S 作用就是会将大字符串中的换行符...
2018-03-05 18:58:15
580
原创 正则函数--search/match/findall/sub/split
1.正则函数: 1.match() 2.search() match,search结果只能匹配一个 2.findall()findall()最终返回的一个列表,列表中是符合正则条件的所有结果string = 'hell8oworldhe8llo,h4e,hell,h6ool'# string.replace()pattern = re.compile('h.*?l')#...
2018-03-05 18:18:35
380
原创 正则表达式- match() -group()-search()-贪婪模式
一. re模块是python中内置的用来支持正则表达式的模块二.正则表达式的运用 1.准备正则string = 'hello world'pattern = re.compile('world') 2.使用正则表达式,从大字符串中搜索符合正则的字符串 match() 参数:1.正则表达式2.要进行查找的大字符串 match() 如果找到结果,返回对象结果,没有找到返回No...
2018-03-05 18:07:32
3229
原创 DNS、请求报文、响应报文,爬虫与反爬虫之间的斗争/目的,cookie和session的区别
1.DNS DNS 域名解析服务 把域名转换换为ip地址再进行访问 DNS:114.114.114.114 8.8.8.82. 请求报文: 请求行:请求方法,请求地址,协议版本 请求头:User-Agent,Cookie,Host... 空行 请求数据3. 响应报文: 响应行:协议版本,状态码(200、302、404...
2018-03-05 12:20:51
655
原创 基于scrapy框架下爬取智联招聘--并把信息存储下来
1.在之前爬取的JobSpider中的Terminal终端中,直接创建新的文件scrapy genspider zlzp baidu.com2.开始解析数据1) 先大致规划一下需要几个函数2) 函数1跳转到函数2使用 yield scrapy.Request(url,callback,meta,dont_filter)# -*- coding: utf-8 -*-import scrapyfr...
2018-03-02 18:00:32
2639
1
原创 scrapy框架下爬取51job网站信息,并存储到表格中
1. 通过命令创建项目scrapy startproject JobSpider2. 用pycharm打开项目3. 通过命令创建爬虫scrapy genspider job baidu.com4. 配置settingsrobots_obey=FalseDownload_delay=0.5Cookie_enable=FalseDOWNLOADER_MIDDLEWARES = { 'Job...
2018-03-02 17:53:15
2387
2
原创 利用scrapy框架爬取并下载天堂图片网的图片和数据
1. 通过命令创建项目 scrapy startproject IvskySpider2. 用pycharm打开项目3. 通过命令创建爬虫(Terminal中输入以下命令) scrapy genspider ivsky ivsky.com4. 配置settings robots_obey=False Download_delay=0.5 ...
2018-03-01 18:55:47
963
原创 scrapy框架的使用方法
1.第一步:创建爬虫项目2.使用pycharm打开爬虫项目打开结果如下(目录结构):3.第三步:创建爬虫说明:在ivskyspider文件中创建,所以需要先进入ivskyspider说明:一个项目可以创建多个爬虫文件4.第四步:打开新建的爬虫文件ivsky.py文件结构如下:5.执行代码:方法一:打开Teminal方法二:在第一个IvskySpider的位置新建文件不想在终端运行程序时,先新建此文...
2018-03-01 17:50:23
5951
原创 xpath的相关知识--51job获取的数据写入表格
第一部分一.网页的解析方式 1.xpath(简单) 2.正则(最难) 3.css(需要懂网页的css) 4.bs4(比xpath难一点点)二.xpath的基本方法 1.环境准备: 火狐浏览器(49.0以下) firebug firepath 2.基本操作 // 元素标签名 例如://div,查...
2018-02-28 20:17:08
873
1
原创 将获取的电影数据写入网页中--css
第一部分1.网页模板:<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>电影信息网</title> <link rel="stylesheet" href=
2018-02-28 20:02:06
440
原创 session自动登录抽屉网(自动携带cookie)
1.获取useragent数据from fake_useragent import UserAgentagent = UserAgent()2. 如果通过session发请求,会自动携带cookie session简化了cookie的作用session = requests.session()3.完整代码# -*- coding:utf-8 -*-import requestsfrom fak...
2018-02-28 19:44:51
461
原创 cookie用法--抽屉网的自动登录(cookie是通过代码自动获取的)
1.引用自己定义一个类from random_agent import RandomAgent2. 引用系统的包from fake_useragent import UserAgent3.创建对象agent = UserAgent()4. 不要重复造轮子 pip search 工具包名字 例如:pip search UserAgent" pip install fake_useragent5...
2018-02-28 19:40:06
972
原创 cookie用法
1.Cookie基础概念 Cookie:小蛋糕,饼干 Cookie特点: 1.用于存储用户的某些信息(不包含隐私信息) 2.只用于存储少量数据 3.cookie是个文件,位于浏览器 4.cookie有生命周期,一旦网页退出,cookie就失效了2.例子:Cookie登录 抽屉网url = "http://dig.chouti.c...
2018-02-27 19:00:36
583
原创 基于requests的歌曲查询--两种写入文件的方法
代码实现功能: 将输入的要查询的歌曲名字存入name.txt文件中 判断输入的名字是否在name.txt文件中,来确定是否可以写入文档 将搜索到的歌曲存入song.txt文件中1.代码中需要引入的包import requestsimport json# 操作文件的包import os 2.判断输入的名字是否为空或者换...
2018-02-27 18:21:42
475
原创 常见的requests的应用--GET/POST/PUT/DELETE/OPTION/HEAD
1. 下面四个都可以用于发送网页请求# import urllib# import urllib2# import urllib3# import httpimport requests2..使用requests发送get/post/put/delete等请求 GTT参数 URL?参数1=内容1&参数2=内容2... 注意:参数部分不能出现空格或者特殊字符3.例如:response ...
2018-02-27 18:13:12
1907
原创 概念总结--常见的状态码
1.常用状态码 1xx 2xx:一般表示成功 3xx:一般表示重定向 4xx:一般表示客户端错误 5xx:一般表示服务器错误 200 表示成功 404 服务器无法找到被请求页面 403 服务器拒绝访问权限不够 Forbidden 500 请求未完成,服务器遇到不可预知的情况 302 2.常用的请求方法 GET/POST ...
2018-02-27 18:07:15
423
原创 通过修改请求头的User-Agent发送请求
1. 抓包工具 Fiddler Charles:Charles可以监控浏览器发送和接收的所有数据2.get的参数 参数1:url,填网址 参数2:params,网址后需要添加的参数 参数3:**kwargs ,不定长键值对参数,一般 key=value headers={} cookies={} 或者 CookieJar timeout=小数或者元组 3....
2018-02-27 18:05:15
14660
原创 号码归属地查询
# -*- coding:utf-8 -*-# 手机号归属地查询import requestsimport json# phone_number = input('请输入要查询的手机号:')phone = "13512345678"url = "https://www.baifubao.com/callback?cmd=1059&callback=phone&phone...
2018-02-26 19:10:11
484
原创 带框架--网页设计
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title> <link rel="stylesheet" href="boots
2018-02-26 19:08:42
560
原创 html一些常用的标签
完整代码:<html> <head> <meta charset="utf-8"> <title>网页标题</title> <!--<link rel="stylesheet" href="">-->
2018-02-26 19:06:14
171
原创 电影下载
# -*- coding:utf-8 -*-import requestsfrom lxml import etreeurl = "https://www.dy2018.com/html/gndy/dyzz/index.html"response = requests.get(url)# 统一网页的编码格式# 下面这句话最好加上# response.encoding = response....
2018-02-26 19:00:28
2368
原创 图片下载
# -*- coding:utf-8 -*-# 获取网页源码/下载网页/图片/视频/音频...import requests# 解析网页相关数据from lxml import etree# 操作文件夹/路径import os# 1.下载网页源码# 2.解析网页源码(难度比较大)# 3.存储相关数据url = "http://www.ivsky.com/tupian/ziranfengguang/...
2018-02-26 18:55:02
248
原创 获取网页--爬取网页的图片存放在不同的文件夹中--下载图片--requests/lxml(etree)/os
# -*- coding:utf-8 -*-import requestsfrom lxml import etreeimport os第一部分:爬取网页的图片存放在不同的文件夹中1.获取网页,通过requests工具包实现(集成环境自带) 如果没有就手动安装 pip install requestsurl = "http://www.ivsky.com/tupian/ziranfen...
2018-02-24 17:51:37
903
原创 手机销售系统--数据库版--打包
# -*- coding:utf-8 -*-# 函数与函数之间空两行,class类中空一行import sqlite3# 1.轻量级数据库 2.跨平台 3.关系型数据库 4.python内置模块phone_list = []1.查询函数def query_phone(): results = cursor.execute('select * from phone') state...
2018-02-24 17:37:09
1152
原创 配置python3.6的环境--文件打包
1.卸载原来安装的python2和3版本的python,根据以下教程下载安装新的python环境网址为:https://864071694.gitbooks.io/pythonfullstackbook/content/di-er-82823a-python-huan-jing-an-zhuang/windowsxi-tong.html注意:不可以修改文件anaconda3的名字,否则会出现错误2...
2018-02-24 15:44:14
238
原创 学生信息存储到数据库中
# -*- coding:utf-8 -*-import sqlite3#模块类class Student(object): connect = sqlite3.connect('datebase.db') cursor = connect.cursor() sql = 'create table Stu(num integer primary key,nam
2018-02-05 20:19:43
3673
原创 数据库--查询
# -*- coding:utf-8 -*-import sqlite3# 1.连接数据库文件connect = sqlite3.connect('datebase.db')# 2.获取游标cursor = connect.cursor()# 3.准备sql语句# *表示查询所有字段,可以查询指定字段数据# N%查找以N开头的 %N查找以N结尾的 %N% 包含N的
2018-02-05 20:18:38
313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人