自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_42485847的博客

原创 Django（一）

初识Django 软件框架一个软件框架是由其中各个软件模块组成的，每一个模块都有特定的功能，模块与模块之间通过相互配合来完成软件的开发软件框架是针对某一类软件设计问题而产生的 MVC 框架软件设计模式 MVC 的产生理念：分工，让专门的人做专门的事 MVC的核心思想：解耦 M:Model ，模型，和数据库进行交互 V:View 视图，产生HTML页面 C ： Controller 控制器，接收请求，进行处理，与M和V进行交互，返回应答。 MVT Django中的三个

2020-05-28 12:11:45 168

原创爬虫（七）笔记

动态html 技术介绍## selenium 和 phantomjs selenium selenium是一个Web 的自动化测试工具，最初是为了网站自动化测试而开发的，selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏 phantomjs phantomjs 是一个基于Webkit的“无界面”浏览器，它会把网站加载到内存并执行页面上的JavaScript 安装一下 selen

2020-05-20 21:58:10 171

原创爬虫（六）B站案例分析

一.准备url 要爬取的B站的鬼畜部分，选择了教程演示（视频个数比较少），在搜索里进行页面上信息的搜索来确定url 得到url: https://api.bilibili.com/x/web-interface/newlist?callback=jqueryCallback_bili_8038458089269198&rid=127&type=0&pn=1&ps=20&jsonp=jsonp&_=1589855603296 url 进行处理对url

2020-05-19 22:19:21 974

原创爬虫（五）糗事百科案例分析

参照爬虫(四)套路总结,实现糗事百科数据的爬取. 一.准备url 爬取糗事百科的段子部分,确定url 获取url列表二.发送请求，获取响应三.提取数据确定位置四.保存代码如下： import requests import json from lxml import etree class Qiubaispider(): def __init__(self): self.url_temp ="https://www.qiushibaike.com/text

2020-05-17 22:50:52 294

原创爬虫(四)套路总结

爬虫(四)套路总结一.准备url 准备start_url url 地址规律不明显，总数不确定通过代码提取下一页的url xpath 寻找url地址，部分参数在当前的响应中（比如，当前页码数和总的页码数在当前的响应中）准备url_list 页码总数明显 url地址规律明显二.发送请求，获取响应添加随机的User-Agent，反反爬虫添加随机的代理IP 在对方判断出我们是爬虫之后，应该添加更多的headers字段，包括cookie cooki的处理可以使用session 来j

2020-05-17 22:29:00 214

原创爬虫（三）笔记

正则表达式常用正则表达式的方法： re.compile(编译) pattern.match(从头找一个) pattern.search(找一个) pattern.findall(找所有) pattern.sub(替换) 正则使用的注意点 re.findall(“a(.*?)b”,“str”)，能够返回括号中的内容，括号前后的内容起到定位和过滤的效果原始字符串r 待匹配字符串中有反斜杠的时候，使用r ,能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n ‘\s’能够匹配空白字符，不仅仅包含空格

2020-05-16 22:30:34 197

原创爬虫（二）笔记

数据提取方法基础知识 Json 知识点正则表达式 xpath和lxml 数据分类结构化数据 Json,xml等处理方法：转化为python数据类型非结构化数据 html 处理方法：正则表达式，xpath 数据提取之JSON 由于把json 数据转化成python内建数据类型很简单，所以爬虫中，如果我们能够找到返回json数据的URL，就会尽量使用这种URL json 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互

2020-05-15 21:20:23 152

原创爬虫（一）笔记

爬虫的概念爬虫是模拟浏览器发送请求，获取响应爬虫的流程 url —> 发送请求，获取响应 —>提取数据—>保存发送请求，获取响应 —>提取url 页面上的数据在哪里当前url地址对应的响应中其他的url地址对应的响应中比如Ajax 请求中 js生成的部分数据在响应中全部通过js生成 requests 中解决编解码的方法修改编码方式：response.encoding=’’ response.content.decode() respons

2020-05-14 12:38:51 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除