- 博客(8)
- 收藏
- 关注
原创 Django(一)
初识Django 软件框架 一个软件框架是由其中各个软件模块组成的 ,每一个模块都有特定的功能,模块与模块之间通过相互配合来完成软件的开发 软件框架是针对某一类软件设计问题而产生的 MVC 框架 软件设计模式 MVC 的产生理念:分工,让专门的人做专门的事 MVC的核心思想: 解耦 M:Model ,模型,和数据库进行交互 V:View 视图,产生HTML页面 C : Controller 控制器,接收请求,进行处理,与M和V进行交互,返回应答。 MVT Django中的三个
2020-05-28 12:11:45
168
原创 爬虫(七)笔记
动态html 技术介绍## selenium 和 phantomjs selenium selenium是一个Web 的自动化测试工具,最初是为了网站自动化测试而开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏 phantomjs phantomjs 是一个基于Webkit的“无界面”浏览器,它会把网站加载到内存并执行页面上的JavaScript 安装一下 selen
2020-05-20 21:58:10
171
原创 爬虫(六)B站案例分析
一.准备url 要爬取的B站的鬼畜部分,选择了教程演示(视频个数比较少),在搜索里进行页面上信息的搜索来确定url 得到url: https://api.bilibili.com/x/web-interface/newlist?callback=jqueryCallback_bili_8038458089269198&rid=127&type=0&pn=1&ps=20&jsonp=jsonp&_=1589855603296 url 进行处理 对url
2020-05-19 22:19:21
974
原创 爬虫(五)糗事百科案例分析
参照爬虫(四)套路总结,实现糗事百科数据的爬取. 一.准备url 爬取糗事百科的段子部分,确定url 获取url列表 二.发送请求,获取响应 三.提取数据 确定位置 四.保存 代码如下: import requests import json from lxml import etree class Qiubaispider(): def __init__(self): self.url_temp ="https://www.qiushibaike.com/text
2020-05-17 22:50:52
294
原创 爬虫(四)套路总结
爬虫(四)套路总结 一.准备url 准备start_url url 地址规律不明显,总数不确定 通过代码提取下一页的url xpath 寻找url地址,部分参数在当前的响应中(比如,当前页码数和总的页码数在当前的响应中) 准备url_list 页码总数明显 url地址规律明显 二.发送请求,获取响应 添加随机的User-Agent,反反爬虫 添加随机的代理IP 在对方判断出我们是爬虫之后,应该添加更多的headers字段,包括cookie cooki的处理可以使用session 来j
2020-05-17 22:29:00
214
原创 爬虫(三)笔记
正则表达式 常用正则表达式的方法: re.compile(编译) pattern.match(从头找一个) pattern.search(找一个) pattern.findall(找所有) pattern.sub(替换) 正则使用的注意点 re.findall(“a(.*?)b”,“str”),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果 原始字符串r 待匹配字符串中有反斜杠的时候,使用r ,能够忽视反斜杠带来的转义的效果 点号默认情况匹配不到\n ‘\s’能够匹配空白字符,不仅仅包含空格
2020-05-16 22:30:34
197
原创 爬虫(二)笔记
数据提取方法 基础知识 Json 知识点 正则表达式 xpath和lxml 数据分类 结构化数据 Json,xml等 处理方法:转化为python数据类型 非结构化数据 html 处理方法:正则表达式,xpath 数据提取之JSON 由于把json 数据转化成python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL json 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互
2020-05-15 21:20:23
152
原创 爬虫(一)笔记
爬虫的概念 爬虫是模拟浏览器发送请求,获取响应 爬虫的流程 url —> 发送请求,获取响应 —>提取数据—>保存 发送请求,获取响应 —>提取url 页面上的数据在哪里 当前url地址对应的响应中 其他的url地址对应的响应中 比如Ajax 请求中 js生成的 部分数据在响应中 全部通过js生成 requests 中解决编解码的方法 修改编码方式:response.encoding=’’ response.content.decode() respons
2020-05-14 12:38:51
141
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅