- 博客(11)
- 收藏
- 关注
原创 bs4数据解析用法
bs4进行数据解析 数据解析的原理: 1.标签定位 2.提取标签、标签属性中存储的数据值 bs4数据解析的原理: 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 环境安装: pip install bs4 pip install lxml 如何实例化BeautifulSoup对象: from bs4 import BeautifulSoup 对象的实例化: 1.将本地的html文档中的数据加
2021-09-06 17:28:57
231
原创 python爬虫之爬取天气预报
方法一 """ 需求: 1.爬取全国所有的城市名称以及对应的气温 2.保存所有的城市名称以及对应的气温到为csv文件 目标url: 1.华北地区:http://www.weather.com.cn/textFC/hb.shtml 2.东北地区:http://www.weather.com.cn/textFC/db.shtml 3.华东地区:http://www.weather.com.cn/textFC/hd.shtml 4.华中地区:http://www.weather.com.cn/textFC/hz
2021-09-05 23:06:31
1473
原创 python爬虫之xpath和xml应用——爬取豆瓣评分
# https://movie.douban.com/top250?start=0 # https://movie.douban.com/top250?start=25&filter= # https://movie.douban.com/top250?start=50&filter= import requests #获取源代码 import lxml #获取电影项目 from lxml import etree import csv ''' 第一步:获取网页源码 (1)分析目标url
2021-09-04 23:42:24
273
原创 遇到csv文件中有换行的乱码解决方法
遇到csv文件中有换行的乱码的话: 1.使用记事本打开CSV文件 2.文件-另存为,编码方式选择ANSI 3.保存完毕后,再用EXCEL打开这个文件就不会出现乱码的情况。
2021-09-04 20:21:18
1163
原创 正则表达式|爬取百度图片
第一步:明确需求,转换图片 需求:爬取百度图片中关于头像的图片,并保存 网址:https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=头像&ie=utf-8&ie=utf-8 观察页面:图片列式以瀑布式罗列,没有一页两页,只有拉动鼠标,不断加载图片,爬取量过大,没有明确数量 转换页
2021-09-04 14:13:27
956
原创 python|cookie和session介绍——以12306验证码破解
ccokie和session引入:在浏览一些网页时,要想进行个人操作,就需要 我们的账户以识别个人身份,这时需要输入账户和密码。 注意:账户和密码不显示在网页上面,通常是存储在formdata内,要不然个人信息就会泄露,而这种请求就是post请求。 而post请求就涉及到cookies和session两个参数。 1.1定义 cookie:记录身份信息。当登录一个网站,都会在登录页面看到一个可勾选的选项“记住我”。 服务器就会生成一个cookies和123
2021-08-28 11:05:00
935
原创 python爬虫|处理不信任SSL证书
1.request模块安装 (1)cmd中pip install requests (2)开发者工具 pycharm里面的Terminal安装 pycharm的file-setting-project-±输入要安装的包 2.requests模块 2.1常用方法 requests.get(网址)方法 requests.get(url,headers=headers) import requests #发生请求,获取响应 headers = { 'User-Agent': 'Mozill
2021-08-09 18:21:01
816
原创 python爬虫|post的响应,利用python实现有道翻译在线翻译
1.post请求方式 1.1 post和get的区别 1.2 post特点 2.利用request.urllib实现 2.1 寻找网页源代码翻译的位置 2.2 输入查询内容并转为字节流 2.3 利用request.urllib实现请求 2.4 美化输出结果 3.利用request实现 请求方式有两种,分别是get和post。 介绍post请求方式获取 1.post的请求方式 1.1 post ...
2021-08-09 16:42:13
315
原创 打印某月日历
打印某月日历 import calendar cal= calendar.month(2021,1) print("以下输出2021年1月日历:") print(cal)
2021-08-09 16:12:11
181
原创 python爬虫|urllib.request模块和urllib.parse模块使用
1 urllib.requst使用 1.1 基本介绍 1.2 urllib.request.urlopen 1.3 urllib.request.Request 2 urllib.parse 模块使用 2.1 urllib.parse.encode() 2.2 urllib.parse.quote()的使用 2.3 综合练习 3 爬虫百度贴吧练习 1. urllib requst使用 1.1 基本介绍 (1)介绍: urllib 的 request 模块可以发送请求,返回 response。 (2)用法:u
2021-08-05 18:44:59
654
原创 python|爬虫基本概念介绍
爬虫介绍 通讯协议 1.端口 逻辑端口 2.进行数据通讯分为几? 找到对方ip 将数据发送到对方指定的应用程序上 定义通讯规则 3.通讯协议 TCP/IP协议 HTTP HTTPS 爬虫介绍 什么是爬虫? 代替人去模拟浏览器进行网页操作 为什么需要爬虫? 为其他程序提供数据源 企业获取数据的方式? 企业自有的数据;第三方平台购买的数据;爬虫工程师来爬取数据。 python做爬虫的优势? 简洁,速度快,高效,第三方库多 爬虫的分类? 通用网络爬虫:爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜
2021-08-05 18:19:22
120
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人