
python学习
不会秃头
这个作者很懒,什么都没留下…
展开
-
xpath解析简历压缩包 爬取下载压缩包到本地
爬取网站:https://sc.chinaz.com/jianli/biaoge.html 中的模板下载到本地(压缩包.rar格式)这里只挑了一个免费的进行下载注意:压缩包为二进制格式数据,需要使用content来接收# 爬取网站:https://sc.chinaz.com/jianli/biaoge.html # 中的模板下载到本地(压缩包.rar格式) 这里只挑了一个免费的进行下载import requestsfrom lxml import etreeif __...原创 2021-04-21 23:02:05 · 597 阅读 · 1 评论 -
xpath解析图片 爬取图片到本地
爬取https://pic.netbian.com/4kdongwu/中的图片,存储到本地。难点:1.获取图片地址后发送请求,响应对象为二进制格式的,要同content接收2.写入图片用 'wb'# 爬取 https://pic.netbian.com/4kdongwu/ 中的图片,存储到本地。import requestsfrom lxml import etreeimport osif __name__ == '__main__': # 创建存爬取到照片的文件夹 ..原创 2021-04-21 22:59:17 · 664 阅读 · 1 评论 -
设置响应对象的编码格式
设置响应对象的编码格式爬虫爬取到的数据乱码?在发送请求完获取响应对象response对象后,需要对response对象设置编码格式方式:response.encoding = response.apparent_encoding其中response.apparent_encoding为获取响应对象的编码格式response.encoding为设置对象的编码格式# 网页源码response = requests.get(url, headers)# 设置响应对象的编码格式#原创 2021-04-10 21:00:52 · 2593 阅读 · 1 评论 -
python for循环方式
python for循环方式# 能够获取对应的索引for index in range(len(photo_url_list)): photo_url = 'https://pic.netbian.com'+photo_url_list[index]迭代的方式range(len(list)) 这里用到了range()和len()两个函数函数:len()1:作用:返回字符串、列表、字典、元组等长度2:语法:len(str)3:参数:str:要计算的字符串、列表、字典.原创 2021-04-10 20:56:01 · 312 阅读 · 0 评论 -
爬取豆瓣电影排行版数据
# 爬取豆瓣电影排行版数据import requestsimport jsonif __name__ == '__main__': # step1 获取请求的url url = 'https://movie.douban.com/j/chart/top_list' # step2 获取请求的参数 param = { 'type': '11', 'interval_id': '100:90', 'action': '',.原创 2021-03-22 23:17:59 · 380 阅读 · 0 评论 -
数据解析
聚焦爬虫:爬取页面中指定的页面内容数据解析分类:正则 bs4(beatifulSoup) xpath数据解析原理:解析的局部文本内容都在标签之间或者标签对应的属性中进行存储 进行指定标签的定位 提取标签之前或者标签对应属性中存储的数据值(解析)数据解析编码步骤:指定url 发起请求 获取响应数据 数据解析 持久化存储...原创 2021-03-18 23:00:31 · 89 阅读 · 0 评论 -
爬虫基础简介
第一章:爬虫基础简介什么是爬虫:– 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。爬虫的价值:– 实际应用– 就业爬虫是否违法?– 在法律中是不被禁止的– 具有违法风险爬虫带来的风险可以体现在如下2方面:爬虫干扰了被访问网站的正常运营爬虫抓取了受到的法律保护的特定类型的数据或信息如何避免进入局子:– 优化自己的程序,避免干扰被访问网站的正常运行– 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私,或商业机密等敏感内容,需要及时停原创 2021-03-11 23:32:46 · 135 阅读 · 0 评论 -
1.爬取搜狗主页的html 并且保存到本地
爬取搜狗主页的html 并且保存到本地# 爬取搜狗主页面import requests# 表示不允许其他模块调用if __name__ == "__main__": # step1 指定url url = 'https://lol.qq.com/main.shtml' # step2 发起请求 # get方法会返回一个响应对象 response = requests.get(url=url) # step3 获取响应数据 .text返回是字符串原创 2021-03-11 23:12:49 · 289 阅读 · 3 评论 -
2.爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)# 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)# UA:User-Agent(请求载体的身份标识)# - UA检测:门户网站的服务器会检测请求发起载体的身份标识,如果检测到身份标识为某一款浏览器,则说明该请求是一个正常的请求。# 但是如果检测到发起请求的载体的身份标识不是某一款浏览器,那么则标识为不正常的请求(爬虫),服务器端很有可能会拒绝这次请求# - UA伪装:让爬虫把请求伪装成是某一款浏览器发出的import re原创 2021-03-11 23:16:11 · 843 阅读 · 1 评论 -
3.破解百度翻译 输入keyWord返回对应翻译的数据
破解百度翻译 输入keyWord返回对应翻译的数据# 破解百度翻译import requestsimport jsonif __name__ == '__main__': # step1 指定url url = 'https://fanyi.baidu.com/sug' # step2 发送请求(该次请求为POST) word = input('请输入要翻译的内容:') data = { 'kw': word } # UA伪原创 2021-03-11 23:22:28 · 261 阅读 · 0 评论 -
bs4数据解析基础
bs4数据解析基础数据解析的原理:标签定位 提取标签、标签属性中存储的数据bs4数据解析的原理:实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 通过调用BeautifulSoup对象中相关属性或者方法进行标签定位和数据提取环境安装:pip install bs4 pip install lxml如何实例化BeautifulSoup对象:导入:from bs4 import BeautifulSoup 对象的实例化: 将本地的html文档中的数据原创 2021-03-22 21:20:53 · 458 阅读 · 0 评论