
python
青之羽
一名正在入门的程序员
展开
-
python之使用xpath来实现对指定网站当中的图片进行爬取
# 功能:使用xpath来实现对指定的图片信息进行解析爬取# 开发时间: 2020/10/28 22:10import requestsfrom lxml import etreeimport osif __name__ == '__main__': #对首页页面当中的源码进行爬取操作 url='http://pic.netbian.com/4kbeijing/' headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; .原创 2020-11-01 11:59:08 · 1093 阅读 · 0 评论 -
python学习之使用bs4来爬取诗词网站当中的三国演义全书内容
# 功能:爬取对诗词网站当中三国演义的所有章节# 开发时间: 2020/10/28 22:10import requestsfrom bs4 import BeautifulSoupimport timeif __name__ == '__main__': #对首页页面当中的源码进行爬取操作 url='https://www.shicimingju.com/book/sanguoyanyi.html' headers={'User-Agent':'Mozilla/5.0.原创 2020-10-29 14:25:29 · 674 阅读 · 0 评论 -
python使用bs4来实现对页面当中指定属性的标签对象进行爬取
from bs4 import BeautifulSoup''' 1、实例化一个beautifulShop实例对象,并且将页面当中的源码数据加载到当前实例对象当中去 2、通过beautifulshop对象当中的属性对象来实现对指定的标签对象进行提取操作 要使用beautifulshop对象来进行标签的解析首先要进行两个插件对象的下载操作 pip install bs4 pip install lxml 3、导入from bs4 import Bea.原创 2020-10-28 19:34:41 · 2306 阅读 · 0 评论 -
python实现对指定网站当中的所有图片进行爬取
# 功能: 爬取指定网页当中的全部图片# 开发时间: 2020/10/26 10:12import requestsimport jsonimport re #进行正则表达式的包的引用import osif __name__ == '__main__': #创建一个文件夹对象用于实现对所爬取到的图片信息进行保存 if not os.path.exists('pictures'): os.makedirs('pictures') #进行UA伪装,将us.原创 2020-10-27 19:46:34 · 581 阅读 · 1 评论 -
python经指定路径的图片对象爬取到本地
# 功能: 对指定网页对象当中的图片进行获取# 开发时间: 2020/10/26 10:12import requestsimport jsonif __name__ == '__main__': #进行UA伪装,将userAgent分装到一个字典对象当中去,user-agent可以到浏览器当中通过抓包工具来获取 # headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (K.原创 2020-10-27 17:05:48 · 255 阅读 · 0 评论 -
python学习爬取肯德基官网商品地址的查询
# 功能: 进行爬虫项目编写# 开发时间: 2020/10/26 10:12import requestsimport jsonif __name__ == '__main__': #进行UA伪装,将userAgent分装到一个字典对象当中去,user-agent可以到浏览器当中通过抓包工具来获取 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li...原创 2020-10-26 15:19:32 · 611 阅读 · 0 评论 -
python学习值爬取百度翻译
# 功能: 进行爬虫项目编写# 开发时间: 2020/10/26 10:12import requestsimport jsonif __name__ == '__main__': #进行UA伪装,将userAgent分装到一个字典对象当中去,user-agent可以到浏览器当中通过抓包工具来获取 headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (K...原创 2020-10-26 12:28:49 · 465 阅读 · 0 评论 -
python爬取指定的搜索页面
# 功能: 进行爬虫项目编写# 开发时间: 2020/10/26 10:12import requestsif __name__ == '__main__': ''' UserAgent:请求载体身份标识 UA检测:当用户访问一个门户网站的时候,网站会自动的检测对应的访问载体的身份标识,如果检测到载体的身份 标识为某一款浏览器,则表明当前的请求时一个正常的请求,是普通用户通过浏览器对象而发起的一个请求信息. 但是如果检测到某.原创 2020-10-26 11:53:17 · 959 阅读 · 1 评论 -
python学习2对搜狗页面源码进行爬取
# 功能: 进行爬虫项目编写# 开发时间: 2020/10/26 10:12import requestsif __name__ == '__main__': #对搜狗页面进行爬取操作 #1.指定URL地址 url='https://www.sogou.com/' #2.调用request模块对象来向服务器端发起请求 response=requests.get(url)#发起一个URL请求信息 #3.获取响应数据 page_text=res.原创 2020-10-26 10:37:00 · 281 阅读 · 2 评论 -
python学习基本概念
爬虫:通过编写程序模拟浏览器,然后从互联网当中去进行指定数据的抓取操作。爬虫在使用场景当中的分类:通用爬虫:是搜索引擎当中重要的组成部分,用于抓取整个页面聚焦爬虫:是建立在通用爬虫的基础之上的,用于抓取页面当中特定的局部内容增量爬虫:用于监测网站当中数据跟新的情况,会爬取网站当中最新的数据信息反爬虫机制:一些相关门户会指定一定的策略来阻止爬虫程序来获取网站当中的一些数据信息反反爬策略:用于攻击门户网站当中的一些反爬虫机制Robots.txt协议君子协...原创 2020-10-26 10:35:11 · 196 阅读 · 1 评论 -
python编写小型学生管理系统
# 功能:学生信息管理系统# 开发时间: 2020/10/23 20:05#定义一个文件对象用于对学生信息数据进行保存import osfilename='student.txt'# 进行程序主函数的定义def main(): while True: # 调用菜单函数页面来另其显示到控制台当中去 menum() choice=int(input("请进行选择\n")) if choice in [0,1,2,3,4,5,.原创 2020-10-25 21:41:11 · 1518 阅读 · 0 评论 -
python安装第三方打包模块
不要使用python3.8在python3.8当中不支持installers插件的安装比较坑爹在dos当中输入指令实现对文件包进行安装操作D:\python\PythonProject>pip installer pyinstallerERROR: unknown command "installer" - maybe you meant "install"D:\python\PythonProject>pip install pyinstallerCollect..原创 2020-10-25 21:36:45 · 3158 阅读 · 0 评论