
python
挽歌亽朽年
平生不做皱眉事,世上应无切齿人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
异常处理
异常出现的原因 :1.虽然软件在发布前一般都经过了充分的测试,然而再充分的测试也很难枚举所有可能出现的情况,这时候异常处理结构则是避免特殊情况下软件崩溃的利器2.合理地使用异常处理结构可以使得程序更加健壮,具有更高的容错性,不会因为用户不小心的错误输入而造成程序崩溃,也可以使用异常处理结构为用户提供更加友好的提示异常的定义 :异常是程序执行过程中出错而在正常控制流之外采取的行为。语法错误...原创 2020-03-15 20:15:52 · 390 阅读 · 0 评论 -
selenium+chrome无界面浏览器实现爬虫
selenium介绍Selenium是python的第三方库,对外提供的接口可操作浏览器,然后让浏览器完成自动化的操作selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全...原创 2020-03-10 20:47:39 · 2172 阅读 · 0 评论 -
面向对象编程(2)
面向对象特征`:封装——避免外部错误操作引起的影响,对对象使用者的错误操作起到预防作用继承——在已有的类的基础上进行扩充或改造,得到新的类,为代码重用而设计多态——同一个引用类型,使用不同的实例而执行不同的操作面向对象特征——封装定义:把属性、方法与方法实现的细节隐藏起来的过程称为封装具体方法:1.把属性定义为私有属性2.添加get和set方法,供外部简介调用属性类属性的访问限制...原创 2020-03-08 21:44:10 · 118 阅读 · 0 评论 -
面向对象编程(1)
面向对象编程特征:封装、继承、多态面向对象与面向过程面向过程:分析出解决问题的步骤,根据步骤用代码一一实现的编程方法程序=数据结构+算法面向对象:把解决问题的事物分解成多个对象,而建立对象的目的也不是为了完成一个个步骤,而是为了描述某个事物在解决整个问题的过程中所发生的行为程序=对象+行为类与对象对象是实际存在的事物,对象的特征与功能组成类是抽象的,是对一群具有相同属性和行为的事物...原创 2020-03-07 21:46:03 · 205 阅读 · 0 评论 -
xpath
Xpath简介xpath是在xml文档中查找信息的语言安装:xpath依赖于lxml库,因此需安装lxml库pip install lxml应用方法:通过定义xpath路径表达式选取文档中节点及节点内容Xpath节点节点之间的关系:父节点:每个元素以及属性都有一个父节点子节点:每个元素可以有0个、1个或多个子节点同胞节点:拥有相同父节点的节点先辈节点:某节点的父、父父等节点...原创 2020-02-15 21:38:16 · 375 阅读 · 0 评论 -
requests库
1.requests简介requests库是用python编写的基于urllib,requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡2.requests库的安装命令提示符中输入 pip install requests3....原创 2020-02-12 13:27:35 · 798 阅读 · 0 评论 -
天气数据爬虫练习
import urllib.requestimport reimport pandas as pddef gethtml(url):h = {‘User-Agent’: ‘Mozilla / 5.0(Windows NT 6.1;WOW64)’}r = urllib.request.Request(url,headers=h)response = urllib.request.ur...原创 2020-02-11 13:40:15 · 279 阅读 · 0 评论 -
新发地肉禽蛋信息爬取数据测试
导入urllib模块import urllib.request#导入bs4模块from bs4 import BeautifulSoup#导入pandas模块import pandas as pddef gethtml(url):#伪装浏览器h = {‘User-Agent’: ‘Mozilla / 5.0(Windows NT 6.1;WOW64)’}r = urllib....原创 2020-02-10 11:30:04 · 211 阅读 · 0 评论 -
BeautifulSoup
BeautifulSoup简介Beautiful Soup4是python的一个库,最主要的功能是从网页抓取数据Beautiful Soup4,有了它我们可以很方便地提取出HTML或XML标签中的内容Beautiful soup库是解析,遍历,维护“标签树”的功能库BeautifulSoup安装一、 BeautifulSoup4 ——bs4安装方法一:bs4的安装需要将pip源设置为...原创 2020-02-09 12:03:43 · 246 阅读 · 0 评论 -
百度贴吧post练习
import urllib.requestimport redef getHtml(u):# 定义post请求的参数word = input(“请输入贴吧搜索关键字:”)start = int(input(“请输入查询的页码:”))data = {“kw”: word,“ie”: “utf-8”,“pn”: (start-1)50}# 解析post参数query_strin...原创 2020-02-09 11:37:35 · 332 阅读 · 0 评论 -
正则练习
#正则练习import restrtest = “”“吉多·范罗苏姆(Guido van Rossum,1956年1月31日-)是一名荷兰计算机程序员,他作为 Python 程序设计语言的作者而为人们熟知。在 Python 社区,吉多·范罗苏姆被人们认为是"仁慈的独裁者(BDFL)”,意思是他仍然关注 Python 的开发进程,并在必要的时刻做出决定。他目前在 Google 工作,在那...原创 2020-02-08 13:02:44 · 228 阅读 · 0 评论 -
肯德基网页的爬取
import urllib.requestimport urllib.parseimport jsondef getHtml(url):#伪装浏览器headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64)’}r = urllib.request.Request(url=url, headers=headers)# 定义...原创 2020-02-08 13:00:33 · 795 阅读 · 0 评论 -
post练习
百度翻译数据采集import urllib.requestimport urllib.parseimport jsondef gethtml(url):# 伪装浏览器headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64)’}r = urllib.request.Request(url, headers=headers)...原创 2020-02-07 13:25:23 · 474 阅读 · 0 评论 -
正则和相关知识
认识正则正则表达式:是由一些字符和特殊符号组成的字符串,用来约束或描述一个有相似特征的字符串的集合。功能:正则捕获:按照正则表达式的规则从一个字符串findall 中找到符合正则表达式格式的字符串正则匹配:根据正则表达式的规则判断一个字符match 串是否符合该表达式格式正则表达式模块python中通过re模块来使用正则表达式。re模块介绍:pytho...原创 2020-02-07 13:20:15 · 327 阅读 · 0 评论 -
爬虫的简单步骤及urllib模块
一. 爬虫的步骤(1)浏览器向DNS服务器请求解析该URL中的域名所对应的IP地址(2)解析出IP地址后,根据IP地址和默认端口,和服务器建立TCP连接(3)浏览器发出读取文件的http请求,该请求报文作为TCP三次握手的第三个报文的数据发送给服务器(4)服务器对浏览器请求做出响应,并把对应的html文件发送给浏览器(5)释放TCP连接(6)浏览器将该HMTL渲染并显示内容二. ...原创 2020-02-06 17:13:32 · 386 阅读 · 0 评论 -
Python的简单概括
什么是Python:python是一种编程语言,它有对象、模块、线程、异常处理和自动内存管理。它简洁,简单、方便、容易扩展、有许多自带的数据结果,而且它开源Python优缺点优点:优美、清晰、简单高级语言开发效率快可移植性、可拓展性、可嵌入型缺点:运行速度慢代码不能加密线程不能利用多CPU变量与常量常量:一直不变的量变量:把程序的运行结果存放在内存中,以便后期代...原创 2020-02-06 16:55:40 · 660 阅读 · 0 评论 -
爬虫的简要概括
爬虫分为五个基本构架:调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础...原创 2020-02-05 13:12:04 · 326 阅读 · 0 评论 -
爬虫的知识链接
http与https协议http协议 :超文本传输协议,端口号80,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器,不提供数据加密https协议:安全套接层超文本传输协议,端口号443,在http基础上加入ssl协议,ssl靠证书来验证服务器身份,实现浏览器到服务器的加密通信明文与密文明文:指没有加密的文字(或者字符串),一般人都能看懂的意思,在通信系统中它可...原创 2020-02-04 13:37:27 · 152 阅读 · 0 评论 -
python爬虫基础知识
1.爬虫概念定义:爬虫又称网络机器人或网络蜘蛛,它是通过程序自动下载网页数据的过程知识链接:互联网:由许多的超链接组成的信息网url:统一资源定位符,俗称网址2.可实现爬虫的语言Php:对多进程和多线程支持不好Java:较好,是python的主要竞争对象,代码多是缺点c/c++:可以完成爬虫工作,当一般不用其做爬虫Python:世界上最优雅的语言,代码简单且优美,学习成本低,支持...原创 2020-02-03 11:53:21 · 260 阅读 · 0 评论