
BeautifulSoup
执笔写回憶
人生苦短,才学Python!
展开
-
爬取不规范html网页文本时,用html5lib解析不规范的html文本
安装解析器:pip install html5libfrom lxml import etreefrom bs4 import BeautifulSoup# text中<tr>标签只有闭合标签,没有起始标签text = """<table> <td>姓名</td> <td>年龄</td> </tr> <td>出生日期</td&..原创 2020-07-11 23:08:59 · 601 阅读 · 0 评论 -
BeautifulSoup中has_attr和attrs使用
from bs4 import BeautifulSoupimport requests,lxmlr = requests.get('http://www.xiachufang.com/')soup = BeautifulSoup(r.text,'lxml')for img in soup.select('img'): if img.has_attr('data-src'): print((img.attrs['data-src']).split("?")[0]) .原创 2020-06-29 18:42:18 · 9457 阅读 · 0 评论 -
python3中BeautifulSoup练习
from bs4 import BeautifulSoupimport lxmlhtml ='<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>'soup = BeautifulSoup(html,'lxml')# 多种获取html内容的方式print(soup.fi...原创 2018-05-31 11:07:35 · 532 阅读 · 0 评论 -
模拟京东登录
#!/usr/bin/env python# coding=utf-8# 模拟京东登录# https://segmentfault.com/a/1190000013170936import osimport requestsfrom bs4 import BeautifulSoupimport timeclass JD_crawl(object): def __init...原创 2018-07-05 17:28:01 · 2016 阅读 · 0 评论 -
python3从本地excel表格获取账号,实现后台系统的登录,并获取运费后保存到表格中
1、首先有一个账号的excel文件,里面包含企业名称、登录账号以及登录密码;2、获取账号文件里面的信息,实现模拟登录,登录成功则获取运费,登录失败则提示并且将失败的手机号颜色标红;3、后台网站用XXXX代替。#!/usr/bin/env python# coding=utf-8# 获取后台系统的运费规则,保存到表格中,其中登录账号从本地表格中获取# 增加了退出账号功能和多次尝试...原创 2018-08-03 18:07:04 · 801 阅读 · 0 评论