
python爬虫
泱生
不写博客很多年
展开
-
python 爬虫 bs4解析示例
爬取的是某图片网站,这个网站的特点是图片地址就在网页源代码中,当前只是爬取第一页内容并下载。学习参考网址是https://www.tupianzj.com/bizhi/weimei/随着时间的变化,可能这个网页的html代码也会改变,如果不能达到预期效果,根据html代码修改。# coding=utf-8# http://www.xinfadi.com.cn/priceDetail.html# 1.拿到源代码# 2.使用bs4进行解析,拿到数据import requestsimport tim原创 2021-10-04 09:24:02 · 565 阅读 · 0 评论 -
pycharm添加pip指令安装库的方法
我们在cmd命令窗口通过pip指令安装的python第三方库,在使用pycharm的时候并不能直接使用,需要通过配置与python3.8的外部库相连接。1.file–>setting2.project–>Project Interpreter选择python.exe的路径,一般在python3.x文件夹下3.添加python.exe的路径如果没有类似python3.8/python.exe的选项,就点击右侧的设置按钮添加然后点击OK就会出现如下通过pip指令安装的所有第三方库,原创 2021-10-01 13:17:14 · 18435 阅读 · 0 评论 -
python正则表达式的几个匹配函数用法
1.finditer匹配字符串中所有符合正则的内容,返回的是迭代器,从迭代器拿内容需要用到.group()it = re.finditer(r"匹配条件","需要匹配的字符串")for i in it: print(i.group())简单地介绍一下finditer的返回是一个迭代器对象,这个东西具有是一次性的性质,也就是说从头到尾只能访问一次,且不可悔棋!如果后续需要多次访问它指向的数据,那么在第一次访问的时候就要把它里面的数据另存。2.findall匹配字符串中所有符合正则的内容,原创 2021-09-25 23:11:34 · 1093 阅读 · 1 评论 -
python正则获取豆瓣排行250
1.添加请求头,防止被拦截dic = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472. 106 Safari/537.36"}2.预编译正则表达式,用于过滤无用信息# cinema_name:电影名;Release_date:上映日期;# grade:评分 ;Evaluation_numb原创 2021-09-12 21:46:59 · 305 阅读 · 1 评论 -
python读写html文件乱码问题
#从网址库找到request库,使用urlopen函数打开网址from urllib.request import urlopen url = "http://www.mouwangzhi.com"resp = urlopen(url)with open("mybaiodu.html",mode = "w",encoding="utf-8") as f: f.write(resp.read().decode())print("over!")pycharm读取保存的html文件会显.原创 2021-08-22 10:46:19 · 5691 阅读 · 8 评论