
爬虫
文章平均质量分 87
qq_43784519
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫基本流程
网络爬虫基本流程:① 访问站点② 定位所需的信息③ 得到并处理信息原创 2022-09-07 13:44:11 · 626 阅读 · 1 评论 -
爬取京东商品
特别注意商品价格和评价是在动态加载的,所以要找javascript价格:https://p.3.cn/prices/mgets?skuIds=J_商品id评论:https://club.jd.com/comment/productCommentSummaries.action?referenceIds=商品idimport requestsfrom lxml import etreeimport json#ctrl + F 局部查找headers = { 'User-Agent':原创 2020-07-21 17:38:07 · 292 阅读 · 0 评论 -
手机号码归属地查询
手机号码归属地查询import requestsimport jsonphone = input("电话号码:")url = 'http://apis.juhe.cn/mobile/get?phone={}&key=你获取的key'.format(phone)res = requests.get(url)json_data = json.loads(res.text)print("省份:",json_data['result']['province'])print("城市:",j原创 2020-07-19 20:35:38 · 940 阅读 · 0 评论 -
使用天气预报api接口
使用天气预报api接口import requestsimport jsoncity = input("城市:")url = 'http://v.juhe.cn/weather/index?format=2&cityname={}&key=8454d920d0801ba884a930add8a1e6de '.format(city)res = requests.get(url)json_data = json.loads(res.text)print("temperature原创 2020-07-18 21:22:36 · 906 阅读 · 2 评论 -
爬取网站图片(1.正则表达式)
爬取网站图片(1.正则表达式)如果文件夹不存在,就创建文件夹。 path = "E:\\images\\" if os.path.exists(path): pass else: os.mkdir(path)import reimport requestsimport osimport urllib.requestheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 1原创 2020-07-17 16:58:31 · 514 阅读 · 1 评论 -
爬取糗事百科段子(xpath)
爬取糗事百科段子(xpath)import requestsfrom lxml import etreeheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'} #加入请求头url = 'https://www.qiushibaike.com/text原创 2020-07-17 14:55:03 · 408 阅读 · 0 评论 -
爬取糗事百科的段子
爬取糗事百科的段子import requests #导入相应库import refrom bs4 import BeautifulSoupdef judge_sex(sex): if sex == "womenIcon": return '女' else: return '男'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/原创 2020-07-17 13:32:13 · 167 阅读 · 0 评论 -
爬取斗破苍穹小说
爬取斗破苍穹小说import requests #导入相应库import reheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'} #加入请求头def Get_text(url): try: res = requests.原创 2020-07-16 14:46:13 · 489 阅读 · 1 评论 -
圣诞歌曲TOP50(正则表达式)
圣诞歌曲TOP50(正则表达式)import reimport requests #导入相应库'''phone = '123-456-789'new_phone = re.sub('\D','',phone)print(new_phone) #sub()方法用于替换print(re.findall('\d',phone))'''headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple原创 2020-07-13 19:55:01 · 137 阅读 · 0 评论 -
爬取QQ音乐圣诞歌曲TOP10
爬取QQ音乐圣诞歌曲TOP10'''圣诞歌曲TOP10'''import requests #导入相应库from bs4 import BeautifulSoup#import timeheaders = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}原创 2020-07-13 19:15:04 · 200 阅读 · 0 评论