
爬虫
Yesir_C
发表的仅为个人笔记哦~仅供参考
展开
-
爬虫之手机信息查询系统
查询手机的详细信息原创 2022-11-03 23:43:12 · 538 阅读 · 0 评论 -
Python之房源信息
import requests from bs4 import BeautifulSoup import csv import time from tqdm import tqdm bt_list = [] all_list = [] jg_list = [] wz_list = [] mj_list = [] url_list=[] head=["标题","地区","价格","面积","详情链接"] def run(i): url=f"https://beijing.qfang.com/newho原创 2021-11-05 17:27:43 · 417 阅读 · 0 评论 -
Python豆瓣网Top250
代码 import requests from bs4 import BeautifulSoup import csv start=25 Movie_url = [] Movie_name = [] top=[] head=["电影名","链接"] headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.原创 2021-10-11 11:20:01 · 107 阅读 · 0 评论 -
批量爬取PPT
import requests from lxml import etree from bs4 import BeautifulSoup import lxml import os import math headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36 Edg/89原创 2021-05-19 07:50:13 · 403 阅读 · 0 评论 -
4399
import requests from bs4 import BeautifulSoup import time import lxml def run(): url=“http://www.4399.com” headers={ “User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36” } page_text =原创 2021-05-18 09:54:46 · 152 阅读 · 0 评论 -
爬虫学习之xpath解析
#xpath解析: 最常用且最高效的一种结息方式 #1. xpath解析原理: # 1. 实例化一个etree对象, 且需要将被解析的页面源码数据加载到该对象中 # 2. 调用etree对象中的xpath方法结合xpath表达式实现标签定位和内容捕获 #2. 环境安装 # pip install lxml(解析器) #3.实例化一个etree对象: from lxml import etree # 1.实例化一个etree对象, 将被本地的页面源码数据加载到该对象中 #原创 2021-04-28 00:01:38 · 271 阅读 · 0 评论 -
爬虫之壁纸批量爬取
import requests import os from bs4 import BeautifulSoup def f(url_data): url_data=url_data.split("/") s='' for i in range(len(url_data)-1): s+=str(url_data[i])+'/' return s headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0;原创 2021-04-27 09:35:46 · 163 阅读 · 0 评论 -
爬虫学习之图片爬取
批量爬取美女图片 import re import os import requests if __name__=="__main__": folder = os.path.exists("./girls") if not folder: path = os.makedirs("./girls") for i in range(1,11): url='https://smtmm.win/?' headers = { .原创 2021-04-27 07:49:43 · 407 阅读 · 0 评论 -
爬虫学习之小说爬取
数据解析之bs4解析 基础使用 #导包 from bs4 import BeautifulSoup import lxml import requests import re """ bs4进行数据解析 """ if __name__=="__main__": #将本地的HTML文件加载到该对象中 fp=open('./w.html','r',encoding='utf-8') soup=BeautifulSoup(fp,'lxml') #将互联网上获取的页面源码加载.原创 2021-04-27 00:29:15 · 216 阅读 · 1 评论 -
爬虫学习之基于requests模块ajax的post请求
需求: 爬取肯德基餐厅数据 import requests import json if __name__=="__main__": url="http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword" location=input("-----本程序可以查询肯德基餐厅信息-----\n请输入要查询的地点:").strip() headers={ "User-Agent":"Mozilla/5.0.原创 2021-04-20 21:51:50 · 220 阅读 · 0 评论 -
爬虫学习之基于requests模块ajax的get请求
需求: 爬取豆瓣电影分类排行榜 import requests import json if __name__=="__main__": url="https://movie.douban.com/j/chart/top_list?" headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.438.原创 2021-04-20 21:50:09 · 148 阅读 · 0 评论 -
爬虫学习之requests模块的post请求
基于requests模块的post请求 需求: 破解百度翻译 import requests import json if __name__=="__main__": Data=input("请输入数据:").strip() #1. 指定url #从抓包工具中捕获url post_url="https://fanyi.baidu.com/sug" #2. 进行UA伪装 headers={ 'User-Agent':'Mozilla/5.0原创 2021-04-19 21:25:22 · 341 阅读 · 1 评论 -
爬虫学习之requests模块的get请求
基于requests模块的get请求 需求: 爬取搜狗指定词条对应的搜索结果页面(简易网页采集器) 反爬机制 User-Agent:请求载体的身份标识,使用浏览器发起的请求,请求载体的身份标识为浏览器,使用爬虫程序发起的请求,请求载体为爬虫程序。 UA检测:相关的门户网站通过检测请求该网站的载体身份来辨别该请求是否为爬虫程序,如果是,则网站数据请求失败。因为正常用户对网站发起的请求的载体一定是基于某一款浏览器,如果网站检测到某一请求载体身份标识不是基于浏览器的,则让其请求失败。因此,UA检测是我们原创 2021-04-19 21:18:15 · 397 阅读 · 0 评论 -
爬虫学习之requests模块学习
爬虫开发-requests模块学习 requests模块: python中原生的一款基于网络请求的模块, 功能强大, 简单便捷, 效率高效 作用: 模拟浏览器发请求 如何使用requests模块 环境安装 pip install requests 如何使用: requests 模块的编码流程 指定url 发起请求 获取响应数据 持久化存储 实战:爬取搜狗首页的页面数据 import requests if __name__=="__main__": #1. 指定url url原创 2021-04-19 21:13:50 · 109 阅读 · 0 评论