爬虫

最新推荐文章于 2025-09-08 07:55:51 发布

weixin_30409849

最新推荐文章于 2025-09-08 07:55:51 发布

阅读量56

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫

原文链接：http://www.cnblogs.com/mingxiazhichan/p/8476416.html

1.urllib

获取服务器的一些信息。可以使用urllib

from urllib.request import urlopen

url="http://www.baidu.com"

html=urlopen(url)

print(html.info()) #打印信息

print(html.headers) #打印返回头信息

print(html.getcode())

2.bs4 查询维基百科某个页面的所有url链接

from bs4 import BeautifulSoup as bs

from urllib.request import urlopen

html=urlopen('http://en.wikipedia.org/wiki/Kevin_Bacom‘）

bsobj=bs(html,"html.parser")

for i in bsobj.findAll("a"):

if "href" in i.attribs:

print(i.attrs['href'])

转载于:https://www.cnblogs.com/mingxiazhichan/p/8476416.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30409849

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

孤寒者的博客

08-09

64万+

【Python爬虫必备—＞Scrapy框架快速入门篇——上】

学了那么久爬虫，快来看看这些反爬，你能攻破多少？【对应看看自己修炼到了哪个等级~】

热门推荐

孤寒者的博客

09-26

66万+

学了那么久爬虫，快来看看这些反爬，你能攻破多少？【对应看看自己修炼到了哪个等级~】

参与评论您还未登录，请先登录后发表或查看评论

网络爬虫必备工具：代理IP科普指南

全栈川川

07-29

21万+

爬虫ip科普指南

网络爬虫【简介】

2401_88885149的博客

03-15

1万+

网络爬虫的简介和浏览器分析工具

Python爬虫实战：利用代理IP爬取百度翻译

努力让自己发光，对的人才能迎着光而来

08-06

25万+

Python爬虫实战：利用代理IP爬取百度翻译

MCP一站式爬虫，傻瓜式上手高门槛爬虫技能

官方推荐

07-29

12万+

亮数据也有了自己的官方账号，大家可以关注：https://brightdata.blog.youkuaiyun.com/现在正有福利，有兴趣的伙伴可以访问链接：https://www.bright.cn/ai/mcp-server/?utm_source=brand&utm_campaign=brnd-mkt_cn_csdn_jhxl202507&promo=mcp25

利用MCP实现爬虫智能体，获取数据竟如此简单

努力让自己发光，对的人才能迎着光而来

07-29

12万+

利用MCP实现爬虫智能体，获取数据竟如此简单

爬虫技术简介

三日沐水

12-11

2860

爬虫（Web crawler）是一种用于自动获取网页内容的程序。它可以通过模拟浏览器访问网页，并从中提取所需的信息，如文本、图片、链接等。爬虫在互联网上进行广泛应用，用于搜索引擎的网页抓取、数据挖掘、信息收集、内容监测等领域。

逆向爬虫技术的进阶应用与实战技巧

陈橘又青的博客

03-24

1万+

探讨爬虫技术的进阶应用与实战技巧，包括如何突破反爬虫机制、解析复杂页面结构、处理动态加载数据等。文章将结合具体案例，详细解析爬虫开发中的难点和解决方案，并提供丰富的代码示例，帮助读者从基础入门到实战进阶，全面掌握爬虫技术的精髓。

Python爬虫之入门保姆级教程，学不会我去你家刷厕所

小袁同学的博客

05-26

13万+

注重版权，转载请注明原作者和原文链接作者：Bald programmer 今天这个教程采用最简单的爬虫方法，适合小白新手入门，代码不复杂爬虫的介绍以及原理等等七七八八的东西我就不多bb了，咋们直接上教程本案例我就以彼岸图网这个网站做教程，原网址下方链接 https://pic.netbian.com/ 首先打开咋们的网站可以看到有很多好看的图片，一页总共21张图片我们右键选择检查或者直接按F12来到控制台点击左上角的箭头或者快捷键ctrl+shift+c，然后随便点在一张图片上面 ..

用java实现爬虫抓取网页中的表格数据功能源码

12-20

使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据，将抓取到的数据在控制台打印出来，需要后续处理的话可以在打印的地方对数据进行操作。包解压后导入MyEclipse就可以使用，在TestCrawTable中右键...

python爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zip

10-09

python爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zippython爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zippython爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zippython爬虫作业-维普期刊文章...

TVBoxOSC 服务端爬虫 .zip

03-01

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的...

Java 爬虫实战：淘宝/天猫优惠券查询指南

wanbangAPI01的博客

09-04

958

淘宝和天猫作为国内领先的电商平台，拥有海量商品和丰富的优惠券资源。然而，这些优惠券信息分散在各个页面，手动查找不仅耗时且效率低下。Java 爬虫技术能够自动化地查询和收集优惠券信息，极大地提高了工作效率。通过上述的实战指南，你已经对利用 Java 爬虫查询淘宝/天猫优惠券有了初步的了解。在实际应用中，可以根据自己的需求，对代码进行优化和扩展，实现更强大的功能。不过，始终要牢记遵守法律法规和平台规则，合理合法地使用爬虫技术。

DrissionPage 优化天猫店铺商品爬虫：现代化网页抓取技术详解

eqwaak0的博客

09-07

1066

本文介绍了从传统Requests库迁移到DrissionPage实现更高效天猫商品爬取的方法。传统方法存在动态内容处理困难、维护成本高、反爬能力弱等问题。DrissionPage融合浏览器自动化和网络请求优势，提供双模式协同工作、强大选择器功能、自动等待机制和高效数据处理。通过实际测试，新方案使成功率提升至98%，处理时间减少40%，资源占用降低30%。文章详细介绍了代理配置、并发处理、异常重试等优化技巧，并提供了部署建议。DrissionPage为现代Web数据采集提供了更稳定高效的解决方案。

Elixir轻量级进程如何成就百万级并发爬虫？

weixin_44617651的博客

09-04

307

Elixir凭借其Actor模型与轻量级进程，天然支持高并发。本爬虫利用此优势，结合HTTPoison与Floki，高效实现多任务网页抓取、链接提取与数据解析，是处理大规模数据采集的理想方案。

手把手教你用Go打造带可视化的网络爬虫

weixin_44617651的博客

09-05

223

用Go语言搞爬虫，不光能抓数据，还能把数据变成酷炫的图表，一站式搞定！它虽然不像Python有那么多现成的库，但强大的并发性能和丰富的第三方包，让它既能高效爬取，也能轻松实现可视化，效果一点不差。

Python爬虫实战：研究3D plotting模块，构建房地产二手房数据采集和分析系统