Web系统与技术--使用Markdown

本文介绍如何用Python快速搭建一个简易爬虫,通过pyquery库解析网页并抓取所需信息,以百度百家人物页面为例,展示从需求分析到代码实现的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

5分钟上手Python爬虫


准备

  1. Python基础语法(学会列表即可)
  2. 浏览器
  3. Python库
    • pyquery

分析目标

  1. 打开浏览器,进入目标网站(此处以百度百家·人物为例)
  2. 打开开发者模式(F12)
  3. 通过浏览器自带的工具查看页面html结构
    1. 工具:
    2. 结果:
  4. 发现标题在h3标签下的a标签中

开始抓取

完整代码

from pyquery import PyQuery

url = 'http://baijia.baidu.com/?tn=listarticle&labelid=101'
html = PyQuery(url, encoding='utf8')
tags_a = html('h3').find('a')
for a in tags_a.items():
    print(a.text())
部分说明
# 使用encoding来制定编码方式,不指定可能导致中文乱码
html = PyQuery(url, encoding='utf8')
# tags_a 不是列表对象而是htmlEelment集合对象,
# 所以需要使用.items()获取里面单独的a标签对象
for a in tags_a.items():

结束

以上就是一个简单的用来获取网络信息的爬虫,但是一只完备的爬虫往往会考虑更多的东西。相信大家在学习的过程中也发现了,代码是非常简单的(Java、.NET等也是如此),所以爬虫难度往往来自对网页请求的分析(包括反爬措施)和项目的结构组织。

国家级实验教学示范中心联席会计算机学科规划教材 教育部高等学校计算机类专业教学指导委员会推荐教材 面向“工程教育认证”计算机系列课程规划教材 谢从华,高蕴梅,黄晓华.Web系统技术[M],清华大学出版社,2018年6月 第1章 Web系统技术的基础知识... 1 1.1 Internet介绍... 1 1.1.1 Internet含义... 1 1.1.2 TCP/IP协议... 1 1.1.3 域名... 2 1.1.4 URL. 3 1.1.5 MIME. 3 1.1.6 HTTP协议... 4 1.2 Web浏览器... 5 1.3 Web服务器... 5 1.3.1 Web服务器... 5 1.3.2 Apache服务器... 5 1.3.3 IIS服务器... 6 1.4系统的主要技术概述... 7 1.4.1 HTML 概述... 7 1.4.2 JavaScript概述... 8 1.4.3 XML概述... 8 1.4.4 PHP概述... 8 1.4.5 Ajax概述... 9 1.5习题... 9 第2章 HTML网页设计基础... 10 2.1 HTML 网页... 10 2.1.1 简介... 10 2.1.2 HTML文件结构... 10 2.1.3 文件编辑器... 12 2.2 HTML基本标签... 13 2.2.1 元信息标签<Meta>. 13 2.2.2 文本标签... 18 2.2.3 列表标签... 20 2.2.4 表格标签... 24 2.2.5 超级链接标签... 27 2.2.6 图像标签... 29 2.2.7 背景声音标签... 29 2.2.8 视频标签... 29 2.3 网页表单和控件... 30 2.3.1 表单标签<form>. 30 2.3.2 表单的控件... 31 2.3.3 获取表单数据... 37 2.4 框架标签... 39 2.4.1 帧标记<frame>. 39 2.4.2 IFRAME标记... 40 2.5 习题... 40 第3章 CSS样式设计... 43 3.1 CSS 简介... 43 3.2 CSS 语法使用... 43 3.2.1 CSS定义语法... 43 3.2.2 CSS的使用... 44 3.2.3 选择符... 48 3.3 CSS样式设计... 51 3.3.1字体样式... 51 3.3.2文本样式... 53 3.3.3颜色样式... 56 3.3.4 列表样式... 57 3.3.5表格样式... 60 3.4.6 鼠标样式... 64 3.4.7 滤镜样式... 67 3.4 CSS页面布局... 78 3.4.1 文本对齐... 78 3.4.2盒子模型... 81 3.4.3文字环绕float样式... 85 3.4.4 元素定位... 86 3.6 习题... 88 第4章 网页数据的有效性验证... 92 4.1验证控件... 92 4.1.1 验证控件分类... 92 4.1.2 ASP页面验证控件... 92 4.2 正则表达式... 102 4.2.1常用的元字符... 102 4.2.2 复杂的正则表达式... 102 4.3 正则表达式应用... 104 4.3.1 RegExp对象... 104 4.3.2 String 对象的正则表达式方法... 106 4.4 常见的正则表达式... 107 4.5 习题... 108 第5章 JavaScript编程技术... 109 5.1 JavaScript编程基础... 109 5.1.1 JavaScript简介... 109 5.1.2 Javascript的使用方法... 109 5.1.3 语法规则... 111 5.1.4 运算符和表达式... 112 5.1.5 函数... 117 5.1.6流程控制... 121 5.1.7 事件处理... 128 5.2 JavaScript对象编程... 130 5.2.1 Object 类型... 131 5.2.2 Array对象... 131 5.2.3 String对象... 133 5.2.4 Math对象... 138 5.2.5 Number对象... 142 5.2.6 Data对象... 143 5.3 JavaScript ActiveX编程技术... 145 5.3.1 FileSystemO
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值