写一个爬虫利用正则匹配处理子页面的方式:
就三个步骤;
1、利用正则匹配寻找子页面的位置
2、从定位的地址中获取到子页面的链接
3、利用函数访问子页面,从源代码中爬取数据
正则匹配子页面的地址就是利用正则匹配寻找到页面文字链接在源代码中的位置,这个可以用.*?匹配
获取子页面链接需要到一点html的知识

这个代码表示在HTML里面***就是页面中定位的子页面的标题
点击这个标题后就会触发html进入超链接,超链接的地址就是href后面的url地址
即新的URL=老的URL+href
然后再在新的URL中再次正则匹配我们需要爬取的内容就可以啦
本文介绍了一种利用正则表达式进行网页爬取的方法,包括定位子页面链接、访问并抓取数据的过程。适用于初学者了解如何用简单的正则表达式实现网页信息的抓取。
696

被折叠的 条评论
为什么被折叠?



