一个简单的爬虫实验

最新推荐文章于 2021-04-10 16:08:05 发布

我是偶哦

最新推荐文章于 2021-04-10 16:08:05 发布

阅读量4.3k

点赞数 2

CC 4.0 BY-SA版权

文章标签：爬虫 html java

本文链接：https://blog.youkuaiyun.com/lqs842212662/article/details/51404169

博主一直想研究爬虫，可惜并没有很好的机会，乘着双休日没事，学着写了一个非常简单的小爬虫。

本爬虫使用Jsoup，Jsoup主要是简化连接和选择取内容的代码，抓取的是知乎日报首页上的文章。

其实大家都知道，互联网上显示的内容都最终都是由HTML构成的，说以写爬虫最主要的工作就是分析网页代码的结构，知乎日报首页的结构如下：

知乎日报网页结构

经分析得知，每一个col-lg-4类对应着每一列，共有三列，每个wrap或box或link-button类都可以代表一篇文章。我们要做的工作就是将文章里的标题取出来，然后在取出文章对应链接里面的内容。我们现在已经可以用wrap,box,link-button等获得文章的标题（越南「Lady Gaga」参与竞选，倡议尊重同性恋、减少性别歧视）和文章的链接（/story/8287018），下一步就是获取链接里的内容，打开链接，我们得到如下结构:

内容结构

这里就要看大家想怎么抓取了，content类只包含内容，没有作者，标题。如果想把这些也抓取进来，可以选着question类。我选着的是content类。

代码如下

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
<

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我是偶哦

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫教程001：最简单的爬虫

若北辰

05-11

358

前置条件需要首先安装requests包 pip install requests 程序： import requests data = requests.get('https://www.baidu.com') data.encoding = 'tuf-8' print(data.text) 输出结果：

最最简单的一个爬虫代码

weixin_39389001的博客

08-12

1974

第一次写博客的宝宝献上最简单的一个爬虫代码 mac os操作系统自带的python2.7，实现了一个网页爬虫，把网页html保存为txt文件。然后找到网页里面包含的所有图片，分别保存为png图片。先上代码（怎样漂亮的显示代码呀？？？？） python小白一枚每一行都是边查边用哟 import urllib2 import urllib import re response = urllib2...

参与评论您还未登录，请先登录后发表或查看评论

一个简单的爬虫例子

05-30

一个简单的爬虫，亲测可用

python爬虫——写出最简单的网页爬虫

weixin_30699463的博客

12-19

989

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。我们可以通过python来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。一、开发工具笔者使用的工具是sublimetext3，它的短小精悍（可能男人们都不喜欢这个词）使我十分着迷。推荐大家使用...

PHP实现最简单爬虫原型

书中蠹dù鱼 {bookmoth} 的专栏

02-21

9941

最简单的爬虫模型应该是这样的：给一个初始url，爬虫把内容扒下拉，找页面里的url，在以这些url为起点，开始爬。下面是一个最简单的php实现的爬虫模型。<?php/** * 爬虫程序 -- 原型 * * BookMoth 2009-02-21 *//** * 从给定的url获取html内容 * * @param string $url * @r

爬虫实验报告.docx

01-31

3. **理解AK限制**：了解AK的使用规则，包括每日调用配额和频率限制，以及在爬取POI时的限制，如每页仅显示20个兴趣点，一个坐标范围内最多获取400个POI。 4. **编写爬虫代码**：使用Python编写爬虫程序，构造请求...

简单的爬虫实验(源码+exe)

07-29

在本资源中，我们主要关注的是一个简单的爬虫实验，它包括了源代码（www.py）和可执行文件（www.exe）。这个实验很适合初学者理解Python爬虫的基本原理和应用，尤其是对于想要获取和处理网络上的壁纸资源的场景。 ...

《专业实验I-爬虫》实验报告-北邮2018.pdf

08-09

《专业实验I-爬虫》实验报告展示了北邮电子工程学院大二学生在2018年下学期完成的三个专业实验...爬虫实验则让他们熟悉了互联网数据的获取和管理。这些实验对于深化理解信息技术在信号处理和数据分析中的应用至关重要。

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

09-20

在本文中，我们将探讨如何使用Python编写一个简单的爬虫程序，以抓取豆瓣电影热度Top100内的电影信息。首先，我们需要理解网络爬虫的基本概念。网络爬虫是一种自动化程序，它模仿人类浏览网站的行为，以获取并处理有...

python爬虫实验报告_10个python爬虫入门实例(小结)

weixin_39913472的博客

11-20

1763

昨天带伙伴萌学习python爬虫，准备了几个简单的入门实例涉及主要知识点:web是如何交互的requests库的get、post函数的应用response对象的相关函数，属性python文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装requests库(安装好python的朋友可以直接参考，没有的，建议先装一哈python环境)windows用户，Linux用户几乎一样:打开cmd输入...

简单的爬虫实例

02-22

爬虫类，用户解析网站，获取html 支持正则表达式

实现的一个简单爬虫

04-13

NULL 博文链接：https://wxwall.iteye.com/blog/1729178

最简单的爬虫

abcque的专栏

03-19

292

# 导入本文件所有的包 import urllib.request #设置请求的网页 url = "http://www.baidu.com" #发送url请求，并达到响应结果 response = urllib.request.urlopen(url=url) #从服务器的响应中获取到页面内容 content = response.read() print(content) html = co...

简单爬虫实战

ChiChengIT的专栏

07-31

1736

1. 某p2p网站每天发新标，对于一个标最后投标导致标满的用户，系统会奖励38元红包，所以写啦个爬虫每隔1分钟去爬取合适的标，然后短信提醒 2. 两个要爬去的页面＝＝＝＝＝＝＝＝＝＝＝＝投资列表＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝标的详情页面如下＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝

爬虫简单上手实战

小庄同学的博客

02-09

410

urllib 库的基本使⽤：所谓⽹⻚抓取，就是把 URL 地址中指定的⽹络资源从⽹络流中读取出来，保存到本地。在 Python2 中，我们使⽤ urllib2 这个组件来抓取⽹⻚。在 python3.x 中被改为 urllib.request。 urlopen： import urllib.request #导入爬虫用到的模块 response=urllib.request.urlop...

Python 爬虫--[最简单的爬虫例子]

Baozi_Jay的博客

04-07

981

Python 爬虫–[最简单的爬虫例子] 1、拷贝代码 #!/usr/bin/python # -*- coding: UTF-8 -*- import requests from bs4 import BeautifulSoup movie_url = 'https://movie.douban.com/subject/1292052/' def download_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Maci

python简单小爬虫_python简单爬虫

weixin_39673037的博客

12-10

366

最近小组内部需要做一个简单小分享，不知道要分享什么，最后决定要做一次爬虫的小分享，哈哈，我也是一个初学者，于是就开始找资料，这里就把我一个简单小分享在这里描述一下首先，我们要知道什么是爬虫，我的理解是：用代码模拟人的操作，去其他网站找到需要的东西，然后爬取下来所以就需要先知道要爬取内容的网站地址，然后才能去爬取这里是一个简单小爬虫：#1、简单爬虫,不做任何处理import requests　　#导...

小爬虫

hangGe0111的博客

03-22

375

爬取panda.tv主播name和观看人数 1. c1.py # 分析前奏： # 首先：明确目的； # 其次：找到数据对应的网页； # 然后：分析网页的结构找到数据所在标签位置； # 书写代码步骤 # 第一步：模拟HTTP请求，向服务器发送请求，获取到服务器返回给我们的HTML; # 第二步：用正则表达式提取我们要获取的数据(名字，人气) ...

python爬虫简单实战（一）

weixin_45762532的博客

04-10

1024

网上查了一下，发现爬取豆瓣top250比较简单，先试一下 1.导入相关的库 import requests from lxml import etree import csv 2.设置请求头 headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36 Edg/89.0.774.

给出一个网络爬虫实验实例