import requests
url='http://localhost:63342/new/news.html?_ijt=55294hg253a9s359i3e3f9kdku'
res=requests.get(url)
res.encoding='utf-8'
from bs4 import BeautifulSoup
soup=BeautifulSoup(res.text,'html.parser')
取出h1标签的文本
soups=soup.select('h1')[0].text
print(soups)
取出a标签的链接
soupa=soup.a.attrs
print(soupa['href'])
取出所有li标签的所有内容
for li in soup.find_all('li'):
print(li.contents)
取出一条新闻的标题、链接、发布时间、来源
print(soup.select('div.article-info')[0].text)
print(soup.select('div .text-title')[0].find('h1').text)
本文通过Python演示如何从指定URL中抓取特定元素,包括h1标签文本、a标签链接及列表项内容等,并展示了如何获取一篇新闻的具体信息,如标题、链接、发布时间和来源。
2891

被折叠的 条评论
为什么被折叠?



