shell读取html网页curl,在Shell脚本中用CURL解析HTML

最新推荐文章于 2023-09-19 23:41:00 发布

weixin_39760068

最新推荐文章于 2023-09-19 23:41:00 发布

阅读量870

点赞数

文章标签： shell读取html网页curl

本文介绍了如何使用Python的BeautifulSoup库高效解析HTML，避免了grep和shell命令的复杂性。通过实例展示了如何抓取网页中的特定信息，并提到了与grep等传统方法相比，BeautifulSoup的易用性和稳定性。同时，提到了HTML解析在实际项目中的应用和可能遇到的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

不要。使用HTML解析器。例如，Python的BeautifulSoup易于使用，并且可以非常轻松地完成此操作。

也就是说，请记住grep适用于行。该模式匹配行，而不是整个字符串。

你可以使用什么是-A赛后还输出线：

grep -A2 -E -m 1 '

应该输出：

Diplo - Justin Bieber - Skrillex

Where Are U Now

然后，您可以通过管道得到它的最后或倒数第二行到tail：

$ grep -A2 -E -m 1 '

' | tail -n1

Where Are U Now

$ grep -A2 -E -m 1 '

' | tail -n2 | head -n1

Diplo - Justin Bieber - Skrillex

然后用去掉HTML：

$ grep -A2 -E -m 1 '

' | tail -n1

Where Are U Now

$ grep -A2 -E -m 1 '

' | tail -n2 | head -n1 | sed 's/]*>//g'

Diplo - Justin Bieber - Skrillex

但正如所说，这是善变的，有可能打破，而不是很漂亮。下面是与BeautifulSoup相同，顺便说一句：

html = '''

Blah text

Diplo - Justin Bieber - Skrillex

Where Are U Now

'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

for track in soup.find_all(class_='tracklistInfo'):

print(track.find_all('p')[0].text)

print(track.find_all('p')[1].text)

这也适用于的tracklistInfo多行 - 补充说，在shell命令需要更多的工作;-)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39760068

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

多年总结，倾情奉献，手把手教你如何从零开始写出优雅的shell脚本（完结篇）

景天科技苑

01-30

1万+

shell脚本精炼总结，本章包含linux随机数常见的生成方式，循环结构的控制命令。 shell中数组的使用。linux信号量，以及借助信号量实现跳板机功能。 Expect自动化处理方式等。

Shell基本语法

Baron_ND的博客

06-10

4065

1、shell介绍 shell 俗称叫做壳，计算机的壳层，和内核是相对的，用于和用户交互，接收用户指令，调用相应的程序。因此，把shell分为2大类 1.1、图形界面shell（Graphical User Interface shell 即 GUI shell）也就是用户使用GUI和计算机核交互的shell，比如Windows下使用最广泛的Windows Explorer（Wind...

参与评论您还未登录，请先登录后发表或查看评论

通过shell检测linux环境并导出HTML页面信息

最新发布

pc的博客

09-19

463

在linux启动脚本，会生成 os_linux_summary.html文件。

shell 读取目录下的html文件

肥茹的博客

01-17

639

#!/bin/sh #读取a目录下的html文件 for i in /a/*.html; do filename=${i##*/} #判断文件名是否含有foot if [[ ${filename} =~ "foot" ]] then #判断是否已经写入 666 include=`grep '666' $i` echo ${include} if [[ ! "$include" ]] then #往文件的最后一行写入666 sed -i '$a 666' ${i}.

shell解析HTML

荒-于嬉的博客

01-17

3293

shell解析html 没有找到shell有这个功能,百度shell解析xpath所说不知都是什么,命令没找到包也没装上,很怀念Python这方面的优异,索性自己封装了一层. 采用Python语言,写好后打包制作而成,源码及打包命令见文章尾部,之所以打包一下因为这样可以不依赖Python环境只需要在Linux系统主机即可执行(基于centos 7系统测试),如果主机有Python环境和相关依赖直接执行代码文件也可. 如有疑问或问题欢迎大佬留言. 下载地址(百度网盘): 链接: https://pan.bai

shell解析html网页,Windows PowerShell解析HTML本地文件

weixin_33128703的博客

06-17

858

如果您运行的是PS 3.0或更高版本，则可以利用Invoke-WebRequest获取网络上存在的网页。如果您对本地文件it can be a bit finicky进行操作。Invoke-WebRequest返回一个HtmlWebResponseObject，其中包含一个名为ParsedHtml的属性。这个对象有一个名为getElementById的方法，我们可以使用它，因为我们知道select...

shell解析html文件,[Shell] Shell 生成 HTML脚本,可显示表格

weixin_36260323的博客

06-15

816

Shell 生成 HTML脚本生成的格式不好看，以后要多改进.[mon@oracle6 source]$ more gen_html#!/bin/bashdatetime=`date +"%Y/%m/%d %H:%M:%S"`DATA=/home/mon/source/config/mon_host_stat.dataMAILLIST=tolilong@163.com,bruce_lilong@1...

curl命令详解

new_ctech的博客

07-23

585

Curl是Linux下一个很强大的http命令行工具，其功能十分强大。用途说明 curl命令是一个功能强大的网络工具，它能够通过http、ftp等方式下载文件，也能够上传文件。其实curl远不止前面所说的那些功能，大家可以通过man curl阅读手册页获取更多的信息。类似的工具还有wget。 curl命令使用了libcurl库来实现，libcurl库常用在C程序中用来处

Linux笔记 No.27---(shell脚本编程)

weixin_45880055的博客

02-02

1325

shell脚本 Shell脚本就像早期dos年代的.bat，最简单的功能就是将许多指令汇整在一起，让使用者很容易地就能够一个操作执行多个命令，主要是方便管理员进行设置或者管理用的。但是它比Windows下的批处理更强大，它提供了数组、循环、条件以及逻辑判断等重要功能，让使用者可以直接以Shell来写程序，比用其他编程语言编写的程序效率更高，毕竟它使用了Linux/Unix下的命令。 ...

【Shell脚本邮件发送最佳实践】：Linux邮件服务管理的专家级技巧

本文全面介绍了邮件服务和Shell脚本的基本概念、邮件发送在Linux系统下的理论基础和实际应用，以及邮件发送技术在DevOps和大数据处理中的拓展应用。文章详细探讨了SMTP、POP3和IMAP等邮件协议的工作原理，分析了MTA...

shup:用于解析HTML的POSIX Shell脚本

04-16

关机 Shell中的简单HTML解析器。需要 POSIX外壳 sed 用法 USAGE: shup [OPTIONS] [ " FILTER1 " " FILTER2 " ...] -h show this help -v show version -r raw: last filter tag will not be shown -t text: no tags will be shown -o " string " specify output indentation FILTER FORMAT: " <tagname> " or " <tagname>[<search>] " the searc

用htmlcxx解析从libcurl中获取到的web网页源码

10-30

使用libcurl获取经过gzip压缩的网页文件，配合我的文章http://blog.youkuaiyun.com/zengraoli/article/details/13623701 使用

通过shell抓取html数据

congbao6525的博客

08-24

1305

最近看一些网站的时候，发现有些数据很有意思，想把数据截取出来，但是想把数据抽取出来很是困难。因为如下的小方框的数字都是上下两行排列，想要把数据抽取到一行是很难实现的。斯达2:3斯特罗姆23:57欧亚析0...

php curl 解析html,php：使用cURL获取html源代码

weixin_39804329的博客

03-10

430

小编典典请尝试以下操作：$ch = curl_init("http://www.example-webpage.com/file.html");curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);curl_setopt($ch, CURLOPT_BINARYTRANSFER, true);$content = curl_exec($ch);curl_clo...

shell命令curl抓取网页内容-下载xls文件

为无为，事无事，味无味。

04-15

4808

通过curl命令抓取网页内容，关键点如下： 1.curl要模拟浏览器，最好是有个代理，因为很多站点都会搞个反爬虫什么的。 2.我的需求很简单，就是在国家外汇管理局上下载各种货币对美元的汇率。 http://www.safe.gov.cn/wps/portal/sy/tjsj_dmzsl 3.主要命令：curl，grep，awk，xls2txt，msql(LOAD DATA )。 cu

shell解析html文件,请问Powershell解析html的问题

weixin_31703351的博客

06-15

546

我正在使用Powershell的Microsoft服务器。我要做的任务是获取并设置"测试用例"类型的给定工作项的"步骤"。，TFS在XML文档中存储诸如 HTMLHTML这样的信息，以避免HTML元素，从而避免使用 XML 。下面是一个示例：复制代码I do this and that I do something else This happens 显示为：如何获得每个项目的"纯文本"？...

从html脚本中提取信息,通过Shell脚本从基于表列的HTML中提取文本

weixin_30703633的博客

06-17

676

我需要编写一个shell脚本来读取html文件sample.html，并根据另一个表列从表列中提取数据。例如，这是HTML代码：通过Shell脚本从基于表列的HTML中提取文本border="0" bordercolor="#000000"cellpadding="3" cellspacing="0" width="100%" height="200">core6690.myserverdo...

抓取网页并解析HTML

VergiL Wang的专栏

08-09

224

http://www.lovelucy.info/python-crawl-pages.html 我觉得java太啰嗦，不够简洁。Python这个脚本语言开发起来速度很快，一个活生生的例子是因有关政策verycd开始自我阉割，有网友为了抢救资源，把整个verycd站爬了下来，镜像为SimpleCD.org。看了一下爬虫源代码，其实挺简单。使用方法： import urllib2 conten...

使用shell抽取html数据之二

congbao6525的博客

08-25

678

昨天使用shell脚本来抽取html数据的时候，碰到了一个问题，如果要抽取的数据成了如下的情形时，数据的抽取就会出现不一致，有一些记录会没有数据，只显示"未开售" 这个时候如果还是按照原来的思路来抽取就会出现数据混乱的情况，比如...