获取URL节点内容

//获取当前页面url
let url= window.location.href;
alert(url);
//设置或获取对象指定的文件名或路径。
console.log("设置或获取对象指定的文件名或路径:",window.location.pathname);
//设置或获取与 URL 关联的端口号码。
console.log("设置或获取与 URL 关联的端口号码:",window.location.port);
//设置或获取 URL 的协议部分。
console.log("设置或获取 URL 的协议部分:",window.location.protocol);
//设置或获取 href 属性中在井号“#”后面的分段。
console.log("“#”后面的分段:",window.location.hash);
//设置或获取 location 或 URL 的 hostname 和 port 号码
console.log("设置或获取 location 或 URL 的 hostname 和 port 号码:",window.location.host);
//设置或获取 href 属性中跟在问号后面的部分。
console.log("问号后面的部分:",window.location.search);

本地url:http://gas.pansoftyun.com/
结果如下:
结果展示:

### 使用 BeautifulSoup 抓取和解析 URL 页面内容 为了有效地抓取并解析 URL 页面的内容,通常会结合 `Requests` 库来获取网页的 HTML 内容,并利用 `BeautifulSoup` 来解析这些内容。以下是具体实现方法: #### 安装必要的库 首先需要安装两个主要依赖项:`beautifulsoup4` 和 `requests`。 ```bash pip install beautifulsoup4 requests lxml ``` #### 获取网页内容 通过 `requests.get()` 方法发送 HTTP 请求以获得目标网站的数据流响应对象,再从中读取出字符串形式的HTML源码[^2]。 ```python import requests url = 'http://example.com' response = requests.get(url) html_content = response.text ``` #### 解析 HTML 内容 创建一个 `BeautifulSoup` 对象实例化时传入上述得到的 html 字符串以及所选用的解析器(推荐使用速度快且功能全面的 `'lxml'`),这一步骤能够构建起可供查询操作的对象结构树形图[^1]。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'lxml') ``` #### 提取所需信息 一旦拥有了 `BeautifulSoup` 实例之后就可以方便地访问文档中的各种元素了。比如要找到所有的 `<a>` 标签链接或者特定类名下的文本节点等都可以轻松完成。这里给出几个常见的例子说明如何定位到想要的信息片段[^3]。 - 查找所有超链接: ```python links = soup.find_all('a', href=True) for link in links: print(link['href']) ``` - 获取某个 div 下的文字内容 ```python text = soup.select_one('.specific-class').get_text(strip=True) print(text) ``` 综上所述,通过组合运用 `requests` 发送请求取得原始网页资料再加上 `BeautifulSoup` 的强大解析能力便足以应对大多数简单的 Web Scraping 场景需求了[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值