利用xpath爬丁香园论坛帖子的所有回复内容

部署运行你感兴趣的模型镜像
from lxml import etree
import requests

def get_html(url, headers):
    response = requests.get(url, headers = headers)
    try:
        if response.status_code == 200:
            return response.text
    except:
        pass

def  get_parse(html):
    tree = etree.HTML(html)
    user = tree.xpath('//*/table/tbody/tr/td/div/a/text()')
    reply = tree.xpath('//*/table/tbody/tr/td/div/div/table/tbody/tr/td/text()')

    for users, replys in zip(user, reply):
        print('用户名:'+users, '回复内容:'+ replys.strip())


def main():
    url = 'http://www.dxy.cn/bbs/thread/626626'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
               }
    html = get_html(url, headers)
    get_parse(html)

if __name__ == '__main__':
    main()
    ```
    爬取结果:![在这里插入图片描述](https://img-blog.csdnimg.cn/20190304160450654.png)

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

C语言-光伏MPPT算法:电导增量法扰动观察法+自动全局搜索Plecs最大功率跟踪算法仿真内容概要:本文档主要介绍了一种基于C语言实现的光伏最大功率点跟踪(MPPT)算法,结合电导增量法与扰动观察法,并引入自动全局搜索策略,利用Plecs仿真工具对算法进行建模与仿真验证。文档重点阐述了两种经典MPPT算法的原理、优缺点及其在不同光照和温度条件下的动态响应特性,同时提出一种改进的复合控制策略以提升系统在复杂环境下的跟踪精度与稳定性。通过仿真结果对比分析,验证了所提方法在快速性和准确性方面的优势,适用于光伏发电系统的高效能量转换控制。; 适合人群:具备一定C语言编程基础和电力电子知识背景,从事光伏系统开发、嵌入式控制或新能源技术研发的工程师及高校研究人员;工作年限1-3年的初级至中级研发人员尤为适合。; 使用场景及目标:①掌握电导增量法与扰动观察法在实际光伏系统中的实现机制与切换逻辑;②学习如何在Plecs中搭建MPPT控制系统仿真模型;③实现自动全局搜索以避免传统算法陷入局部峰值问题,提升复杂工况下的最大功率追踪效率;④为光伏逆变器或太阳能充电控制器的算法开发提供技术参考与实现范例。; 阅读建议:建议读者结合文中提供的C语言算法逻辑与Plecs仿真模型同步学习,重点关注算法判断条件、步长调节策略及仿真参数设置。在理解基本原理的基础上,可通过修改光照强度、温度变化曲线等外部扰动因素,进一步测试算法鲁棒性,并尝试将其移植到实际嵌入式平台进行实验验证。
### XPath 虫 示例代码 为了实现基于XPath的网页抓取,通常会借助`lxml`库以及`requests`库来获取并解析网页内容。下面是一个简单的例子,展示了如何利用这些工具完成特定数据项的提取。 #### 安装依赖包 首先需要安装必要的Python库: ```bash pip install requests lxml ``` #### Python代码实例 此段代码演示了怎样从目标网站上抓取指定的信息,并运用XPath表达式定位所需的数据节点。 ```python import requests from lxml import etree def fetch_page(url): response = requests.get(url) html_content = response.text tree = etree.HTML(html_content) items = [] # 假设我们要抓取的是书名和价格信息 book_titles = tree.xpath('//div[@class="title"]/text()') # 获取所有类名为"title"下的文本[^3] prices = tree.xpath('//span[@class="price"]/text()') # 获取所有类名为"price"下的文本 for title, price in zip(book_titles, prices): item = { 'book_title': title.strip(), 'price': float(price.replace('$', '').strip()) } items.append(item) return items if __name__ == '__main__': url = 'http://example.com/books' # 替换成实际的目标网址 books_info = fetch_page(url) print(books_info) ``` 这段程序定义了一个函数`fetch_page()`用于发送HTTP请求获得页面HTML源码;接着创建一个`etree.ElementTree`对象表示整个DOM树结构;最后通过调用`.xpath()`方法传入相应的XPath查询语句从而得到匹配的结果列表。 ### 注意事项 当编写XPath表达式时,请务必注意目标站点的具体标签名称、ID或者CSS Class等特征,因为这直接影响到能否准确定位所需的元素。此外,在处理动态加载的内容之前可能还需要考虑其他因素比如JavaScript渲染等问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值