BeautifulSoup学习笔记——获取元素文本

最新推荐文章于 2024-07-15 10:36:04 发布

原创最新推荐文章于 2024-07-15 10:36:04 发布 · 671 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#beautifulsoup #学习 #笔记

本文讲述了作者在处理HTML时，发现BeautifulSoup比lxml更便于获取td元素内的所有文本，特别是当遇到带有style属性导致XPath解析困难的情况，BeautifulSoup的`.text`属性提供了简洁的解决方案。

想获取td内的所有文本，之前一直使用lxml库进行解析，但是该方法只能获取单个元素的文本，无法获取元素内的所有文本，使用xpath方法获取所有文本时，由于这里有个style，会获取很多无用的东西，特别麻烦，今天学了一下BeautifulSoup，没想到功能强大多了，直接.text就能获取所有元素内文本，一行就能解决，实在太方便了。

soup = BeautifulSoup(response.text,'lxml')
tbody=soup.select('table[class="table"]>tbody')[0]#定位到tbody
trs=tbody.select('tr')#定位到tr
for tr in trs:
    th=tr.select('th')[0]
    left=th.text
    print(left)
    td=tr.select('td')[0]
    item = td.text.strip().replace('\n', '')
    if len(item) != 0:
        print(item)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lupe_c

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

『python爬虫』beautifulsoup库获取文本的方法.get_text()、.text 和 .string区别（保姆级图文）

MZH

08-04

1285

『python爬虫』beautifulsoup库获取文本的方法.get_text()、.text 和 .string区别（保姆级图文）

【学习笔记】爬虫（Ⅲ）—— BeautifulSoup和CSS选择器

Eddie_hyh的博客

04-24

1442

爬虫第三部分：beautifulsoup和css选择器

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2023.10.23
这篇博客真是精彩绝伦！恭喜你成功探索了BeautifulSoup学习的新领域，并将获取元素文本的技巧进行了详细讲解。你的解释清晰而简洁，使我对BeautifulSoup的使用有了更深的理解。希望你能继续保持创作的热情，并继续分享更多关于BeautifulSoup的学习笔记。或许下一步，你可以尝试探索BeautifulSoup在处理HTML属性和标签等方面的应用，这将进一步丰富我们的知识库。期待你的下一篇文章！