爬文本

问题:爬取的文本都是16进制

 

列表形式里 中文是以两个字节编码的形式出现的
所以你打印列表是显示这样的值
你可以尝试遍历列表 用print输出 就可以看到中文了
去掉ex的方法很多 比如可以调用replace()  把‘ex’换成‘’空字符串

转载于:https://www.cnblogs.com/xiaolangjun/p/6964192.html

### Python虫与文本处理技术 #### 虫基本概念 网络虫是一种自动化程序,用于从互联网上抓取网页内容并提取所需的信息。Python因其强大的生态系统和易用性成为开发虫的理想选择[^2]。 #### 常用工具包 在构建虫的过程中,`requests` 是一个非常流行的 HTTP 请求库,可以方便地发送 GET 和 POST 请求来获取网页数据。对于网页解析,`BeautifulSoup` 提供了一种简单而直观的方式来导航、搜索和修改 HTML 或 XML 树结构[^1]。 #### 正则表达式的作用 正则表达式是文本处理中的关键技术之一,它允许开发者定义灵活的模式来进行字符串匹配、查找、替换等操作。Python 的 `re` 模块支持广泛的正则表达式功能,使得复杂的数据抽取变得更为简便[^3]。 #### 文本预处理方法 为了进一步分析所采集到的文本数据,在自然语言处理领域通常会执行一系列预处理步骤,比如分词、去除停用词、计算词频统计以及生成词云图等。这些任务可以通过诸如 jieba 这样的中文分词库来实现。 #### 条件语句的应用 熟练运用条件判断可以帮助我们更好地控制逻辑流,从而更精确地筛选目标信息或者根据不同情况采取相应措施。例如,在数据清理阶段可能需要用到多个嵌套if-else结构来识别异常值或错误记录。 #### 字典及其他数据类型的重要性 字典作为键值对存储容器,在关联特定关键词与其属性方面表现优异;列表适合保存有序项目集合;元组由于其不可变特性适用于固定组合场景等等。合理利用它们有助于提高代码效率及可维护性。 ```python import requests from bs4 import BeautifulSoup import re def fetch_web_content(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') paragraphs = soup.find_all('p') # 使用正则表达式的替代方案 text_data = [para.get_text() for para in paragraphs] return text_data url = "http://example.com" content = fetch_web_content(url) pattern = r'\b\w+\b' words = [] for paragraph in content: matches = re.findall(pattern, paragraph) words.extend(matches[:]) print(words[:10]) ``` 上述脚本展示了一个简单的例子,说明如何结合使用 Requests 获取页面内容,借助 Beautiful Soup 解析 DOM 并最终采用 Re 执行初步文字切片工作。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值