BeautifulSoup解析H5——python爬虫

import requests
from bs4 import BeautifulSoup

"""
description:爬取東方語言學網
word:待查字
zu:閩語|吳語|平話|客家|贛語|官話
"""


def crawl_main(word, zu):
    url = "http://eastling.org/fangyan_word_go.php"
    payload = {'word': word,
               'zu': zu,
               'mode': 'word',
               'map': '查 詢'}
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36",
    }

    ret = requests.request("POST", url, headers=headers, data=payload)
    ret.encoding = ret.apparent_encoding  # 指定编码等于原始页面编码

    # print(ret.text)
    soup = BeautifulSoup(ret.text, 'html.parser')
    tables = soup.findAll('table')[1]  # 指定采集第二个table的信息

    trs = soup.findAll('table')[1].findAll('tr')
    heads = []  # 表头

    for tr in trs:

        ths = tr.findAll('th')
        for th in ths:
            heads.append(th.get_text())
        break
    cols = []
    for tr in trs:

        col = []
        ths = tr.findAll('td')
        for th in ths:
            col.append(th.get_text())
        cols.append(col)
    res = {'heads': heads, 'cols': cols[1:]}
    return res


if __name__ == '__main__':
    print(crawl_main("好", "粵語"))
### 使用 Python 编写能够识别图像的爬虫 #### 图像识别与取框架的选择 为了实现一个既能抓取网页又能分析其中图片内容的程序,通常会选择 Scrapy 或 Beautiful Soup 结合 Requests 库用于网络请求部分。对于图像处理方面,则依赖于 Pillow (PIL 的分支)[^1]。 #### 安装必要的库 首先安装所需的第三方模块: ```bash pip install scrapy pillow requests beautifulsoup4 opencv-python tensorflow ``` #### 构建基本结构 创建一个新的Scrapy项目并定义Item Pipeline来保存下载下来的文件路径以及初步过滤掉不符合条件的对象;同时自定义Downloader Middleware以便在获取资源前对其进行预览判断其是否值得进一步处理[^2]。 #### 集成机器学习模型 考虑到单纯依靠颜色分布等简单特征难以有效地区分复杂场景下的目标类别(比如区分正常照片和敏感内容),可以引入基于深度神经网络训练而成的专业API服务或是本地部署TensorFlow/PyTorch模型来进行更精准的内容审核工作[^3]。 #### 示例代码片段 下面给出一段简化版的例子展示如何结合OpenCV读入一张远程URL指向的JPEG格式数据流,并调用预先加载好的分类器执行预测任务: ```python import cv2 from urllib.request import urlopen import numpy as np from keras.models import load_model def url_to_image(url): resp = urlopen(url) image = np.asarray(bytearray(resp.read()), dtype="uint8") image = cv2.imdecode(image, cv2.IMREAD_COLOR) return image model_path = 'path/to/trained/model.h5' classifier = load_model(model_path) img_url = "http://example.com/image.jpg" image = url_to_image(img_url) prediction = classifier.predict([prepare_input_data(image)]) if prediction >= threshold_value: print("Detected inappropriate content.") else: save_or_process_image_locally() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值