爬去今日头条(关键字自己取)

之前写的很菜,后来无意中找到了崔庆才的视频,发现对不上,网页已经改版,所以就特地改写了一下,其中一个坑,坑了我一天把,就是js的JSON.parse()方法和python中的json.parse()不一样,js的可以序列化\\,而且全都替换没了,python的不行,这点不得不吐槽。后来用demjson转义也不行,最后用了正则放法才替换掉后进行反序列化(用replace也行),为自己鼓掌。下面就是代码,不多bb了。

import json,demjson
import re
from urllib.parse import urlencode

import requests
from bs4 import BeautifulSoup
from requests import RequestException


def get_page_index(offset, keyword):
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': '3',
        'from': 'gallery'
    }
    # https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        print(url)
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求索引页出错')
        return None


def parse_page_index(html):
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')


def get_page_detail(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/52.0.2743.116 Safari/537.36 '
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求详情页出错', url)
        return None


def parse_page_detail(html,url):
    pic_url = 'http://p3.pstatp.com/'
    soup = BeautifulSoup(html, 'lxml')
    title = soup.select('title')[0].get_text()
    image_pattern = re.compile('gallery: JSON.parse(.*?)siblingList:', re.S)

    result = re.search(image_pattern, html)
    with open('a.txt', 'a', encoding='utf8') as f:
        f.write(result.group(1))
        f.close()
    results = re.sub(r'\\', '', result.group(1))
    results = results.strip().lstrip('("').rstrip('"),')

    if results:
        data = json.loads(results)
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            images = [(pic_url+item.get('uri')) for item in sub_images]
            return {
                'title': title,
                'url': url,
                'images':images,

            }
    pass


def main():
    html = get_page_index(0, '街拍')
    for url in parse_page_index(html):
        html = get_page_detail(url)
        if html:
            result = parse_page_detail(html, url)
            with open('toutiao.txt', 'a', encoding='utf8')as f:
                f.write(json.dumps(result, ensure_ascii=False) + '\n')
            print(result)


if __name__ == '__main__':
    main()

 

关于`a_bogus`参数本身并不是标准的XML解析过程中的一部分,该术语更多地关联到特定平台或应用内的加密、签名或是验证机制中,在常规的XML文档结构里并不存在这样的节点或者属性定义。然而,如果要在处理包含此类自定义标记(如假设存在名为`<a_bogus>`的标签)的XML数据时执行解析操作,则可以采用通用的方法来读和提所需的信息。 对于Android环境中利用SAX解析器处理含有特殊字段(比如这里提到的`a_bogus`)的XML文件,可以通过重写默认事件处理器中的方法实现: ```java import org.xml.sax.Attributes; import org.xml.sax.SAXException; import org.xml.sax.helpers.DefaultHandler; // 创建一个新的类继承DefaultHandler用于处理XML流 class MyXmlHandler extends DefaultHandler { @Override public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException { super.startElement(uri, localName, qName, attributes); // 当遇到<a_bogus>标签时触发此逻辑 if ("a_bogus".equals(qName)) { System.out.println("Start Element :" + qName); // 可选:遍历当前元素的所有属性 for (int i = 0; i < attributes.getLength(); i++) { System.out.println("Attribute Name : " + attributes.getQName(i)); System.out.println("Attribute Value : " + attributes.getValue(i)); } } } @Override public void characters(char ch[], int start, int length) throws SAXException { super.characters(ch, start, length); // 获<a_bogus>标签之间的文本内容 String content = new String(ch, start, length).trim(); if (!content.isEmpty()) { System.out.println("Characters: " + content); } } @Override public void endElement(String uri, String localName, String qName) throws SAXException { super.endElement(uri, localName, qName); // 结束<a_bogus>标签时的操作 if ("a_bogus".equals(qName)) { System.out.println("End Element :" + qName); } } } ``` 上述代码展示了如何通过Java编程语言下的SAX API监听指定名称为`a_bogus`的开始与结束标签,并打印其内部字符以及任何可能存在的属性列表[^2]。 需要注意的是,实际开发场景下应当依据具体的业务需求调整这些回调函数的行为;此外,由于`a_bogus`并非官方认可的标准命名空间成员之一,因此在不同上下文中可能会有不同的含义或用途。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值