python爬取公众号文章发布时间

使用xpath取出来的是空,爬取到本地的html,时间的标签如下,内容也是是空的

<em id="publish_time" class="rich_media_meta rich_media_meta_text"></em>

经过查找发现网页使用的是时间戳,通过xpath获取时间戳

pat1 = r"var ct = \"(\d+)\""        
date1 = re.search(pat1, reponse).group(1)
date1 = int(date1)
#转换为其他日期格式,如:"%Y-%m-%d %H:%M:%S"
timeArray = time.localtime(date1)
otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
Python 爬取公众号图片通常涉及到网络请求、HTML解析和文件存储等步骤。以下是基本的流程: 1. **安装所需库**: 首先需要安装 `requests` 库来进行 HTTP 请求,以及如 `beautifulsoup4` 或 `lxml` 进行 HTML 解析。 2. **发送请求**: 使用 `requests.get(url)` 获取公众号文章页面的 HTML 内容。记得检查网站是否允许爬虫访问,并遵守其robots.txt规则。 3. **定位图片元素**: 利用 BeautifulSoup 或其他解析库分析 HTML 结构,找到包含图片链接的元素。这通常是通过查找 `<img>` 标签并获取 `src` 属性来完成的。 ```python import requests from bs4 import BeautifulSoup url = 'https://mp.weixin.qq.com/s/<your_article_url>' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') images = soup.find_all('img', src=True) ``` 4. **保存图片**: 对于每个找到的图片链接,创建一个文件名(可能是基于URL生成),然后下载图片到本地。 ```python import os for img in images: img_url = img['src'] filename = os.path.join(os.getcwd(), os.path.basename(img_url)) with open(filename, 'wb') as f: response = requests.get(img_url, stream=True) for chunk in response.iter_content(1024): if chunk: f.write(chunk) ``` 5. **处理可能出现的问题**: - 有些网站可能会有防盗链机制,需要设置正确的User-Agent和Cookie。 - 分页爬取时,需要处理导航链接,递归或循环遍历。 - 注意版权和法律问题,尊重网站规定,合理使用爬取信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MrFlySand_飞沙

公众号【小知识酷】,搜索获取更

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值