纽约时报文章爬取教程:提取日期和谎言
本教程是四部分系列教程的一部分,旨在通过网页抓取从纽约时报关于特朗普总统的文章中构建数据集。在本节中,我们将从已解析的HTML数据中提取日期和谎言信息。
提取日期
- 我们使用
find
方法在第一个记录中查找<strong>
标签,并提取其text
属性来获取日期。 - 由于日期包含一个特殊字符
\xA0
,我们使用切片将其移除。 - 最后,我们添加年份信息以确保日期完整。
提取谎言
- 由于谎言信息没有被独立的标签包围,我们使用
contents
属性获取第一个记录的子节点。 - 子节点列表包含标签和文本内容,我们需要从中提取包含谎言信息的两个句子。
- 具体提取方法需要根据HTML结构进行调整,教程中没有给出详细步骤,但提到了需要使用其他技术来完成。
总结
本节教程介绍了如何从解析后的HTML数据中提取日期和谎言信息。教程中展示了使用find
方法和contents
属性提取数据的方法,并强调了网页抓取过程中的迭代性和实验性。
下一部分
下一部分教程将介绍如何提取解释和URL信息,并使用循环对数据集进行结构化处理。
这是网页抓取入门教程的第三部分。 在本视频中,我们将使用 Python 的 Beautiful Soup 库从《纽约时报》文章中创建一个结构化的数据集。