Python--蚂蜂窝游记爬取代码

最新推荐文章于 2024-05-28 21:49:55 发布

Todou_

最新推荐文章于 2024-05-28 21:49:55 发布

阅读量3.1k

点赞数 5

CC 4.0 BY-SA版权

文章标签： python 爬虫蚂蜂窝旅游数据

本文链接：https://blog.youkuaiyun.com/weixin_44137458/article/details/95046749

本文介绍了使用Python进行蚂蜂窝游记爬取的方法，涵盖游记的标题、出行日期、游玩天数、费用和人物等信息。尽管代码简单但不含数据清洗部分，需要注意的是，由于蚂蜂窝的反爬策略，建议使用代理IP以避免限制。

Python--蚂蜂窝游记爬取代码

- 前言
- 代码
- 结果

前言

最近由于项目需求，研究了下爬虫，并写了爬取去哪儿、蚂蜂窝以及携程的景点与游记的代码。
这里献上蚂蜂窝的游记爬取代码，较为粗糙且不包含数据清理。
爬取的内容，包括每一篇游记的标题、出行日期、游玩天数、费用、人物等数据，如图红框：
在这里插入图片描述
最后，蚂蜂窝反爬很严格，最好多准备几个代理ip。（此代码为无代理ip的版本）
话不多说，上代码——

代码

// An highlighted block
# -*- coding:utf-8 -*-
import requests
import random
import time
import pandas as pd
from lxml import etree

User_Agent = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"]

HEADERS = {
   
   
    'User-Agent': User_Agent[random.randint(0, 5)],
    # 'User-Agent'