爬取电影天堂的最新电影

以后再也不愁看什么电影了


作者:猴哥Yuri

博客:https://www.jianshu.com/u/f46becd1ed83


文章目录

  • 爬取目标

  • 设计爬虫程序

    • 确定爬取入口

    • 爬取思路

    • 设计爬虫架构

    • 代码实现

  • 爬取结果


前面两篇文章介绍 requests 和 xpath 的用法。我们推崇学以致用,所以本文讲解利用这两个工具进行实战。


0

爬取目标

本次爬取的站点选择电影天堂,网址是: www.dytt8.net。爬取内容是整个站点的所有电影信息,包括电影名称,导演、主演、下载地址等。具体抓取信息如下图所示:


1

设计爬虫程序

2.1 确定爬取入口

电影天堂里面的电影数目成千上万,电影类型也是让人眼花缭乱。我们为了保证爬取的电影信息不重复, 所以要确定一个爬取方向。目前这情况真让人无从下手。但是,我们点击主页中的【最新电影】选项,跳进一个新的页面。蓦然有种柳暗花明又一村的感觉。

由图可知道,电影天堂有 5 个电影栏目,分别为最新电影、日韩电影、欧美电影、国内电影、综合电影。每个栏目又有一定数量的分页,每个分页有 25 条电影信息。那么程序的入口可以有 5 个 url 地址。这 5 个地址分别对应每个栏目的首页链接。


2.2 爬取思路

知道爬取入口,后面的工作就容易多了。我通过测试发现这几个栏目除了页面的 url 地址不一样之外,其他例如提取信息的 xpath 路径是一样的。因此,我把 5 个栏目当做 1  个类,再该类进行遍历爬取。


我这里“最新电影”为例说明爬取思路。
1)请求栏目的首页来获取到分页的总数,以及推测出每个分页的 url 地址;
2)将获取到的分页 url 存放到名为 floorQueue 队列中;
3)从 floorQueue 中依次取出分页 url,然后利用多线程发起请求;
4)将获取到的电影页面 url 存入到名为 middleQueue 的队列;
5)从 middleQueue 中依次取出电影页面 url,再利用多线程发起请求;
6)将请求结果使用 Xpath 解析并提取所需的电影信息;
7)将爬取到的电影信息存到名为 contentQueue 队列中;
8)从 contentQueue 队列中依次取出电影信息,然后存到数据库中。


2.3 设计爬虫架构

根据爬取思路,我设计出爬虫架构。如下图所示:


2.4 代码实现

主要阐述几个重要的类的代码

  • main 类

主要工作两个:第一,实例化出一个dytt8Moive对象,然后开始爬取信息。第二,等爬取结束,将数据插入到数据库中。

处理爬虫的逻辑代码如下:

# 截止到2017-08-08, 最新电影一共才有 164 个页面
LASTEST_MOIVE_TOTAL_SUM = 6 #164

# 请求网络线程总数, 线程不要调太好, 不然会返回很多 400
THREAD_SUM = 5

def startSpider():
   # 实例化对象

   # 获取【最新电影】有多少个页面
   LASTEST_MOIVE_TOTAL_SUM = dytt_Lastest.getMaxsize()
   print('【最新电影】一共  ' + str(LASTEST_MOIVE_TOTAL_SUM) + '  有个页面')
   dyttlastest = dytt_Lastest(LASTEST_MOIVE_TOTAL_SUM)
   floorlist = dyttlastest.getPageUrlList()

   floorQueue = TaskQueue.getFloorQueue()
   for item in floorlist:
       floorQueue.put(item, 3)

   # print(floorQueue.qsize())

   for i in range(THREAD_SUM):
       workthread = FloorWorkThread(floorQueue, i)
       workthread.start()

   while True:
       if TaskQueue.isFloorQueueEmpty():
           break
       else:
           pass

   for i in range(THREAD_SUM):
       workthread = TopWorkThread(TaskQueue.getMiddleQueue(), i)
       workthread.start()

   while True:
       if TaskQueue.isMiddleQueueEmpty():
           break
       else:
           pass

   insertData()
   
if __name__ == '__main__':
   startSpider()


创建数据库以及表,接着再把电影信息插入到数据库的代码如下:

def insertData():
   DBName = 'dytt.db'
   db = sqlite3.connect('./' + DBName, 10)
   conn = db.cursor()

   SelectSql = 'Select * from sqlite_master where type = "table" and name="lastest_moive";'
   CreateTableSql = '''
       Create Table lastest_moive (
           'm_id' INTEGER PRIMARY KEY,
           'm_type' varchar(100),
           'm_trans_name' varchar(200),
           'm_name' varchar(100),
           'm_decade' varchar(30),
           'm_conutry' varchar(30),
           'm_level' varchar(100),
           'm_language' varchar(30),
           'm_subtitles' varchar(100),
           'm_publish' varchar(30),
           'm_IMDB_socre' varchar(50),
           'm_douban_score' varchar(50),
           'm_format' varchar(20),
           'm_resolution' varchar(20),
           'm_size' varchar(10),
           'm_duration' varchar(10),
           'm_director' varchar(50),
           'm_actors' varchar(1000),
           'm_placard' varchar(200),
           'm_screenshot' varchar(200),
           'm_ftpurl' varchar(200),
           'm_dytt8_url' varchar(200)
       );
   '''

   InsertSql = '''
       Insert into lastest_moive(m_type, m_trans_name, m_name, m_decade, m_conutry, m_level, m_language, m_subtitles, m_publish, m_IMDB_socre, 
       m_douban_score, m_format, m_resolution, m_size, m_duration, m_director, m_actors, m_placard, m_screenshot, m_ftpurl,
       m_dytt8_url)
       values(?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
   '''

   if not conn.execute(SelectSql).fetchone():
       conn.execute(CreateTableSql)
       db.commit()
       print('====  创建表成功  ====')
   else:
       print('====  创建表失败, 表已经存在  ====')

   count = 1

   while not TaskQueue.isContentQueueEmpty():
       item = TaskQueue.getContentQueue().get()
       conn.execute(InsertSql, Utils.dirToList(item))
       db.commit()
       print('插入第 ' + str(count) + ' 条数据成功')
       count = count + 1

   db.commit()
   db.close()
 


  • TaskQueue 类

维护 floorQueue、middleQueue、contentQueue 三个队列的管理类。之所以选择队列的数据结构,是因为爬虫程序需要用到多线程,队列能够保证线程安全。


  • dytt8Moive 类

dytt8Moive 类是本程序的主心骨。程序最初的爬取目标是 5 个电影栏目,但是目前只现实了爬取最新栏目。如果你想爬取全部栏目电影,只需对 dytt8Moive 稍微改造下即可。

class dytt_Lastest(object):

   # 获取爬虫程序抓取入口
   breakoutUrl = 'http://www.dytt8.net/html/gndy/dyzz/index.html'

   def __init__(self, sum):
       self.sum = sum


   # 获取【最新电影】有多少个页面
   # 截止到2017-08-08, 最新电影一共才有 164 个页面
   @classmethod
   def getMaxsize(cls):
       response = requests.get(cls.breakoutUrl, headers=RequestModel.getHeaders(), proxies=RequestModel.getProxies(), timeout=3)
       # 需将电影天堂的页面的编码改为 GBK, 不然会出现乱码的情况
       response.encoding = 'GBK'

       selector = etree.HTML(response.text)
       # 提取信息
       optionList = selector.xpath("//select[@name='sldd']/text()")
       return len(optionList) - 1   # 因首页重复, 所以要减1


   def getPageUrlList(self):
       '''
       主要功能:目录页url取出,比如:http://www.dytt8.net/html/gndy/dyzz/list_23_'+ str(i) + '.html
       '''

       templist = []
       request_url_prefix = 'http://www.dytt8.net/html/gndy/dyzz/'
       templist = [request_url_prefix + 'index.html']

       for i in range(2, self.sum + 1):
           templist.append(request_url_prefix + 'list_23_' + str(i) + '.html')

       for t in templist:
           print('request url is ###   ' + t + '    ###')
       return templist


   @classmethod
   def getMoivePageUrlList(cls, html):
       '''
       获取电影信息的网页链接
       '''

       selector = etree.HTML(html)
       templist = selector.xpath("//div[@class='co_content8']/ul/td/table/tr/td/b/a/@href")
       # print(len(templist))
       # print(templist)
       return templist

   @classmethod
   def getMoiveInforms(cls, url, html):
       '''
       解析电影信息页面的内容, 具体如下:
       类型        : 疾速特攻/疾速追杀2][BD-mkv.720p.中英双字][2017年高分惊悚动作]
       ◎译名      : ◎译\u3000\u3000名\u3000疾速特攻/杀神John Wick 2(港)/捍卫任务2(台)/疾速追杀2/极速追杀:第二章/约翰·威克2
       ◎片名      : ◎片\u3000\u3000名\u3000John Wick: Chapter Two
       ◎年代     : ◎年\u3000\u3000代\u30002017
       ◎国家     : ◎产\u3000\u3000地\u3000美国
       ◎类别     : ◎类\u3000\u3000别\u3000动作/犯罪/惊悚
       ◎语言     : ◎语\u3000\u3000言\u3000英语
       ◎字幕     : ◎字\u3000\u3000幕\u3000中英双字幕
       ◎上映日期  :◎上映日期\u30002017-02-10(美国)
       ◎IMDb评分  : ◎IMDb评分\xa0 8.1/10 from 86,240 users
       ◎豆瓣评分  : ◎豆瓣评分\u30007.7/10 from 2,915 users
       ◎文件格式   : ◎文件格式\u3000x264 + aac
       ◎视频尺寸  : ◎视频尺寸\u30001280 x 720
       ◎文件大小  : ◎文件大小\u30001CD
       ◎片长     : ◎片\u3000\u3000长\u3000122分钟
       ◎导演     : ◎导\u3000\u3000演\u3000查德·史塔赫斯基 Chad Stahelski
       ◎主演     :
       ◎简介      : 暂不要该字段
       ◎获奖情况   : 暂不要该字段
       ◎海报
       影片截图
       下载地址
       '''

       # print(html)
       contentDir = {
           'type''',
           'trans_name''',
           'name''',
           'decade''',
           'conutry''',
           'level''',
           'language''',
           'subtitles''',
           'publish''',
           'IMDB_socre''',
           'douban_score''',
           'format''',
           'resolution''',
           'size''',
           'duration''',
           'director''',
           'actors''',
           'placard''',
           'screenshot''',
           'ftpurl''',
           'dytt8_url'''
       }

       selector = etree.HTML(html)
       content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/p/text()")
       # 匹配出来有两张图片, 第一张是海报, 第二张是电影画面截图
       imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/p/img/@src")
       # print(content)

       # 为了兼容 2012 年前的页面
       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/span/text()")

       # 有些页面特殊, 需要用以下表达式来重新获取信息
       # 电影天堂页面好混乱啊~
       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/div/text()")

       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/font/text()")
           if len(content) < 5:
               content = selector.xpath("//div[@class='co_content8']/ul/tr/td/p/font/text()")

       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/span/text()")

       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/span/text()")

       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/font/text()")

       if not len(content):
           content = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/text()")

       # print(content)

       # 不同渲染页面要采取不同的抓取方式抓取图片
       if not len(imgs):
           imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/img/@src")

       if not len(imgs):
           imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/img/@src")

       if not len(imgs):
           imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/img/@src")

       if not len(imgs):
           imgs = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/div/img/@src")

       # 类型
       if content[0][0:1] != '◎':
           contentDir['type'] = '[' + content[0]
       actor = ''

       for each in content:
           if each[0:5] == '◎译\u3000\u3000名':
               # 译名 ◎译\u3000\u3000名\u3000  一共占居6位
               contentDir['trans_name'] = each[6: len(each)]
           elif each[0:5] == '◎片\u3000\u3000名':
               # 片名
               contentDir['name'] = each[6: len(each)]
           elif each[0:5] == '◎年\u3000\u3000代':
               # 年份
               contentDir['decade'] = each[6: len(each)]
           elif each[0:5] == '◎产\u3000\u3000地':
               # 产地
               contentDir['conutry'] = each[6: len(each)]
           elif each[0:5] == '◎类\u3000\u3000别':
               # 类别
               contentDir['level'] = each[6: len(each)]
           elif each[0:5] == '◎语\u3000\u3000言':
               # 语言
               contentDir['language'] = each[6: len(each)]
           elif each[0:5] == '◎字\u3000\u3000幕':
               # 字幕
               contentDir['subtitles'] = each[6: len(each)]
           elif each[0:5] == '◎上映日期':
               # 上映日期
               contentDir['publish'] = each[6: len(each)]
           elif each[0:7] == '◎IMDb评分':
               # IMDb评分
               contentDir['IMDB_socre'] = each[9: len(each)]
           elif each[0:5] == '◎豆瓣评分':
               # 豆瓣评分
               contentDir['douban_score'] = each[6: len(each)]
           elif each[0:5] == '◎文件格式':
               # 文件格式
               contentDir['format'] = each[6: len(each)]
           elif each[0:5] == '◎视频尺寸':
               # 视频尺寸
               contentDir['resolution'] = each[6: len(each)]
           elif each[0:5] == '◎文件大小':
               # 文件大小
               contentDir['size'] = each[6: len(each)]
           elif each[0:5] == '◎片\u3000\u3000长':
               # 片长
               contentDir['duration'] = each[6: len(each)]
           elif each[0:5] == '◎导\u3000\u3000演':
               # 导演
               contentDir['director'] = each[6: len(each)]
           elif each[0:5] == '◎主\u3000\u3000演':
               # 主演
               actor = each[6: len(each)]

       for item in content:
           if item[04] == '\u3000\u3000\u3000\u3000':
               actor = actor + '\n' + item[6: len(item)]

       # 主演
       contentDir['actors'] = actor
       # 海报
       if imgs[0] != None:
           contentDir['placard'] = imgs[0]
       # 影片截图
       if imgs[1] != None:
           contentDir['screenshot'] = imgs[1]
       # 下载地址
       ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/table/tbody/tr/td/a/text()")

       # 为了兼容 2012 年前的页面
       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/table/tbody/tr/td/font/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/table/tbody/tr/td/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/table/tbody/tr/td/font/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/div/table/tbody/tr/td/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/td/table/tbody/tr/td/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/p/span/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/div/table/tbody/tr/td/font/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/span/table/tbody/tr/td/font/a/text()")

       if not len(ftp):
           ftp = selector.xpath("//div[@class='co_content8']/ul/tr/td/div/div/td/div/span/div/table/tbody/tr/td/font/a/text()")

       contentDir['ftpurl'] = ftp[0]
       # 页面链接
       contentDir['dytt8_url'] = url
       print(contentDir)
       return contentDir


getMoiveInforms 方法是主要负责解析电影信息节点并将其封装成字典。在代码中,你看到 Xpath 的路径表达式不止一条。因为电影天堂的电影详情页面的排版参差不齐,所以单单一条内容提取表达式、海报和影片截图表达式、下载地址表达式远远无法满足。


选择字典类型作为存储电影信息的数据结构,也是自己爬坑之后才决定的。这算是该站点另一个坑人的地方。电影详情页中有些内容节点是没有,例如类型、豆瓣评分,所以无法使用列表按顺序保存。


2

爬取结果

我这里展示自己爬取最新栏目中 4000 多条数据中前面部分数据。

附:源代码地址(https://link.jianshu.com/?t=https://github.com/monkey-soft/MoivesSpider)

分享朋友圈 也是另一种赞赏

The more we share, The more we have

 

欢迎加入数据君高效数据分析社区


加我私人微信进入大数据干货群:tongyuannow 






目前100000+人已关注加入我们

       

       





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值