
U爬虫
hiyunie
北京工业大学;18级;信息管理与信息系统专业在读
展开
-
豆瓣图书项目-selenium
源码from selenium import webdriverfrom lxml import etreefrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import ex...原创 2020-04-27 00:29:12 · 186 阅读 · 0 评论 -
最受期待榜-猫眼电影- 一网打尽
所用工具xpath心得之xpath的不足之处xpath爬的数据返回的是一个列表,在本网站爬取的时候可以说是很顺利,比使用正则要好一些,但是有的时候xpath并不起作用(可能是因为网页框架的原因…)。本次遇到了这样的问题无主演(数据缺失)这样则会导致数据混乱,而我暂时没有解决这个漏洞,刚翻了下数据,对整体的影响并不大,只是个别电影的主演搞混乱了,总体上强差人意吧!源代码i...原创 2020-04-25 23:53:13 · 470 阅读 · 0 评论 -
Python自动下载陈奕迅的歌(可以下vip的哦)
先来张成果图再来看看软件内的歌曲信息下面贴上源代码import requestsimport reimport timedef main(): # 确定歌单的url url = 'https://music.163.com/artist?id=2116' # 确定外链的url base_url = 'https://link.hhtjim.co...原创 2020-04-18 19:22:36 · 677 阅读 · 4 评论 -
猫眼电影最新版
此次做了很多的修改,包括主演的匹配等等匹配主演的表达式<切记:猫眼电影这个网站一定要带上cookie>actor_p = re.compile(r'<p class="star">\s+(.*?)\s+</p>', re.S)我使用了\s+的方法来规避空白字符,这样我们能更好的爬取我们想要的文本信息下面贴上源代码import req...原创 2020-04-17 21:39:27 · 607 阅读 · 0 评论