
爬虫
lwgkzl
海风和着歌声,星空伴着代码
展开
-
谷歌浏览器获取网页元素的xpath
总述:一开始接触爬虫的时候,一个元素的定位能让我纠结半天。定位有很多种,我觉得最好用的是xpath,在这里分享一个用谷歌浏览器自动定位元素的trick,以后定位元素只需要复制就可以了。第一步:找到在网页上定位元素找到你需要定位的元素,右键-》检查,那么谷歌浏览器的有边框就会跳到相对应的元素位置。如图:我右键点击了话题榜,然后代码就自动跳到了话题榜所在的元素。第二步:复制xp...原创 2019-04-12 14:38:21 · 11635 阅读 · 1 评论 -
scrapy+seleinum 新手爬取微博热门话题避坑实录(19/4/12)
总述:出于某些原因要爬一爬微博的热门话题,我的需求是:热门话题+热门话题下参与讨论的用户的基本信息。接下来我会介绍三天里面我的工作以及令我印象深刻的坑,因为微博的反爬措施时时刻刻在更新着,所以代码可用度不太高,总而言之一句话:硬刚不了可以绕道而行。advice1.网站选择如果你需要获取微博的信息,新手的话最好爬移动端的微博,网址:https://m.weibo.cn/,基本上网页版...原创 2019-04-12 15:47:08 · 2303 阅读 · 0 评论 -
Python设置火狐浏览器谷歌浏览器 headless(无头模式)
总述:在使用seleinum的时候,如果模拟谷歌或者火狐浏览器,出现一个界面的话太难受了。但是PhantomJS已经挂了(就是不太好用了),所幸firefox和chrome都有了无头模式,也就是没有界面的浏览器,在内存中执行。firefox:from selenium import webdriver options = webdriver.FirefoxOptions()op...原创 2019-04-12 16:01:26 · 4924 阅读 · 0 评论 -
Python seleinum设置代理
总述:介绍seleinum在爬取的时候,如何设置代理代码:from selenium import webdriver proxy = '182.85.206.240:6553'chrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--proxy-server=http://' + pro...原创 2019-04-12 16:08:06 · 19364 阅读 · 0 评论