一、总述
微博带带大师兄的无内鬼环节出现的内鬼让很多狗粉丝头痛不已,selenium爬虫自动化下载无内鬼环节评论图片,人工筛选出发鬼图、恶心图的内鬼ID,在下次下载中将内鬼ID加入列表剔除即可。
二、弊端
效率低,表现在手动输入验证码,手动在剔除内鬼ID,加载网页、图片时需等待时间。
三、代码
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
import requests
import math
import os
import datetime
def verifycode():
if wd.find_elements_by_xpath('//*[@src="about:blank"]') == []:
vcode = input('请输入验证码:\n')
wd.find_element_by_xpath('//*[@action-data="text=请输入验证码"]').send_keys(vcode)
def newwindow(word,wd):
for i in wd.window_handles:#选择新的窗口
wd.switch_to.window(i)
if word in wd.title:
break
def findneigui():
element1 = wd.find_elements_by_xpath('.//*[@class="WB_repeat S_line1"]//*[@class="list_con"]')
for i in element1: # 保留:无内鬼
if ':无内鬼 ' in i.get_attribute('outerHTML'):
i.find_element_by_xpath(".//*[contains(text(),'条回复')]").click() # 点击更多评论
break
pass
def ncommits():#得到总评论数
time.sleep(