一个菜鸟的爬!主要是之前写那个公选课找资料的时候,百度文档连复制都不给我复制!然后就当学习以下自动化测试,和python,花了一天[捂脸][捂脸]。
python selenium 一页一页爬的,不会太多东西,只能文字,还没有颜色区别。源码也没用函数,没有后续了。。
#获取全文
import time
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
driver=webdriver.Firefox()
#driver.get(r'https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
#driver.get(r'https://wenku.baidu.com/view/4f22ff236294dd88d1d26bbc.html?from=search')
driver.get(r'https://wenku.baidu.com/view/12132c85f7ec4afe05a1dfa4.html')
#将页面下拉到4000,大概的一个值,很有可能错误
more_read=driver.find_elements_by_class_name("banner-more-btn")
if len(more_read)!=0:
js="var q=document.documentElement.scrollTop=4000"
driver.execute_script(js)
time.sleep(1)
btn=driver.find_element_by_class_name("banner-more-btn")
ActionChains(driver).click(btn).perform()
#写入文本
import docx
from docx.oxml.ns import qn
file=docx.Document()
pcount=int(driver.find_element_by_class_name('page-count').text.replace("/",""))
pcount
for i in range(1,pcount+1):
driver.find_element_by_class_name('page-input').clear()
driver.find_element_by_class_name('page-input').send_keys(str(i)+"\n")
content=driver.find_element_by_id("pageNo-"+str(i))
content.text
content1=content.text.replace('\n','')
content2=content1.split(' ')
while '' in content2:
content2.remove('')
for i in content2:
file.add_paragraph(i)
file.styles['Normal'].font.name=u'宋体'
file.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
file.save("D:\\test.docx")
print("ok")
然后github地址:
github