
Python爬虫
CaiJin1217
这个作者很懒,什么都没留下…
展开
-
自学Selenium-python(第一篇)
1、打开浏览器,测试selenium是否能使用# coding = utf-8from selenium import webdriverdriver = webdriver.Chrome()# 打开百度新闻driver.get('http://news.baidu.com/')time.sleep(2)测试成功打开浏览器 2、进行一些其他的小操作# 输出网页的标题p...原创 2018-08-14 13:54:31 · 400 阅读 · 0 评论 -
python爬虫--利用Xpath抓取信息
1、配置好pycharm环境 2、代码如下:# -*- coding:utf-8 -*-import requestsfrom lxml import etreeimport randomimport timeimport reimport osdef Brank(): url = "http://**********************/" pri...原创 2018-08-02 11:08:57 · 1389 阅读 · 0 评论 -
Selenium-python——异常(selenium.common.exceptions.StaleElementReferenceException: Message: stale eleme)
1、我在第一个页面获取到了访问下一页的链接一共80条,然后循环获取八十条链接,并循环打开。报了这个错误。代码如下from selenium import webdriverimport timeimport randomdriver = webdriver.Chrome()driver.get("http://www.*******.com")timesleep = ran...原创 2018-08-15 11:10:03 · 5274 阅读 · 0 评论 -
python多线程爬虫时,主线程一直等待错误。
1、抓取网站的专辑信息时,遇到了加上守护线程 ,程序执行完主线程,唰的一下就结束了,子线程在哪里?嗯,丢掉了t.setDaemon(True) #设置守护线程把上边那句注释掉后,子线程…….emmmmm….. 执行了,然后就一直在等待………………………等一个不知道是谁的谁。 然后就注释掉下边那段话for q in [self.url_queue,self.html_queue...原创 2018-08-22 09:54:39 · 1191 阅读 · 1 评论 -
python多线程简单案例
#coding=utf-8import requestsfrom retrying import retryfrom lxml import etreeimport timefrom queue import Queueimport threading# import chardetclass QiuBai: def __init__(self): sel...原创 2018-08-22 16:31:06 · 364 阅读 · 0 评论 -
Python学习之------retry(异常重试)
在做数据抓取的时候,经常遇到由于网络问题导致的程序保存,先前只是记录了错误内容,并对错误内容进行后期处理。原先的流程:def crawl_page(url): passdef log_error(url): passurl = ""try: crawl_page(url)except: log_error(url)改进后的流程:at...转载 2018-08-30 11:22:54 · 35065 阅读 · 1 评论 -
Python抓取电视剧《天盛长歌》豆瓣短评,并制作成词云。
最近在看《天盛长歌》,才看了30多集,感觉里边的剧情还是很有深度,每个反派都是智商在线,剧情也是环环相扣,以至于每个镜头给了哪些特写我都要细细斟酌一番。不过可能剧情是根据小说改编,所以部分剧情有些老套,而且因为节奏有点慢,剧情过多,光是大皇子领盒饭就用了20集。目前来说不喜欢韶宁公主有关的剧情,不知道她后边的剧情怎么发展,配角选的也是十分用心了,喜欢珠茵姐姐,可惜十几集就领盒饭了,而且还有点不值,...原创 2018-09-11 14:04:55 · 727 阅读 · 0 评论 -
Pycharm下安装scrapy
1、先建立一个文件夹(test_Scrapy),用Pycharm打开,(用pycharm打开这个文件夹) 第一步先安装wheel 2、然后进入https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml去下载Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml (scrapy依赖Twiste...原创 2018-09-05 10:59:27 · 2512 阅读 · 0 评论 -
Scrapy框架中setting 中的字段含义
一、setting 自动生成的内容含义# -*- coding: utf-8 -*-# Scrapy settings for taoCarTest project## For simplicity, this file contains only settings considered important or# commonly used. You can find more s...原创 2018-09-07 11:03:49 · 948 阅读 · 0 评论