
python爬虫
酒中醉去梦中来
个人是个小白,有不对的欢迎大家指正
展开
-
爬虫实践: 电影排行榜和图片批量下载(看的大佬的)
#爬取的网址:http://dianying.2345.com/top/#电影的名字,主演,简介,和标题图'''爬取最新电影排行榜单url:http://dianying.2345.com/top/使用 requests --- bs4 线路Python版本: 3.7'''import requests as rsimport bs4def get_html(url): ...转载 2019-04-07 15:55:55 · 466 阅读 · 0 评论 -
pyspider的web界面如何设置
在写pyspider框架时,你是否因为web预览图太小而烦恼?采用如下方法将其调大:1、右键审查元素(开发者工具)打开2、找到预览图对应的节点(iframe)3、在下方对应的styles里面找到debug.min.css文件并点击4、将iframe{border-width:0;width:100%}修改为iframe{border-width:0;width:100%;height:...原创 2019-07-11 16:50:27 · 1044 阅读 · 0 评论 -
pyspider 启动错误,ValueError: Invalid configuration: - Deprecated option 'domaincontroller'
ValueError: Invalid configuration: - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.安装完爬虫框架pyspider之后,使用pyspider all 命令,输入http://localhost:5000运行就出现上述错误...原创 2019-07-11 10:57:59 · 522 阅读 · 0 评论 -
anaconda中的包如何传到pycharm中使用?
在pycharm的setting中设置在project interpreter 中的 existing environment 中选择 anaconda3安装目录下的的 python.exe 就可以了,然后会自动加载,!最后形成如图片所示的样子! 一直用pycharm写代码一直用ana...原创 2019-07-09 18:48:23 · 4703 阅读 · 0 评论 -
Windows无法启动MongoDB服务。错误1053
找到MongoDB\bin文件夹下的mongod.cfg文件,打开,删除最后的mp:,重新运行即可。详细:https://blog.youkuaiyun.com/qq_20084101/article/details/82261195原创 2019-07-12 22:12:14 · 1613 阅读 · 0 评论 -
Python第三方模块tesserocr安装
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract 。例如:对于下图的验证码,...原创 2019-07-09 09:40:06 · 152 阅读 · 0 评论 -
tesseract 安装及使用-python3网络爬虫开发实战
1. 安装tesseractOCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/进入下载页面,可...转载 2019-07-09 09:37:32 · 797 阅读 · 1 评论 -
python下的selenium和chrome driver的安装(win10)
基于Anaconda安装的python,安装sellenium和chrome drive打开Anaconda的Anaconda Prompt。然后使用命令:pip3 install selenium直接进行安装,安装完成后用下图命令验证。安装成功后,选择对应版本进行下载Chromedriver队应链接:https://www.jianshu.com/p/40027de48c...原创 2019-06-18 16:41:51 · 1026 阅读 · 0 评论 -
反爬虫技术
反爬虫技术:首先来介绍一下什么是反爬虫技术:最近“大数据的兴起“,市面上出现了太多以数据分析为核心的创业公司,他们不仅要写出对数据操作分析的算法,更是要想方设法的获得大量的数据,这些数据从何而来呢?最方便的途径自然是互联网,所以就有很多人写的爬虫 没日没夜的在互联网上”横行“,有些速度太快的爬虫甚至会让网站不堪重负,甚至宕机!为了应对这种困扰,很多网站的运营者就想出了很多反爬虫的技...转载 2019-04-07 21:56:30 · 319 阅读 · 0 评论 -
排行榜小说批量下载(未写入数据库,格式还需更改)
'''url='http://www.qu.la/paihangbang/'爬取笔趣阁的排行版小说'''import requestsimport bs4# 抓取整个网页def get_html(url): try: r = requests.get(url, timeout=300) r.raise_for_status ...转载 2019-04-07 21:21:17 · 344 阅读 · 0 评论 -
在pycharm中使用execjs出现:对象不支持此属性或方法
我的是因为为配置js环境,安装一个nodejs之后就可以了原创 2019-07-31 14:56:51 · 3204 阅读 · 0 评论