
Python网络爬虫
文章平均质量分 62
Co_zy
这个作者很懒,什么都没留下…
展开
-
Python爬虫框架--Scrapy
常用命令startproject创建一个新工程 scrapy startproject [dir] genspider创建一个爬虫 scrapy genspider [options] settings 获得爬虫配置信息 scrapy settings [options] crawl 建立步骤步骤1:建立一个Scrapy爬虫工程 选原创 2017-08-15 14:33:16 · 699 阅读 · 0 评论 -
爬取智联招聘(面向对象)
有待完善import reimport requestsimport osimport xlwtimport codecsclass Item(object): zhiwei = None gongzi = None gongzuodidian = None gongsimingcheng = Noneclass getPosition(object):原创 2017-08-28 20:48:57 · 1122 阅读 · 0 评论 -
爬取微博好友所发微博制作词云
打开一个关注者的微博页面,打开开发者工具,选择图中两个地方刷新页面,向下滚动,中途会出现正在加载,直到最后会出现下一页, 这时看开发者工具,这时真正请求的URL才出现然后找到Cookies,复制修改成字典形式复制到如下代码中import requestsimport jsonfrom bs4 import BeautifulSoupurl = '此处填入URL'cookiess = {'Co原创 2017-08-30 16:00:59 · 1520 阅读 · 0 评论 -
Selenium实例1-自动登录小米社区并获取主题帖
今天看到的一个教程,感觉很有意思. 当运行下面几行代码时,会自动打开chrome浏览器from selenium import webdriverfrom bs4 import BeautifulSoup#需要先下载chromedriverdriver = webdriver.Chrome('D:/Python/chromedriver_win32/chromedriver.exe')我们打原创 2017-08-16 19:57:51 · 1710 阅读 · 0 评论 -
爬取"最好大学网站"大学排名
上半年在学bs4时的一个爬虫,主要是针对table标签的,可用于爬取其他类似网站,代码比较好更改# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url, timeout=30)原创 2017-08-22 14:53:50 · 1932 阅读 · 0 评论 -
OpenCV-裁剪图片
opencv插值法介绍:http://www.cnblogs.com/yssongest/p/5303151.html# -*- coding: utf-8 -*-'''这段代码会扫描Python脚本所在的文件夹的子文件夹other文件夹下的所有.jpg文件,然后使用OpenCV读取图片数据,并按照指定的大小进行缩放,将缩放后的结果写入到指定目录下的指定图片中。'''import n原创 2017-10-17 18:46:37 · 1375 阅读 · 0 评论 -
Scrapy-xpath用法以及实例
xpath的语法xpath语法-谓语使用方法可以直接在chrome->F12开发者工具中复制xpath这里介绍一种测试的方法平时我们在pycharm或者编辑器需要每次运行,就需要一次次请求,这里可以用以下的方法: 假设我们需要爬取伯乐在线的一篇文章,链接为 http://blog.jobbole.com/112614/ 我们爬取一篇文章的标题,发布时间,点赞数,收藏数,评论数 命令行执行如下s原创 2017-10-24 19:42:40 · 14788 阅读 · 2 评论 -
Scrapy-css选择器
和xpath选择器比起来,感觉CSS选择器容易一些,跟写.css时方法基本一样,就是在获取内容时和xpath不同,这里需要注意一下. 这里介绍如何用css选择器提取出一篇文章的数据 提取的数据跟xpath那篇文章内容相同 之前xpath中我们获取元素是通过.entry-header h1::text,如果是属性则用.entry-header a::attr(href) 介绍一个常用的函数ex原创 2017-11-01 08:16:44 · 9648 阅读 · 0 评论 -
爬取糗事百科
这是一个简单爬虫 打开糗事百科首页https://www.qiushibaike.com/ 拉到最下面点击下一页,观察url变化 由此可以构造生成url的函数def getUrls(self,pages): url1 = 'https://www.qiushibaike.com/text/page/' for i in range(1,pages):原创 2017-10-15 09:43:53 · 542 阅读 · 0 评论 -
Python网络爬虫--BeautifulSoup库的基本元素
最近在学习嵩天老师的Python网络爬虫课程,记录一下.1.Beautiful Soup库,也叫beautifulsoup4 或bs4 约定引用方式如下,即主要是用BeautifulSoup类from bs4 import BeautifulSoupimport bs42.BeautifulSoup库解析器3.BeautifulSoup类的基本元素4.测试代码(太乱了)import reques原创 2017-05-28 15:19:02 · 740 阅读 · 0 评论 -
Python利用itchat库向好友或者公众号发消息
首先获得好友或者公众号的UserName 获取好友UserName#coding=utf8import itchatitchat.auto_login(hotReload=True)#想给谁发信息,先查找到这个朋友,name后填微信备注即可users = itchat.search_friends(name='')#获取对方UserName,返回一个列表print(users)获取公众号原创 2017-06-15 21:56:51 · 14660 阅读 · 4 评论 -
win10安装scrapy
pip install scrapy安装失败,查资料得知Scrapy所依赖的Twisted和Lxml在Windows/Python 3.x的平台还不能通过pip直接安装,所以直接使用pip也无法安装Scrapy。 所以我们在 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载对应的.whl文件来安装Twisted和Lxml 然后执行pip instal原创 2017-08-15 09:52:49 · 573 阅读 · 0 评论 -
解决win下安装wordcloud出错问题
使用pip安装时出现以下错误解决方案在http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载 wrapt‑1.10.10‑cp36‑cp36m‑win_amd64.whl文件,然后到本文件所在目录执行pip install wrapt‑1.10.10‑cp36‑cp36m‑win_amd64.whl原创 2017-06-29 18:09:10 · 12726 阅读 · 1 评论 -
Python-爬取中国天气网天气并通过邮箱定时发送
获取天气信息脚本如下,#!/usr/bin/python3# -*- coding: utf-8 -*-import reimport requestsfrom bs4 import BeautifulSoupimport ioimport syssys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')r = r原创 2017-06-13 12:43:51 · 2023 阅读 · 0 评论 -
Scrapy实例1-爬取天气预报存储到Json
目标: 爬取天气网天气 目标链接: http://beijing.tianqi.com/我们依据上篇文章http://blog.youkuaiyun.com/co_zy/article/details/77189416 建立一个工程和一个爬虫> scrapy startproject weather> > scrapy genspider BeijingSpider tianqi.com在本次爬虫项目案例原创 2017-08-16 08:48:46 · 1485 阅读 · 0 评论 -
安装Selenium&PhantomJS
安装Seleniumwin10下pip install -i https://pypi.doubanio.com/simple/ seleniumlinux下apt install python-selenium -y安装PhantomJS(1)一个基于webkit内核的无头浏览器,即没有UI界面,即它就是一个浏览器,只是其内的点击、翻页等人为相关操作需要程序设计实现。 (2)提供jav原创 2017-08-16 19:48:56 · 1223 阅读 · 0 评论 -
Selenium实例2-截图爬取漫画
整体思路分三步: 模拟浏览器–>截取浏览器当前屏幕–>保存漫画截图 目标网址 http://www.1kkk.com/ch1000-514226/(1)获取浏览器(模拟浏览器)def getBrowser(self): broswer = webdriver.PhantomJS() try: broswer.get(self.startU原创 2017-08-17 17:16:16 · 1178 阅读 · 0 评论 -
Python-爬取2345电影并写入文件
一个简单爬虫1.目标:爬取2345电影网2017年最新电影 2.所使用的库:from bs4 import BeautifulSoupimport requestsimport codecs3.目标链接 http://dianying.2345.com/list/—-2017—2.html 点击下一页观察每个url变化规律4.开发者工具观察 所有电影内容都在{‘class’:’v_pi原创 2017-08-13 21:48:11 · 3859 阅读 · 0 评论 -
itchat爬取朋友圈签名制作词云
占坑 参考:http://blog.youkuaiyun.com/zhanshirj/article/details/74166303原创 2017-08-22 09:31:36 · 2671 阅读 · 0 评论 -
itchat微信调用图灵机器人API
#coding=utf8import requestsimport itchatKEY5 = 'fe55deeb23447c3a42c6665633507e6'def get_response(msg): # 这里我们就像在“3. 实现最简单的与图灵机器人的交互”中做的一样 # 构造了要发送给服务器的数据 apiUrl = 'http://www.tuling123.co转载 2017-08-22 09:03:47 · 2225 阅读 · 0 评论 -
Python -bs4反爬虫解决方法
爬虫有时会遭遇两种情况,导致无法正常爬取 (1)IP封锁,(貌似美团会出现) (2)禁止机器人爬取,(比如Amazon)解决方法: 我们以下面文章里的爬虫代码为例 http://blog.youkuaiyun.com/co_zy/article/details/77150544 其中的getHTMLText()函数,更改如下,添加fakeHeaders ,proxies 这里的可以通过ip测试网站原创 2017-08-14 10:03:39 · 1889 阅读 · 0 评论 -
Python-爬取音悦台MV列表以及反爬虫方法
这次比2345电影那个多了一个resource.py文件,里面包含UserAgents,PROXIES,这样我们在爬取时可以写一个函数,随机从这两项中选取,以此绕开反爬虫.1.目标:音悦台-V榜-MV作品榜 2.所使用的库:from bs4 import BeautifulSoupimport requestsimport codecs import timeimport resource原创 2017-08-14 23:15:00 · 6515 阅读 · 1 评论 -
爬取网页动态内容
这里以这个网站为例 https://knewone.com/ 在上下滚动中可以发现,这个网页底端没有下一页按钮,但是随着向下翻页,会出现新的内容,这是用js生成的,我们打开**F12开发者工具** 选择**Network**,**XHR**可以看到出现的新页面,然后可以用requests,beautifulsoup库进行爬取原创 2017-10-16 20:49:26 · 947 阅读 · 0 评论