
python scrapy
badman250
专注分享IT知识技能
展开
-
1.python开源——scrapy抓取豆瓣信息
本篇内容需要大家对scrapy框架有了解,并完成了入门学习才能继续使用。创建项目scrape startproject tutorial定义Item如下:import scrapyclass TutorialItem(scrapy.Item): # define the fields for your item here like: # name = scr原创 2017-03-01 22:50:40 · 31269 阅读 · 0 评论 -
1、HTTP知识系统深入——干货无二
1 知识介绍 HTTP是Hyper Text TransferProtocol(超文本传输协议)的缩写。是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(InternetEngineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义了HTTP/1.0版本。其中最著名的就是原创 2017-04-04 15:15:49 · 31159 阅读 · 0 评论 -
500lines开源项目介绍
1 500lines项目介绍 500lines中的每个项目都试图用500行或者更少(500 or less)的代码,让读者了解一个典型软件或需求的简单实现,更重要的是更透彻地明白作为一个软件架构师或开发者应该有的设计思维。 项目里的每个文件夹基本都是一个独立的项目。试图用500行左右或者更少的代码完成某种特定的需求。在阅读时不应该过分关注某种语言的特性或某个原创 2017-04-13 22:43:35 · 25378 阅读 · 0 评论 -
7、关于requests项目
1 开发哲学Beautiful is better than ugly.(美丽优于丑陋)Explicit is better than implicit.(直白优于含蓄)Simple is better than complex.(简单优于复杂)Complex is better than complicated.(复杂优于繁琐)Readability counts.(可原创 2017-04-29 17:10:28 · 17111 阅读 · 0 评论 -
Python学习之路——强力推荐的Python学习资料
资料一:程序媛想事儿(Alexia)总结Python是一种面向对象、直译式计算机程序设计语言。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用縮进来定义语句块。与Scheme、Ruby、Perl、Tcl等动态语言一样,Python具备垃圾回收功能,能够自动管理内存使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种转载 2017-04-29 17:38:05 · 18980 阅读 · 0 评论 -
12.python开源——pytest自动化测试框架
1 下载链接https://docs.pytest.org/en/latest/getting-started.html或者使用pip安装命令如下:pip install pytest更新命令:pip install -U pytest查看版本pytest —version2 pytest使用2.1 基本测试创建test_func.p原创 2017-04-14 21:43:44 · 27428 阅读 · 0 评论 -
Eclipse添加python第三方包
Eclipse添加python第三方包方法一:Project->properties->pydev-interpreter/Grammar点击click here to configure an interpreter not listed点击New Folder,添加新路径即可。方法二:直接将下载的包,拖到PYTHON所在项目中。原创 2017-05-06 10:14:20 · 16323 阅读 · 0 评论 -
wxpython和python连接oracle
wxPython wxPython是一个Python包装wxWidgets(这是用 C++编写),一个流行的跨平台GUI工具包。由Robin Dunn以及Harri Pasanen开发,wxPython是作为一个Python扩展模块。下载地址:https://wxpython.org/链接ORACLE包https://pypi.python.org/pypi/cx原创 2017-08-25 00:17:28 · 2238 阅读 · 1 评论 -
python开源——scrapy命令行
Scrapy是通过 scrapy命令行工具进行控制的。默认的Scrapy项目结构所有的Scrapy项目默认有类似于下边的文件结构:scrapy.cfgmyproject/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py原创 2017-08-27 00:27:52 · 1903 阅读 · 0 评论 -
11.python开源——工程项目结构
工程项目结构需要先弄清三个概念:包、模块、类 模块对应的是一个.py 文件,那么module_name 就是这个文件去掉.py 之后的文件名,py 文件中可以直接定义一些变量、函数、类。导入模块import module_namefrom package_name import module_namefrom package_name import *那么如何原创 2017-04-12 22:53:53 · 29104 阅读 · 0 评论 -
http协议学习系列
http协议学习系列1. 基础概念篇1.1 介绍 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945转载 2017-03-30 23:29:29 · 30777 阅读 · 0 评论 -
scrapy——抓取知乎
主要目标是:· 从如何评价X的话题下开始抓取问题,然后开始爬相关问题再循环· 对于每个问题抓取标题,关注人数,回答数等数据1 创建项目$ scrapy startproject zhihuNew Scrapy project 'zhihu', using template directory'/Library/Frameworks/Python.f转载 2017-03-30 23:18:26 · 32357 阅读 · 0 评论 -
2.python开源——scrapy使用
此环节是在MAC OS中进行搭建安装scrapypip install scrapy 即可快速完成安装创建项目:$ scrapy startproject tutorial输出如下:New Scrapy project 'tutorial', using template directory '/Library/Frameworks/Python.framework/Ve原创 2017-03-02 23:09:52 · 30516 阅读 · 0 评论 -
HTTP入门必备
HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。HTTP协议的主要特点可概括如下:1.支持客户/服务器模转载 2017-03-04 22:30:17 · 30481 阅读 · 0 评论 -
python知识学习相关链接
Python网络爬虫二三事http://www.jianshu.com/p/0bfd0c48457f 网络爬虫基本原理http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html http://www.cnblogs.com/wawlian/archive/2012/06/18/255407原创 2017-03-04 22:44:50 · 30419 阅读 · 0 评论 -
3.python开源——scrapy爬虫获取周边新楼盘房源(优快云)
目标:爬出房源的名字、价格、地址和url需要爬取的数据import scrapyclass TutorialItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() FANGJIA_ADDRESS = scrapy.Field() #原创 2017-03-05 16:50:27 · 31851 阅读 · 0 评论 -
3、scrapy——xpath语法
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。 XPath 是 W3C 标准,XPath 于 1999 年 11 月 16 日 成为 W3C 标准。XPath 被原创 2017-03-19 23:15:37 · 32152 阅读 · 0 评论 -
1、scrapy——xpath路径使用
Scrapy是基于Python的开源爬虫框架,具体的官网档:http://doc.scrapy.org/en/latest/ 除了HTML,XML的基本协议,了解xpath的基础上,再使用正则表达式(python下的re包提供支持)提取一定格式的信息 xpath是Scrapy下快速提取特定信息(如title,head,href等)的一个接口。 为了方便使用XPaths原创 2017-03-19 23:19:14 · 35198 阅读 · 0 评论 -
4、python开源——scrapy爬虫天气预报
获取信息修改items.py如下:import scrapyclass TutorialItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() city = scrapy.Field() date = scrapy.Fi原创 2017-03-06 23:24:49 · 31080 阅读 · 0 评论 -
Chrome如何使用xpath插件
写爬虫或做网页分析的人,因为在定位、获取xpath路径上花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。没有这些辅助工具的日子里,只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,chrome的xpath辅助插件就是来帮助我们的。打开扩展程序 打开chrome的配置页面 - 如下图 点击右上方的配置 - 工具 - 扩展程序原创 2017-03-11 19:07:14 · 40929 阅读 · 0 评论 -
HTTP错误码
HTTP status codes (the 4xx and 5xx varieties) appear when there is some kind of error loading a web page. HTTP status codes are standard types of errors so you could see them in any browser, like Inte转载 2017-03-30 23:16:23 · 32189 阅读 · 0 评论 -
关于json简易说明使用
关于json简易说明使用so,什么是JSONJSON(JavaScriptObject Notation) 是一种轻量级的数据交换格式。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition -December 1999的一个子集。采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++,原创 2017-08-23 22:56:55 · 1879 阅读 · 0 评论