python爬虫
文章平均质量分 70
520SolarRain
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python: 什么是*args和**kwargs
今天看源码的时候发现一个是*args和**kwargs,一看就能知道args是神马,就是所有参数的数组,kwargs就不知道了,google一下,一个人的blog写的比较简单明了,秒懂了~~kwargs就是当你传入key=value是存储的字典。 补充一下:kwargs不影响参数位置 例子: def test(a,*args,**kwargs): print a #p转载 2014-11-24 20:28:59 · 593 阅读 · 0 评论 -
抓取网页
1 正则表达式 import re #导入模块 import urllib #打开链接模块 from urllib import urlopen info=urlopen(“http://www.imdb.cn/title/tt0107985“).read() #对链接对应网页信息的读取 page=info.decode(“gb2312”).encode(“utf-8原创 2015-04-09 14:01:32 · 424 阅读 · 0 评论 -
urllib 和 request 对比
在HTTP相关处理中使用python是不必要的麻烦,这包括urllib2模块以巨大的复杂性代价获取综合性的功能。相比于urllib2,Kenneth Reitz的Requests模块更能简约的支持完整的简单用例。简单的例子: 想象下我们试图使用get方法从http://example.test/获取资源并且查看返回代码,content-type头信息,还有response的主体内容。这件事无论使用转载 2015-04-17 09:54:09 · 8697 阅读 · 0 评论 -
python技巧
1.最基本的抓站import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器 这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:X转载 2015-04-30 11:34:38 · 403 阅读 · 0 评论 -
jd尝试抓一个页面
通过分析html页面,发现评论以http://club.jd.com/review/xxxx-1-1-0.html 这种形式单独表现。 通过分析html可知,评论即(心得)的位置。 html代码:<div class="comment-content"> <dl> <dt>标 签:</dt> <dd> <span class="comm-tags" href="#none"><span>信号稳原创 2015-05-24 21:02:20 · 461 阅读 · 0 评论 -
初识django
一:安装 下载Django-1.7.9,解压,运行setup。 检验是否安装成功:在python命令行中>>> import django >>> django.get_version() '1.7.9'二:新建工程 方法一: 1. 新建一个 django-projectdjango-admin.py startproject project-name先找到存放django-admin.py原创 2015-08-05 11:44:43 · 417 阅读 · 0 评论
分享