
Python
文章平均质量分 61
糊糊
有这样一种鸟儿是关不住的,因为它的每一片羽毛都闪耀着自由的光辉。
展开
-
scrapy follow 笔记
1. CrawlSpiderrule 爬取规则follws = True 是指爬取了一个URL之后,得到了response, 对response使用rules例表中的rule中定义的link_extractor对这个response提取新的url, 新的符合该rule的url(即新的links), 然后follow=True, 则, 对在该response中发现的新links, 发起req...原创 2019-11-09 19:19:24 · 1146 阅读 · 0 评论 -
[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)
今天在freebsd上 使用easy_install scrapy命令来安装scrapy, 结果报错:[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)后来查看了资料:https://www.mail-archive.com/python-bugs-list@python.o原创 2015-02-24 22:49:56 · 11775 阅读 · 0 评论 -
使用python如何开始练习爬虫
1 当然是选择一个可以解析html的包了这个包,首先推荐的就是lxml, 用xpath的方式来解析html2. 什么HTMLParser, SGMLParser, 就算了吧,很难学,也很难用3. Beautiful Soup? 这个可以作为一个候选,毕竟beautiful Soup基于lxml开发的4. PyQuery 这个也很好,类似与jQue原创 2015-01-07 13:59:27 · 1815 阅读 · 0 评论 -
python的nltk中文使用和学习资料汇总帮你入门提高
nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图文并原创 2013-09-30 11:13:42 · 78588 阅读 · 13 评论 -
Python做网站
Python是一种动态语言。 python的web framework如果你想使用Python做网站,目前存在很多优秀的网站快速开发框架供你选择。 就我目前知道而且用过的,就有 zope 和 plone 。你可以搜索一下。 网站架构中 Zope 和 Plone 有 Windows 安装文件,一路装好就可以用。 QuixoteQuixote/CherryPy 如果用自带的web服务器原创 2006-11-19 06:15:00 · 27459 阅读 · 0 评论 -
使用Python编译less格式的css代码
less类似于sass格式的css代码用python编译less,得到css代码, 工具有以下几个:le's's原创 2014-10-27 20:46:50 · 2613 阅读 · 0 评论 -
使用python identicon库创建类似Github上用的头像
Identicon在很多大型IT网站上可以见到,比如Github,Sourceforge,Stackoveflow等等, 刚刚注册的账号的个人信息的默认图标都是一些看上去像七巧板拼凑的图案,对称又变化多端。本人也是因为好奇才在网上搜了这个算法,主要是哈希算法,把邮箱或者IP的原创 2014-10-26 20:46:51 · 3402 阅读 · 0 评论 -
psycopg2 ImportError: DLL load failed
from psycopg2._psycopg import BINARY, NUMBER, STRING, DATETIMEImportError: DLL load failed这个错误1. 使用原创 2014-07-09 22:24:28 · 6306 阅读 · 0 评论 -
Unable to find vcvarsall.bat
windows上如果没有安装 visual studio, 也就是shu'cheng原创 2014-07-09 21:38:15 · 24607 阅读 · 3 评论 -
安装python包, 还是用pip最好, easy_install该退休了
今天要在另一台windows xp的机器上装scrapy, 结果, easy_install老是报错, 最多的一个错误就是error: Setup script exited with error: Unable to find vcvarsall.bat然后, 哪个库装不上, 就下载源码安装, 比如cffi这个模块就装不上, 然后准备下载个exe来装, 就是别人编译好的cffi.ex原创 2015-01-22 20:55:41 · 19829 阅读 · 5 评论 -
lxml的简单
lxml是一个非常好的处理xml和html的库.一般情况下是用来处理html, 使用xpath提取信息lxml 自带一个etree, 用来形成dom tree1. 加载html源码from lxml import etreeroot = etree.HTML(htmlsource)print root2. print root.tag>>> ro原创 2015-03-31 22:41:27 · 1114 阅读 · 0 评论 -
theano 提示说No such file or directory lazylinker_ext.pyd
g++.exe: error: and: No such file or directoryg++.exe: error: Settings\Administrator.theano\compiledir_Windows-XP-5.1.2600-SP3-x86_Family_6_Model_15_Stepping_13_GenuineIntel-2.7.12-32\lazylinker_ext\la原创 2017-08-06 19:31:42 · 2038 阅读 · 0 评论 -
Scrapy手动增加Add Cookie和关掉重复过滤器dupfilters
Scrapy 本身是能够处理Cookie的, 工作原理和浏览器类似浏览器发送请求服务器返回响应, 并使用Set-Cookie来要求浏览器再下一次的请求中, 带上Cookie下一次请求, 浏览器在请求头中使用Cookie带上上一次服务器要求设置的Cookie整个流程无需人工干预, 由浏览器自动完成.在Scrapy中, 这个也是无需干预的, 其功能在CookieMiddleware中自动完成使用原创 2017-07-20 17:48:39 · 5856 阅读 · 0 评论 -
对Python中文分词模块结巴分词算法过程的理解和分析
本文是从我的github上转过来的对Python中文分词模块结巴分词算法过程的理解和分析结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba]作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:原创 2015-11-24 21:12:05 · 5184 阅读 · 0 评论 -
python格式化字符串
python2.7.9测试如下:>>> for x in 'abcdefghijklmnopqrstuvwxyz': try: print '%'+'%s'% x, print ('%'+x ) % 25 except: continue %a %b %c %d 25%e 2.500000e+01%f 25.000000%g 25%h %i 25原创 2015-07-24 15:54:55 · 1355 阅读 · 0 评论 -
pytesseract Windows Error 6
今天测试了一下 pytesseract , 用来识别验证码, 结果出了点小问题, 记录如下.try: import Imageexcept ImportError: from PIL import Imageimport pytesseractimg = Image.open('a.jpg','r')print(pytesseract.image_to_string(im原创 2015-08-11 12:07:58 · 7164 阅读 · 3 评论 -
获取最新中国行政区划
废话少说,上代码:import urlparsefrom StringIO import StringIOimport datetimeimport requestsimport lxmlfrom lxml import etreedef get_latest_url(index_url): response=requests.get(index_url) parser=etr原创 2015-05-09 19:26:09 · 2863 阅读 · 0 评论 -
不用python 微博sdk, 使用python裸体登录微博, 然后发一条微博, 再退出微博
微博python sdk, 好用, 但是, 需要你申请新浪的app secret key, 不知道为啥, 新浪的应用开发, 老让人觉得迷糊, 不知道改选哪种类型好. 我的需求就是简单, 好用, 新浪app还是有点麻烦. 这不, 网上到处寻觅, 终于找到了一个好的裸体登录微博的python脚本.地址是: http://blog.youkuaiyun.com/monsion/article/details原创 2013-09-23 22:35:20 · 7419 阅读 · 11 评论 -
python编程中对错误的处理
python编程, 难免会碰到错误, 处理的方式有:1. 观察出错信息, 然后搜索gooogle和stackoverflow2. 注释掉3. 在就近出print语句, 如果没有print出来, 应该是前面出了问题.4. 注释掉try...except, 让错误原创 2015-03-31 22:46:02 · 946 阅读 · 0 评论 -
Problematic file: /usr/local/lib/python2.7/site-packages/easy-install.pth.dist
没想到freebsd上安装openerp会碰到这个问题:===> Registering installation for py27-setuptools-2.0.1 as automaticInstalling py27-setuptools-2.0.1...pkg-static: py27-setuptools-2.0.1 conflicts with py27-distribute原创 2014-05-26 15:04:46 · 11376 阅读 · 0 评论 -
freebsd上更新升级python27到python33
因为要升级python2到python3, 所以将操作记录一下.1. 找到资料说The default versions of lang/python* have been changed to support thenew DEFAULT_VERSIONS variable.PYTHON_DEFAULT_VERSION, PYTHON2_DEFAULT_VERSION a原创 2014-03-30 15:22:43 · 4029 阅读 · 0 评论 -
Python中缀语法实现管道并介绍Django的Q对象
http://andelf.diandian.com/post/2011-03-31/40048250535python 中缀语法? python也能管道这篇文章很简单, 但是功能很强大因为实现很简单, 所以就把代码贴过来:class P(object): def __init__(self, f): self.f = f def __ror__原创 2014-01-22 20:23:18 · 8729 阅读 · 0 评论 -
4天废寝忘食用python解决hacker.org网上的机器人逃跑的游戏心得
国庆这几天,在 python技术交流群里,10月1日,我发现大家在讨论玩hacker.org网上的一个机器人逃跑的小游戏,开始几关试玩了一下,就明白了玩的原理,手动玩到了26关。本来没有打算用编程的方式来解决这个游戏,因为我根本没有想到和注意到这个网页上的flash游戏还可以编程原创 2011-10-06 12:59:53 · 5986 阅读 · 1 评论 -
网址收藏自给自足--免除您公司家里两边跑的痛苦
网址收藏自给自足--免除您公司家里两边跑的痛苦2010-12-08 14:58:05很多网友抱怨GreenBrowser不提供在线网址收藏的功能,原因大家也都知道,假设服务器要钱嘛,MQ老大又只有一个人,精力和金钱都有限,所以没实现这个MaxThon已有的功能。那么我们是不是就此绝望了呢?答案是否定的。原创 2010-12-08 21:02:00 · 1418 阅读 · 2 评论 -
django中ThreadLocals获取当前用户有问题
django官网上有一篇文章介绍的是Making User info available outside requestshttp://code.djangoproject.com/wiki/CookBookThreadlocalsAndUser 国内的见这篇:Django tips: 没有了request对象,还能找到当前登录用户user吗? 网址:http://www.cnbl原创 2008-12-30 13:03:00 · 3974 阅读 · 0 评论 -
利用django生成博客日历calendar
最近一直在捣鼓用django做blog,由于我将generic_views使用的较多,所以有好多东西不能加进去,下面就我使用generic_views显示一个博客日历calendar的做法写一点东西吧。原创 2008-10-13 20:53:00 · 5551 阅读 · 1 评论 -
使用django1.0 自带的comments快速入门
我现在说的django,版本是1.0以后的,因为我用的是svn版的,内容可能不适用于0.96版。 django自带了很多东西(app),都在它的contrib目录下,有的真的是很好很强大的。比如说admin,sites,generic_views等等,当然我下面要说的comments也是很强的,用过的人都知道,没有用过的或者不知道的人也有很多。 django官网上有一篇针对comm原创 2008-09-26 23:27:00 · 5087 阅读 · 2 评论 -
已经解决django生成po文件时出现的xgettext的错误
通过摸索和查阅django官网文档,我今天已经解决windows上执行django-admin.py makemessages -l zh_CN 后出现xgettext不是内部或外部命令,也不是可运行的程序或批处理文件的错误 原因和解决办法是: 分析django的源代码中关于国际化方面的(makemessages)就知道,上述命令最终调用的是os.cmd之类调用命令行的东西,而wind原创 2008-10-02 22:45:00 · 3719 阅读 · 1 评论 -
把django admin的文档docs调出来!
我的意思就是进入了django的admin后台管理之后,可以参考django给的admindocs怎么弄呢?大家可以参考django官方网站的一个教程2:http://docs.djangoproject.com/en/dev/intro/tutorial02/里面有怎么激活后台管理的部分,可以先打个底. from django.conf.urls.defaults import *原创 2008-09-26 20:15:00 · 4730 阅读 · 0 评论 -
django 近期准备整合app之registration出错参考
django的app是一个应用级的东西,设计得好的话,可以整合到别的项目中去,目前在code.google.com上已经出现了很多的django app了,不仅仅在google上可以找到这些app,django的资源页上也罗列了很多的东西,http://code.djangoproject.com/wiki/DjangoResources ,有兴趣的可以自己去看看。 废话就不多说了,这里就写一原创 2008-09-02 02:21:00 · 2575 阅读 · 1 评论 -
GreenBrowser群组转成书签的Python代码(最终修订版)
#!/usr/bin/python# Filename: GroupToBookmark.py# Author:huyoo,http://blog.youkuaiyun.com/huyooimport osnewline=os.linesepdef listtolinks(l): suojin=0 #indent suojin+=4 ltime=l[1].split(huyoo)原创 2008-02-01 21:21:00 · 2195 阅读 · 0 评论 -
[Python]获取文件属性
很多时候,我们需要获取一个文件的属性,比如创建日期,访问日期,修改日期,大小 ,只读还是隐藏等属性。用python是相当的方便。下面是我通过查资料得到的方法:文件属性的获取,使用了os.stat() 方法: >>> import os>>> statinfo=os.stat(r"C:/1.txt")>>> statinfo(33206, 0L, 0, 0, 0, 0, 29L, 1原创 2008-02-01 20:31:00 · 28546 阅读 · 2 评论 -
python脚本打google首页的糖果篮子游戏
chrome的主页新建标签会有logo游戏, 今天的是打糖果篮子掉糖果的小游戏。开始之后, 按照一定的时间间隔按空格键, 小盲人会挥动棒子击打糖果篮子,然后会掉下糖果。击打10次之后,游戏结束。这是我手工玩的最高分了。击打的关键就是要在篮子下落的最快速度的时候,尽力挥出你的那一棒子,才能掉下最多的糖果。打着打着,觉得不过瘾,就想到用程序来打,为了减少手工操作,不用老原创 2013-09-27 16:43:14 · 5610 阅读 · 2 评论 -
python破解猜数游戏
QQ群里的聊天机器人会发起猜数小游戏. 玩法如下:1.用户发 #猜数 到群里2.机器人响应: 猜数已经开始, 范围是1-10000之间的某个数3. 你发送 #猜数[123] 到群里4. 机器人响应: 大了或者小了, 或者恭喜你猜中了5. 你根据刚才猜的123, 和返回, 猜一个更小或更大的数, 发送 #猜数[111] , 即返回第2步那么最好的猜测方法原创 2013-09-23 21:13:37 · 2412 阅读 · 0 评论 -
python破解字符串找茬游戏
最近在一个QQ群里发现有那种机器人, 发出来字符串找茬游戏:有点类似于:没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没役没没没没没没没没没没没没没没没没没没没没役没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没没玩法就是用户发消息到群里: #找茬然后群里有个自动聊天的机器人原创 2013-09-23 21:05:41 · 1915 阅读 · 0 评论 -
用python模拟一个文本浏览器来抓取网页
最近在研究爬虫, 主要是用urllib和urllib2以及其他的一些标准库.当然, urllib2的缺点就是不能看到 http请求发送了那些header, 服务器返回的信息也看不到, 只能看到html代码.实际情况肯定是能够看到的, 只是调用起来比较麻烦.比如, 你构造了 Request(url, data), 你想看看你的http请求都有哪些东西, 你就不是很方便了.比如看到下面原创 2013-10-08 20:39:47 · 5964 阅读 · 0 评论 -
用python写了一个简单的模拟浏览器抓取网页的库webclient
对http协议过程中发送的http header和服务器返回的 http response info, 均可以print 调试(实际上我改为了 logging记录)主要的特点:print http request headers # 打印 http 请求头信息print http request cookies # 打印 http 请求的时候发送的cookie信息print htt原创 2013-10-08 21:15:27 · 6087 阅读 · 0 评论 -
NLTK文本分割器是如何工作的
本文翻译自: http://text-processing.com/demo/tokenize/Tokenization 是把文本分割成tokens的方式。tokens可以是段落,句子,或者单独的单词。 NLTK 的tokenize 模块提供了一系列的分割器(tokenizers)。这个分割器我多啰嗦几句,如果用英文表示的话,其实tokenizer可以是很多个意思,但是这个原创 2013-09-30 13:59:21 · 9290 阅读 · 0 评论 -
Python我入门了,使用Python生成文本还是挺方便的
从前天2006.06.10开始,我才真正使用了Python,以前都是听说而已.前天晚上,我把python2.2安装好之后,打开IDLE(Python GUI),准备使用,但是什么也不会,不知道要输入什么.她出现这个:Python 2.2.3 (#42, May 30 2003, 18:12:08) [MSC 32 bit (Intel)] on win32Type "copyright原创 2006-05-12 12:01:00 · 3338 阅读 · 0 评论 -
Make Calendar text
import datetimestart=datetime.datetime(2008,1,1)s=""for i in range(0,366): d=start+datetime.timedelta(days=i) s=s+" "+str(d.day) if d.weekday()==6: s=s+" "原创 2008-03-07 23:21:00 · 1600 阅读 · 0 评论