
Python
zhanghaipeng1989
这个作者很懒,什么都没留下…
展开
-
windows 8 配置Scrapy环境
scrapy环境配置原创 2014-12-10 15:27:10 · 967 阅读 · 0 评论 -
windows 8 python安装MySQLdb模块
我直接安装的已编译版本,这个不需要网上说的复杂的操作步骤,添加依赖模块什么的,直接在http://www.codegood.com/downloads,根据自己的系统下载32位,64位,直接点击安装后即可。 在python下输入import MySQLdb,看是否导入成功。原创 2014-12-10 13:38:02 · 603 阅读 · 0 评论 -
Python安装模块出错(ImportError: No module named setuptools)解决方法
Python第三方模块中一般会自带setup.py文件,切换到模块目录下,运行python setup.py install 出现错误,提示没有 setuptools。 说一下Linux下setuptools的安装过程。在http://pypi.python.org/pypi/setuptools上找到相关的下载脚本: wget https://bootstrap.pypa原创 2014-12-05 00:17:39 · 962 阅读 · 0 评论 -
python爬取百度贴吧(1)
在网上参考别人的教程实现的python+beautifulsoup爬取百度贴吧的内容。说一下实现过程,这个主要是用来抓取连载小说的,首先选择一个百度贴吧的网页,点击只看楼主,然后就全是楼主连载的小说了,使用firefox查看元素,这里选取唯一的特定cc标签,然后再进行去除html标签的处理,就可以获得文本了。问题:1.在使用beautifulsoup时,要注意标签获取时一定要准确,哪怕复杂原创 2014-12-01 11:44:42 · 862 阅读 · 0 评论 -
python疑问(1)
在写爬虫时,为什么用Beautifulsoup解析网页后同时使用python的re模块会出现错误?由于初学,一直没有弄明白。先记录下来!原创 2014-12-01 11:24:47 · 425 阅读 · 0 评论 -
python正则表达式去除html标签
使用python的re模块,正则表达式去除html标签,代码如下:import rehtml = '\目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性\但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?'reg = re.compile(']*>')print(reg.sub(原创 2014-12-01 11:06:12 · 5938 阅读 · 1 评论 -
Python group()小结
今天看到group()方法,有点疑惑,自己动手了解了一下,原创 2014-11-18 22:07:41 · 7064 阅读 · 0 评论 -
解决 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
如果自己的脚本里编码没有问题的话,要看一下设置的header原创 2014-11-14 14:06:56 · 46525 阅读 · 19 评论 -
Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法(本文由169it.com搜集整理)
python正则表达式关键内容:python正则表达式转义符:12345678910111213. 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线或汉字\s 匹配任意的空白符\d 匹配数字\b 匹配单词的开始或结转载 2014-11-12 23:52:28 · 11926 阅读 · 0 评论 -
用python爬虫抓站的一些技巧
uments =q.get() do_somthing_using(arguments) sleep(1) q.task_done()#fork NUM个线程等待队列fori inrange(NUM): t =Thread(target=working)转载 2014-11-05 18:57:58 · 5803 阅读 · 0 评论