
Python
life4711
这个作者很懒,什么都没留下…
展开
-
网络爬虫——爬百度贴吧
功能:输入话题的编号(一般在百度贴吧里面找)然后爬取楼主的所有发言的文字部分。说明:中文编码和保存文件较上一篇又有新的方式,特此留存。#coding: utf-8 import stringimport urllib2import reclass HTML_Tool:#作用就是将html文件里的一些标签去掉,只保留文字部分 BgnCharToNoneRex = re.comp原创 2015-12-28 21:25:00 · 1169 阅读 · 0 评论 -
网络爬虫——爬取糗事百科笑料段子
这两天在看python,抱着一本python学习手册看了好几天了,感觉没有什么长进。听说python写网络爬虫挺好,就在网上搜了一下教程,跟着看来看,一知半解自己也模仿着写了一个小项目:爬取糗事百科笑料段子 或许是页面代码重写了吧,教程的代码不怎么好用,我模仿的该了一下正则表达式,修改了一下功能,感觉还能使,昨天晚上实现了。队友说:你这学爬虫心理就是爬黄段子啊==明明是糗事好原创 2015-12-23 11:18:57 · 892 阅读 · 0 评论 -
Python网络爬虫——模拟登陆爬取网站数据并加载到excl表格里
对于需要登陆的网站用Python写爬虫的时候需要模拟登陆上去,才能得到想要的界面。偶然的一个机会,我们前任辅导员找到我,写一个爬取网络表格到本地excl表格并能支持分页的小程序,碰巧以前写过爬虫,这样一来又深入的理解了一下。前段时间忙着面试一直没抽出时间,今天花了一天的功夫算是搞出来了。写一个博客,以后查找时方便,也希望能给同样再写爬虫的童鞋一点帮助!模拟登陆首先要分析一下浏览器给服务器发原创 2016-04-11 21:05:53 · 8483 阅读 · 0 评论 -
正则表达式需要转义的特殊字符
正则表达式中有些字符具有特殊的含义,如果在匹配中要用到它本来的含义,需要进行转义(在其前面加一个\)。下面总结了常见的一些需要转义的特殊字符:$ 匹配输入字符串的结尾位置。如果设置了RegExp对象的Multiline属性,则 $ 也匹配,如‘\n’或’\r’。() 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符。* 匹配前面的子表达式零次或多原创 2016-04-22 20:30:12 · 73990 阅读 · 4 评论 -
Python脚本实现查找指定目录下包含指定关键字的文件
#!/usr/bin/python# coding:utf8import os# 判断文件中是否包含关键字,是则将文件路径打印出来def is_file_contain_word(file_list, query_word): for _file in file_list: if query_word in open(_file).read():原创 2016-07-04 15:07:42 · 13900 阅读 · 1 评论 -
Python log 的正确打开方式
import osimport logbookfrom logbook.more import ColorizedStderrHandlerimport smtplibLOG_DIR = os.path.join('log')if not os.path.exists(LOG_DIR): os.makedirs(LOG_DIR)def get_logger(name=原创 2017-02-08 12:43:33 · 4833 阅读 · 0 评论 -
Python rsync 服务器之间文件夹同步脚本
About rsync:https://download.samba.org/pub/rsync/rsync.html配置两台服务器之间ssh-key后,可以实现自动化无需手动输入密码,脚本如下:import argparseimport datetimefrom functools import partialimport multiprocessing as mpimport原创 2017-04-20 17:15:45 · 8049 阅读 · 0 评论