
Python爬虫
HeatDeath
Learn by doing!
展开
-
关于ctrip搜索内容的一点尝试
In [54]: a=parse.quote('万寿寺北京', encoding='utf-8')In [55]: aOut[55]: '%E4%B8%87%E5%AF%BF%E5%AF%BA%E5%8C%97%E4%BA%AC'In [56]: a.split("%")Out[56]:['', 'E4', 'B8', '87', 'E5', 'AF', 'BF', 'E5', 'AF', '原创 2017-04-07 00:53:15 · 489 阅读 · 0 评论 -
python requests获取response headers中的location
python requests获取response headers中的location 只要类似如下做即可import requestsres = requests.post(url=url, headers=headers, data=data, allow_redirects=Fal...转载 2018-05-03 17:34:22 · 36549 阅读 · 1 评论 -
使用 requests 模拟用户单点登录的方法
每周开周会的时候,总是因为抢不到会议室使得下班太晚吃不上饭。遂从上个月就产生了一个写一个会议室预定的小脚本。会议室预订系统是公司的一个子系统,公司的各个子系统是通过sso的方式进行登录的,一开始为了偷懒,想用 selenium+phantomjs 随便写一下。可是实际操作了才发现…废话说太多了代码也不可能往上放,放上来了也没用还是说一说思路吧其实思路很简单...原创 2018-02-25 19:41:52 · 4805 阅读 · 2 评论 -
一个用Python写的 优快云 批量文章分类修改脚本
昨天写Java写的有点累了,看着自己的博客分类乱七八糟的,遂心生了整理一下博客文章分类的想法。手动整理了一会发现好累啊,重复的工作让程序来做就好了嘛。于是就写了这个小脚本。user_request_to_change.pyimport requestsfrom lxml import etreeimport re# 获取指定类别的文章的 urldef get_article_url_list原创 2017-12-04 11:07:25 · 1102 阅读 · 1 评论 -
xpath 获取当前节点的父节点,兄弟节点的方法
xpath_input_exp_mark = '//label[contains(text(), "文本内容")]/../following-sibling::div[1]//input'browser.find_element_by_xpath(xpath_input_exp_mark).. 表示当前节点的父节点following-sibling::div[1] 表示当前节点的兄弟节点中的 第 1原创 2017-05-16 10:44:33 · 46900 阅读 · 0 评论 -
Python爬虫知识(2)——正则表达式复习
"""特殊字符1、 ^ $ * ? + {2} {2,} {2,5} |2、 [] [^] [a-z] .3、 \s \S \w \W4、 [\u4E00-\u9FA5] () \d"""import re# line = 'bobby123'# . 代表任意字符, * 代表前边的字符出现任意多次# b 开头,后边任意字符出现任意多次# re_pattern = '^b.*'# if原创 2017-07-28 18:00:07 · 652 阅读 · 0 评论 -
使用 xpath 定位包含指定文本内容的标签
browser.find_element_by_xpath('//button/span[contains(text(), "指定文本内容")]').click()指定文本内容 可以是 匹配全部文本 也可是 匹配部分文本原创 2017-05-16 10:14:46 · 40398 阅读 · 1 评论 -
设置 PhantomJs 的 User-Agent 的方法
class BaseTest(unittest.TestCase): @classmethod def setUpClass(cls): fire_fox_user_agent = "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0" dcap = dict(Desire原创 2017-05-12 23:56:11 · 3414 阅读 · 1 评论 -
基于Beautiful Soup 4.2.0文档的学习记录(3)——get_text()、get()
aaa原创 2017-03-27 10:54:23 · 7732 阅读 · 1 评论 -
基于Beautiful Soup 4.2.0文档的学习记录(2)——CSS选择器
注:配合chrome浏览器检查元素功能效果更佳Beautiful Soup支持大部分的CSS选择器,在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数,即可使用CSS选择器的语法找到tag:soup.select("title")# [<title>The Dormouse's story</title>]soup.select("p nth-of-ty原创 2017-03-22 18:10:12 · 1191 阅读 · 0 评论 -
基于Beautiful Soup 4.2.0文档的学习记录(1)——find()、find_all()、findAll()
find() find( name , attrs , recursive , text , **kwargs )find_all()方法将返回文档中符合条件的所有tag,尽管有时候我们只想得到一个结果.比如文档中只有一个<body>标签,那么使用 find_all()方法来查找<body>标签就不太合适, 使用 find_all 方法并设置 limit=1 参数不如直接使用 find() 方原创 2017-03-22 18:02:08 · 2646 阅读 · 0 评论 -
使用PhantomJS+Selenium抓取经过JS渲染的页面
介绍PhantomJSPhantomJS下载地址PhantomJS是一个服务器端的 JavaScript API 的WebKit(开源的浏览器引擎)。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas 和 SVG。PhantomJS可以用于页面自动化,网络监测,网页截屏,以及无界面测试等。使用PhantomJS,而不用Chromedriver和firefox,主要是因原创 2017-03-27 10:46:57 · 8468 阅读 · 0 评论 -
北京汉传佛寺游人评价数据的抓取与分析(2)
用了不到4天的时间,一共抓取了17个寺院的3个信息来源的11049条评论使用 wordcloud, jieba, PIL, matplotlib, numpy 进行分词,统计词频,并绘制词云#coding=utf-8from wordcloud import WordCloudimport jiebaimport PILimport matplotlib.pyplot as pltimp原创 2017-04-08 15:32:31 · 981 阅读 · 0 评论 -
关于设置爬虫随机user-agent的一点尝试
user_agent = [ \ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", \ "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.原创 2017-04-08 17:45:39 · 9731 阅读 · 0 评论 -
关于设置爬虫随机proxy的一点尝试
proxy_list = [ 'http://117.177.250.151:8081', 'http://111.85.219.250:3129', 'http://122.70.183.138:8118', ]proxy_ip = random.choice(proxy_list) # 随机获取代理ipproxies = {'http': proxy_ip}原创 2017-04-08 17:40:43 · 3953 阅读 · 0 评论 -
北京汉传佛寺游人评价数据的抓取与分析(1)
之前写好的部分明明已经保存了的,为啥就不见了呢mdzz!要求:运用Python语言编写网络爬虫获取游客评论数据,借助自然语言处理(NLP)领域中的研究方法挖掘当今人们对寺庙园林的态度和观点,并寻找又去的可视化方式呈现结果想法:抓取寺院粗略信息吗,放入list经过比较 蚂蜂窝,去哪,携程,大众点评 后发现,蚂蜂窝的数据清洗难度较低从抓取的寺院中筛选出汉传佛寺放入list蚂蜂窝好像采取了一定的反原创 2017-04-05 23:15:55 · 792 阅读 · 0 评论 -
关于反爬虫的一点了解
好像是一个在携程工作的人写的 关于反爬虫,看这一篇就够了在携程工作的人放大招 请教两个关于使用 python 爬去哪儿,携程等机票网站的问题原创 2017-04-08 00:38:14 · 491 阅读 · 0 评论 -
python requests 禁止重定向
r = requests.get('http://github.com', allow_redirects=False)http://www.testclass.net/requests/redirect/https://testerhome.com/topics/8518原创 2018-05-03 17:35:01 · 11322 阅读 · 0 评论