python
文章平均质量分 65
zzzzata
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python简单爬虫爬取队列的实现
deque()是双端队列。set()中不允许出现重复的内容。import reimport urllibimport urllib.requestfrom collections import dequequeue=deque()#待抓取的网页visited=set()#已经抓取过的网页。url='https://www.zhihu.com/topic/19570752/top-answers'q翻译 2016-07-26 21:29:13 · 2297 阅读 · 0 评论 -
python装饰器
装饰器作用类似于java中的AOP,用于处理异常日志等作用时非常好用。1.闭包:可以简单把闭包理解为函数中创建函数,内层函数不可以直接调用,只该内层函数的外层函数才可以调用它def genetater_power(number): def nth_power(power): return number*power return nth_powerraise_t...原创 2017-03-16 19:25:48 · 377 阅读 · 0 评论 -
python获取本人关注列表并批量存入本地mysql数据库
先模拟登陆,将cookies保存到本地。代码中获得知乎关注列表的链接是16年知乎电脑网页版改版以前的,返回一组json数据,下拉自动填充网页,需要传xsrf 、hash_id。2016年11月左右知乎改版后有了新的api,新的api不需要获取xsrf和hashid,只要有内部的name就可以,不过返回的数据中没有了赞同数和提问问题数。import http.cookiejarimport req原创 2017-01-12 11:26:49 · 4401 阅读 · 0 评论 -
python套接字(《python核心编程》实例)报错
书中的例子中报错,原因是下面的一行代码没有将字符串编码为字节类型,所以将代码进行修改后代码可以正常运行。tcpCliSock.send(data)tcpCliSock.send(data.encode(encoding='utf-8'))服务端from socket import *Host=""#变量是空白的,表示可以使用任何可用的地址port=21567BUFSIZ=1原创 2016-10-13 09:45:29 · 724 阅读 · 0 评论 -
python下载知乎某个问题下的全部图片
我在知乎上答得一个问题:https://www.zhihu.com/question/20899988/answer/107069118希望喜欢的朋友可以去点个赞原创 2016-08-18 08:52:14 · 657 阅读 · 0 评论 -
利用cookie登陆并得到登陆后的页面
经过上一步的模拟登陆后,cookie已经下载到本地的cookies文件中,在之后的访问中带入cookie就可以得到登陆后的页面。下面是用urllib包的时候载入cookieimport urllib.requestfrom bs4 import BeautifulSoupimport http.cookiejarfilename='cookies'cookie = http原创 2016-08-18 10:52:57 · 1644 阅读 · 0 评论 -
python读写excel
写的一个帮同事处理excel的小程序,需要把一个总表按照店铺名称拆开成7个表。各个商铺表中商品编号中开头是8的需要去掉8,开头是DS的不用管,开头是1的也不用管。然后将商品编号相同的合并起来(卖给顾客同种商品也许优惠程度不同),相同编号的商品只保留一行,结算价格和售出数量是该店铺所有同编号商品的总和,求出平均价格。程序涉及到python对excel的读写操作,将对象按照某个属性排序,以及具有相原创 2016-08-24 13:53:31 · 399 阅读 · 0 评论 -
抓取动态网页
知乎中的关注列表是动态生成的,每次下拉刷新出20个,这样的话直接得到的html页面中并没有包含全部的关注人。这里就要用到动态抓取的技术,用requests中的session模块模拟浏览器向对应的链接以post的形式发送数据。import http.cookiejarimport requestsimport reimport jsonimport mathfrom bs4 impor原创 2016-10-11 14:02:56 · 917 阅读 · 0 评论 -
python抓取知乎首页文本信息的简单实现
利用requests提供的方法得到网页中的html文件,然后用beautifulsoup提供的方法解析网页信息。find_all('a',{"class":"question_link"}):找出网页a标签中class为question_link的标签。get_text():得到里面的文本信息。本程序中先将所有的问题打印到控制台,然后将所有的答案打印在控制台。源码如下所示:#encoding:原创 2016-07-26 21:16:14 · 1220 阅读 · 0 评论 -
python多线程验证ip
#coding=utf-8import requestsimport jsonimport reimport sysimport Queueimport tracebackimport MySQLdbimport threadingurl='http://1212.ip138.com/ic.asp'user_agent = 'Mozilla/5.0 (Macintosh; I原创 2017-03-28 14:52:20 · 789 阅读 · 0 评论
分享