
python
hy1405430407
没什么好说的
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取糗事百科文字段子,(2016年10月22日可用)
简单的利用bs4提取了一些东西,中途尝试了网上的多个版本,自己简单的模仿了一下。主要提取部分:偶遇小朋友玩家家酒!一小姑娘说:谁要扮演老公的?只见小男孩们纷纷举起小手:我、我、我……好,这是你的搓衣板和尿壶,你就跪在这上面手上拖着尿壶,我在旁边化妆找到相应class提取span即可from urllib.request import urlopen ,Reque原创 2016-10-22 22:21:00 · 1138 阅读 · 0 评论 -
爬取糗事百科图片,(截止至2016/10/23可用)
区分开头像和图片所在文件夹就好头像红颜一笑醉心弦~99真正的图一个是avtnew,一个是pictures,正则即可(我写的比较搓)from urllib.request import Request,urlopen ,urlretrievefrom bs4 import BeautifulSoupimport reimport osH原创 2016-10-23 10:38:12 · 558 阅读 · 0 评论 -
模拟登陆知乎,2016/10/23可用
登录这东西,目前理解的还是比较浅,就是说想办法搞到cookie就好。最简单就是自己用浏览器登录上,从开发者工具里把cookie复制。。。今天说的呢,既然是模拟登陆,就少不了账号密码这些环节。首先打开知乎https://www.zhihu.com/#signin,开发者工具(博主用的360chrome),network,选中preserve log,不选的话之前的信息会被清空的。原创 2016-10-23 11:05:54 · 630 阅读 · 0 评论 -
python验证码识别(windows适用)
验证码识别需要的库pytesseract,说白了就是调用别人的东西!!!依赖PIL及tesseract-ocr,PIL是python 的一个库,但是tesseract-ocr是一个需要安装的软件,百度一下安装后应该会自动配置环境变量。简单测试一下,cmd-》tesseract vode.png result,之后会将验证码保存在一个result.txt的文件中。然后上代码:原创 2016-10-23 16:24:38 · 1552 阅读 · 0 评论 -
python带验证码登录
本次登录的是中国石油大学ACM的OJ(管理员不要打我),原型是hustoj,选择的原因是验证码比较简单,纯数字。实际上利用了验证码页面和登录页面cookie的一致。但是在顺序上我们需要先打开验证码页面,有兴趣可以简单测试一下:1.打开登录页面(不要关闭)(http://acm.cup.edu.cn/loginpage.php)2.找到验证码图片的地址打开(http://acm.cu原创 2016-10-24 14:31:06 · 7142 阅读 · 2 评论 -
多线程Web服务器的设计与实现(JAVA与PYTHON)
内容相关:1、 网络基本原理(如:HTTP协议、Web服务器、Socket、TCP、UDP等)2、 网络服务器基本配置(简单C/S网络的组建、web服务器的基本配置等)3、程序设计(socket编程、多线程程序设计等)JAVA代码:MultiThreadWebServer.javaimport java.net.* ;public final class Multi原创 2016-11-24 19:32:13 · 5045 阅读 · 2 评论 -
泰迪杯数据挖掘挑战赛C题 通用论坛正文提取
参与第五届泰迪杯,侥幸获得二等奖,简单记录一下。一、问题的背景 在当今的大数据时代里,伴随着互联网和移动互联网的高速发展,人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息,已成为政府和企业的一个重要数据来源,互联网数据处理也已成为一个有重大需求的热门行业。借助网络爬虫技术,我们能够快速从互联网中原创 2017-06-12 10:27:51 · 14114 阅读 · 6 评论