Python开发日记
这里有爬虫以及python进阶指南
天下第一小白
作者目前就职于某大厂,研究方向是深度学习领域,微服务等。对算法和数据结构比较感兴趣,经常会分享一些leetcode题解和面试知识,希望我的博客能够帮您解决问题,提升自己,今天很高兴认识你。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Django 入门篇一
寒假时间想再考研之前再最后锻炼一下项目的水平,想用Django来开发个人博客,放弃了之前考虑的Java开发,主要是用Java开发一个轻量级的博客大材小用。最后决定用flask或者Django来完成这个小项目,每天记录一下项目进展。今天是开发Django的第一天,前期做过爬虫之类的项目,轻车熟路。强烈推荐这个教程http://djangobook.py3k.cn/2.0/,这个有点过原创 2018-01-20 19:40:40 · 307 阅读 · 0 评论 -
selenium动态网页爬虫复习
遇到动态网页,通过ajax加载,无法通过源码分析,可以产用自动化测试工具来实现预先加载#预先装浏览器驱动from selenium import webdriverbrowser = webdriver.Chrome(executable_path = '驱动本地地址') # 用的chrome驱动browser.get('http://www.baidu.com') #请求网站地址pri原创 2018-02-28 13:35:18 · 339 阅读 · 0 评论 -
爬虫实战——爬百思不得姐
看完了爬虫的入门之后,想实战一下,于是找了一个段子网站——百思不得姐,爬一下段子:首先进入到 http://www.budejie.com/text/,里面全部是段子,暂时只把段子爬下来,不爬图片,打开页面查看源代码:发现段子都在类似于这样 <a href="(/detail-3242432.html)">段子</a> 的结构中, 于是我们有办法了,把段子在的地方放入正则表达式reg原创 2017-08-21 12:39:47 · 455 阅读 · 0 评论 -
实战scrapy-爬取红袖添香前20页小说
首先展现最终实现的效果:1 ,首先是建立scrapy项目:scrapy startproject novelcrawl #我的项目名为novelcrawl用pycharm打开项目:这是我的items.py文件:# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in原创 2017-09-03 20:16:21 · 1016 阅读 · 0 评论 -
关于BeautifulSoup写class和class_
因为class是python的关键字,所以在写过滤的时候,应该是这样写:soup.find_all('a',class_='xxx')soup.select(a[class='xxx'])这里总结出一条,凡是写在[ ]里面的都是class,外面的class_原创 2017-09-04 16:37:42 · 4967 阅读 · 0 评论 -
在scrapy上使用cookie模拟登录
下面的例子模拟登录知乎的个人设置页面设置代理池 scrapy + tor#安装torsudo apt-get install torsudo /etc/init.d/tor restart #重启服务tor --hash-password mypassword #生成hash密码sudo vim /etc/tor/torrc #编辑加入如下内容ControlPort 9051Ha原创 2017-09-23 19:26:57 · 1833 阅读 · 0 评论 -
Scrapy读取设置文件(settings.py)
转发来自这位大佬: http://www.cnblogs.com/cnkai/p/7401343.html读取settings.pymiddlewares.py文件中import scrapyfrom scrapy import signalsfrom scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareimpor转载 2017-09-24 14:50:41 · 6180 阅读 · 0 评论 -
爬取知乎话题下回答,并制作关键字词云
一开始学习爬虫就有爬知乎的想法,但是直到现在才实现这个小目标,说来确实惭愧;本项目是用scrapy+python2.7下实现的 本来目标是tor+scrapy来搭建代理池,后来发现还要翻墙,太麻烦了,于是直接更换useragent的方法,发现知乎没有封ip,可以放心大胆的爬。还打算爬取作者,以及评论下的评论等,后面觉得没必要,都是重复的过程。今天要爬的知乎话题是 #如何评价王尼玛?目标地址:原创 2017-09-27 21:11:09 · 3777 阅读 · 4 评论 -
Scrapy复习总结
开始项目 scrapy startproject ArticleSpider在ArticleSpider下面生成 jobbole.py文件 scrapy genspider jobbole blog.jobbole.com 为了方便调试,我们写一个执行的主函数main.,pyfrom scrapy.cmdline import executeimport osim...原创 2018-02-24 12:36:43 · 353 阅读 · 0 评论 -
爬虫模拟登录复习
知乎模拟登录例子在模拟登录时,打开开发者工具,在登录时,为了得到确切的请求地址,需要输入错误的密码,因为输入正确时,会跳转,得到多个请求地址,混淆视线。得到地址后,找到需要的提交的参数,有些参数可以在隐藏的输入框中得到,可以通过爬虫提取出来。import requeststry: import cookielib #内容针对python2except: im...原创 2018-02-26 12:54:22 · 514 阅读 · 0 评论 -
关于@property的一些用法
最近在重新巩固Python,看了《effective Python》这本书,感觉不错,查漏补缺。其中@property这个属性有必要做一下笔记:我们熟悉了Java或者C++语法,一般对set和get都十分熟悉,在Python中确实要改变一下习惯,在Python中用get和set虽然也没错,但是总归不符合PEP8规范。下面介绍@property的一些用法#coding:utf-8class vol(o原创 2017-11-23 18:48:07 · 1555 阅读 · 0 评论 -
python多线程编程
使用multiprocessing 模块创建多线程(可以跨平台,fork方法只支持在unix/Linux机器上)from multiprocessing import Processimport osdef run_process(name): print 'child process %s,port is %s'%(name,os.getpid())if __name__=='__ma原创 2017-10-03 18:06:42 · 284 阅读 · 0 评论 -
Python入门3_之使用字符串
1, 字符串的格式化:>>> format = "hello %s" #对应有%d,%f>>> value = ('king')>>> print format % value>>> "hello king" >>> print format % 'king'>>> 'hello king'>>> v = '%s is %s'>>> print v % 'king','me'原创 2017-08-08 15:07:29 · 247 阅读 · 0 评论 -
Python入门5_条件循环语句
1 , 赋值操作:>>> x,y,z = 1,2,3 #等同于x = 1,y = 2, z = 3>>> x,y = y,x #交换x,y的值>>> x,y2,1>>> value = 1,2,3>>> x,y,z = value>>> x12 ,条件判断语句:python的缩进就像java或者C里面的 { }>>> x = input("please input a numbe原创 2017-08-09 15:45:28 · 408 阅读 · 0 评论 -
Python入门6_抽象
1,创建函数:>>> def hello(name) return 'hello'+name>>> print hello('jack')'hello jack'# 使用help()函数能了解函数的信息>>> help(abs)>>> abs(...) abs(number) -> number Return the absolute value of th原创 2017-08-10 15:06:04 · 243 阅读 · 0 评论 -
Python入门1_数字&&表达式
python 入门语法问题:1 ,首先python3以下的解释器,会自动截断到整数类型,在做除法运算。如果需要正常的除法运算,可以在前面引入 from future import division 模块(future前后都有两个下划线,markdown直接给解释成加粗黑体)。 现在都用 // 来整除,例如1//3,得到结果为0,不管是在python3,还是python2中。 乘方运算:2*原创 2017-08-07 18:13:09 · 851 阅读 · 0 评论 -
Python入门7_抽象进阶
1,创建类和对象:class person: def setName(self,name): self.name = name def getName(self): return self.name def printf(self): print 'hello'+self.namef = person()f.setName(原创 2017-08-10 19:30:08 · 246 阅读 · 0 评论 -
Python入门8_方法,属性,迭代器
1,继承机制:上章讲到了class man(human): 这个表示类man继承human。下面介绍super( ),一个例子如下:>>> class human: def __init__(self): self.gender = 'man' def say(self): if self.gender == 'man原创 2017-08-19 10:11:48 · 285 阅读 · 0 评论 -
Python爬虫入门_之urllib2&&urllib
笔者是在python2.7环境下学习爬虫的import urllib2 #引入模块html = urllib2.urlopen('http://www.jikexueyuan.com')html.read()以上几行,简单的把极客学院的html页面爬下来了,分析一下urllib2模块:# urlopen()>>> urllib.urlopen(url, data, timeout) #第一个转载 2017-08-20 14:34:52 · 293 阅读 · 0 评论 -
爬取并下载国家地理杂志官网8月份照片
刚看完urlretrieve函数,想要实战一下它的效果,于是找了国家地理杂志中国官网爬一下,网站http://www.nationalgeographic.com.cn/开发环境是Python2.7&&Pycharm图片的src是这样的:我们用正则&&BeautifulSoup匹配它的标签img的src属性,得到了下面代码中的正则匹配,我在Pycharm中建立了photo文件夹,来存放下载的图片,代原创 2017-08-23 14:14:38 · 1204 阅读 · 0 评论 -
实战爬虫-爬取红袖添香并存入数据库
看了很多爬虫视频的视频,最近找了个小说网站练练手目标:红袖添香前20页小说,包括小说名字,作者,类别,状态,字数,以及基本介绍网址在这儿:https://www.hongxiu.com/all?pageSize=10&gender=2&catId=30001&isFinish=-1&isVip=-1&size=-1&updT=-1&orderBy=0&pageNum=1这是大概样子接下来我会一层层的原创 2017-08-26 20:38:08 · 2290 阅读 · 0 评论 -
Python入门4_之字典的使用
说到python的字典,我第一个想到的是与之类似的JSON,也同样是键值对。 前面第一讲有那么一个隐患的问题,我们说八进制数都是以0开头的,但是有的时候,我们要表示以0开头的十进制数,怎么办?最常见的办法是直接把它表示成字符串,就解决了这个问题。 前面我们还讲到了[ ],( ),一个表示序列,一个表示元组,今天引入一个新的符号{ },表示字典,字典是由多个键以及它所对应的值组成的键值对,类似于这原创 2017-08-08 16:33:14 · 704 阅读 · 0 评论 -
python字典和JSON格式的转换
首先引入 import json>>> d = {'s':'you','d':'are'} #给一个字典>>> j = json.dumps(d)>>> type(j)str #已经转化为json字符串>>> d1 = json.loads(j)>>> type(d1)dic #已经将json字符串转化为字典了原创 2017-09-03 12:47:17 · 92062 阅读 · 3 评论 -
Python入门2_之列表&&元组
学习过程中务必注意:{ },[ ],( )这三个符号的使用1,序列(符号:[ ])>>> name = ['quking','gentleman']>>> name[0] = 'quking' #字符串本身就是序列>>> hair = 'black'>>> hair[0] = 'b'>>> hair[-1] = 'k' #倒数 1.1,分片:>>> name = 'quking'原创 2017-08-07 19:51:05 · 329 阅读 · 0 评论
分享