Python开发日记_天下第一小白的博客-优快云博客

Python开发日记

关注

这里有爬虫以及python进阶指南

关注数：文章数：24 文章阅读量：120767 文章收藏量：47

作者: 天下第一小白

作者目前就职于某大厂，研究方向是深度学习领域，微服务等。对算法和数据结构比较感兴趣，经常会分享一些leetcode题解和面试知识，希望我的博客能够帮您解决问题，提升自己，今天很高兴认识你。

展开

专栏收录文章

Django 入门篇一

寒假时间想再考研之前再最后锻炼一下项目的水平，想用Django来开发个人博客，放弃了之前考虑的Java开发，主要是用Java开发一个轻量级的博客大材小用。最后决定用flask或者Django来完成这个小项目，每天记录一下项目进展。今天是开发Django的第一天，前期做过爬虫之类的项目，轻车熟路。强烈推荐这个教程http://djangobook.py3k.cn/2.0/，这个有点过

原创 2018-01-20 19:40:40 · 307 阅读 · 0 评论
selenium动态网页爬虫复习

遇到动态网页，通过ajax加载，无法通过源码分析，可以产用自动化测试工具来实现预先加载#预先装浏览器驱动from selenium import webdriverbrowser = webdriver.Chrome(executable_path = '驱动本地地址') # 用的chrome驱动browser.get('http://www.baidu.com') #请求网站地址pri

原创 2018-02-28 13:35:18 · 339 阅读 · 0 评论
爬虫实战——爬百思不得姐

看完了爬虫的入门之后，想实战一下，于是找了一个段子网站——百思不得姐，爬一下段子：首先进入到 http://www.budejie.com/text/，里面全部是段子，暂时只把段子爬下来，不爬图片，打开页面查看源代码:发现段子都在类似于这样 <a href="(/detail-3242432.html)">段子</a> 的结构中，于是我们有办法了，把段子在的地方放入正则表达式reg

原创 2017-08-21 12:39:47 · 455 阅读 · 0 评论
实战scrapy-爬取红袖添香前20页小说

首先展现最终实现的效果：1 ，首先是建立scrapy项目：scrapy startproject novelcrawl #我的项目名为novelcrawl用pycharm打开项目：这是我的items.py文件：# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in

原创 2017-09-03 20:16:21 · 1016 阅读 · 0 评论
关于BeautifulSoup写class和class_

因为class是python的关键字，所以在写过滤的时候，应该是这样写：soup.find_all('a',class_='xxx')soup.select(a[class='xxx'])这里总结出一条，凡是写在[ ]里面的都是class，外面的class_

原创 2017-09-04 16:37:42 · 4967 阅读 · 0 评论
在scrapy上使用cookie模拟登录

下面的例子模拟登录知乎的个人设置页面设置代理池 scrapy + tor#安装torsudo apt-get install torsudo /etc/init.d/tor restart #重启服务tor --hash-password mypassword #生成hash密码sudo vim /etc/tor/torrc #编辑加入如下内容ControlPort 9051Ha

原创 2017-09-23 19:26:57 · 1835 阅读 · 0 评论
Scrapy读取设置文件（settings.py)

转发来自这位大佬： http://www.cnblogs.com/cnkai/p/7401343.html读取settings.pymiddlewares.py文件中import scrapyfrom scrapy import signalsfrom scrapy.downloadermiddlewares.useragent import UserAgentMiddlewareimpor

转载 2017-09-24 14:50:41 · 6180 阅读 · 0 评论
爬取知乎话题下回答，并制作关键字词云

一开始学习爬虫就有爬知乎的想法，但是直到现在才实现这个小目标，说来确实惭愧；本项目是用scrapy+python2.7下实现的本来目标是tor+scrapy来搭建代理池，后来发现还要翻墙，太麻烦了，于是直接更换useragent的方法，发现知乎没有封ip，可以放心大胆的爬。还打算爬取作者，以及评论下的评论等，后面觉得没必要，都是重复的过程。今天要爬的知乎话题是 #如何评价王尼玛？目标地址：

原创 2017-09-27 21:11:09 · 3779 阅读 · 4 评论
Scrapy复习总结

开始项目 scrapy startproject ArticleSpider在ArticleSpider下面生成 jobbole.py文件 scrapy genspider jobbole blog.jobbole.com 为了方便调试，我们写一个执行的主函数main.,pyfrom scrapy.cmdline import executeimport osim...

原创 2018-02-24 12:36:43 · 354 阅读 · 0 评论
爬虫模拟登录复习

知乎模拟登录例子在模拟登录时，打开开发者工具，在登录时，为了得到确切的请求地址，需要输入错误的密码，因为输入正确时，会跳转，得到多个请求地址，混淆视线。得到地址后，找到需要的提交的参数，有些参数可以在隐藏的输入框中得到，可以通过爬虫提取出来。import requeststry: import cookielib #内容针对python2except: im...

原创 2018-02-26 12:54:22 · 514 阅读 · 0 评论
关于@property的一些用法

最近在重新巩固Python，看了《effective Python》这本书，感觉不错，查漏补缺。其中@property这个属性有必要做一下笔记：我们熟悉了Java或者C++语法，一般对set和get都十分熟悉，在Python中确实要改变一下习惯，在Python中用get和set虽然也没错，但是总归不符合PEP8规范。下面介绍@property的一些用法#coding:utf-8class vol(o

原创 2017-11-23 18:48:07 · 1555 阅读 · 0 评论
python多线程编程

使用multiprocessing 模块创建多线程（可以跨平台，fork方法只支持在unix/Linux机器上）from multiprocessing import Processimport osdef run_process(name): print 'child process %s，port is %s'%(name,os.getpid())if __name__=='__ma

原创 2017-10-03 18:06:42 · 284 阅读 · 0 评论
Python入门3_之使用字符串

1, 字符串的格式化：>>> format = "hello %s" #对应有%d，%f>>> value = ('king')>>> print format % value>>> "hello king" >>> print format % 'king'>>> 'hello king'>>> v = '%s is %s'>>> print v % 'king','me'

原创 2017-08-08 15:07:29 · 248 阅读 · 0 评论
Python入门5_条件循环语句

1 , 赋值操作：>>> x,y,z = 1,2,3 #等同于x = 1,y = 2, z = 3>>> x,y = y,x #交换x,y的值>>> x,y2,1>>> value = 1,2,3>>> x,y,z = value>>> x12 ，条件判断语句：python的缩进就像java或者C里面的 { }>>> x = input("please input a numbe

原创 2017-08-09 15:45:28 · 408 阅读 · 0 评论
Python入门6_抽象

1，创建函数：>>> def hello(name) return 'hello'+name>>> print hello('jack')'hello jack'# 使用help()函数能了解函数的信息>>> help(abs)>>> abs(...) abs(number) -> number Return the absolute value of th

原创 2017-08-10 15:06:04 · 243 阅读 · 0 评论
Python入门1_数字&&表达式

python 入门语法问题：1 ，首先python3以下的解释器，会自动截断到整数类型，在做除法运算。如果需要正常的除法运算，可以在前面引入 from future import division 模块(future前后都有两个下划线，markdown直接给解释成加粗黑体)。现在都用 // 来整除，例如1//3，得到结果为0，不管是在python3，还是python2中。乘方运算：2*

原创 2017-08-07 18:13:09 · 851 阅读 · 0 评论
Python入门7_抽象进阶

1，创建类和对象：class person: def setName(self,name): self.name = name def getName(self): return self.name def printf(self): print 'hello'+self.namef = person()f.setName(

原创 2017-08-10 19:30:08 · 247 阅读 · 0 评论
Python入门8_方法，属性，迭代器

1，继承机制：上章讲到了class man(human): 这个表示类man继承human。下面介绍super( )，一个例子如下：>>> class human: def __init__(self): self.gender = 'man' def say(self): if self.gender == 'man

原创 2017-08-19 10:11:48 · 285 阅读 · 0 评论
Python爬虫入门_之urllib2&&urllib

笔者是在python2.7环境下学习爬虫的import urllib2 #引入模块html = urllib2.urlopen('http://www.jikexueyuan.com')html.read()以上几行，简单的把极客学院的html页面爬下来了，分析一下urllib2模块：# urlopen()>>> urllib.urlopen(url, data, timeout) #第一个

转载 2017-08-20 14:34:52 · 293 阅读 · 0 评论
爬取并下载国家地理杂志官网8月份照片

刚看完urlretrieve函数，想要实战一下它的效果，于是找了国家地理杂志中国官网爬一下，网站http://www.nationalgeographic.com.cn/开发环境是Python2.7&&Pycharm图片的src是这样的：我们用正则&&BeautifulSoup匹配它的标签img的src属性，得到了下面代码中的正则匹配，我在Pycharm中建立了photo文件夹，来存放下载的图片，代

原创 2017-08-23 14:14:38 · 1204 阅读 · 0 评论
实战爬虫-爬取红袖添香并存入数据库

看了很多爬虫视频的视频，最近找了个小说网站练练手目标：红袖添香前20页小说，包括小说名字，作者，类别，状态，字数，以及基本介绍网址在这儿：https://www.hongxiu.com/all?pageSize=10&gender=2&catId=30001&isFinish=-1&isVip=-1&size=-1&updT=-1&orderBy=0&pageNum=1这是大概样子接下来我会一层层的

原创 2017-08-26 20:38:08 · 2293 阅读 · 0 评论
Python入门4_之字典的使用

说到python的字典，我第一个想到的是与之类似的JSON，也同样是键值对。前面第一讲有那么一个隐患的问题，我们说八进制数都是以0开头的，但是有的时候，我们要表示以0开头的十进制数，怎么办？最常见的办法是直接把它表示成字符串，就解决了这个问题。前面我们还讲到了[ ]，( )，一个表示序列，一个表示元组，今天引入一个新的符号{ }，表示字典，字典是由多个键以及它所对应的值组成的键值对，类似于这

原创 2017-08-08 16:33:14 · 704 阅读 · 0 评论
python字典和JSON格式的转换

首先引入 import json>>> d = {'s':'you','d':'are'} #给一个字典>>> j = json.dumps(d)>>> type(j)str #已经转化为json字符串>>> d1 = json.loads(j)>>> type(d1)dic #已经将json字符串转化为字典了

原创 2017-09-03 12:47:17 · 92079 阅读 · 3 评论
Python入门2_之列表&&元组

学习过程中务必注意：{ }，[ ]，( )这三个符号的使用1，序列(符号：[ ])>>> name = ['quking','gentleman']>>> name[0] = 'quking' #字符串本身就是序列>>> hair = 'black'>>> hair[0] = 'b'>>> hair[-1] = 'k' #倒数 1.1，分片：>>> name = 'quking'

原创 2017-08-07 19:51:05 · 330 阅读 · 0 评论

Python开发日记

作者: 天下第一小白

Django 入门篇一

selenium动态网页爬虫复习

爬虫实战——爬百思不得姐

实战scrapy-爬取红袖添香前20页小说

关于BeautifulSoup写class和class_

在scrapy上使用cookie模拟登录

Scrapy读取设置文件（settings.py)

爬取知乎话题下回答，并制作关键字词云

Scrapy复习总结

爬虫模拟登录复习

关于@property的一些用法

python多线程编程

Python入门3_之使用字符串

Python入门5_条件循环语句

Python入门6_抽象

Python入门1_数字&&表达式

Python入门7_抽象进阶

Python入门8_方法，属性，迭代器

Python爬虫入门_之urllib2&&urllib

爬取并下载国家地理杂志官网8月份照片

实战爬虫-爬取红袖添香并存入数据库

Python入门4_之字典的使用

python字典和JSON格式的转换

Python入门2_之列表&&元组