- 博客(25)
- 收藏
- 关注

原创 菜鸟也来学算法:从小白到入坟系列(不断更新...)
博客教程:点我查看算法目录:二分查找算法选择排序算法递归D&C策略快速排序算法广度优先搜索算法不断更新…GitHub源码:点我查看
2018-12-16 12:08:46
398
3
原创 为什么需要前后端分离?
今天我们来聊一聊一个有趣的话题:为什么需要前后端分离?随着app端、pad端的与日俱增,比如:django的开发模式,后端模板生成,但是这种方式一般只适用于pc端,那么app、pad端空缺的,做起来是比较麻烦的,所以以往的开发模式局限性很明显了。SPA开发模式开始流行。SPA(single page web application)单页面web应用,就是只有一张Web页面的应用,是加载...
2019-04-04 00:54:50
249
原创 源码角度解读Django RestFrameWork 的 APIView、GenericsAPIView、GenericViewSet以及Router工作原理
Django学习笔记:源码角度解读 DRF 的 View
2018-12-10 13:37:58
411
原创 Ubuntu 从安装到设置Redis、MongoDB开机启动脚本的一条龙服务
Redis(安装篇):1.创建文件夹:mkdir /opt/download/2.下载解压包:wget http://download.redis.io/releases/redis-4.0.11.tar.gz3.解压:tar -zxvf redis-4.0.114.进入、编译:cd redis-4.0.11/sudo makesudo make in...
2018-10-17 23:22:51
538
原创 使用Ubuntu 18.04.1安装python之初体验
1.安装素材:vmware、ubuntu 18.04.1-desktop版本(安装很简单,但是好卡啊),教程网上很多,不明白的自己可以去百度~。重点说说几个问题。2.问题集合:问题一:初次登陆是普通用户登陆,要切换永久root用户登陆。为什么需要root身份呢?因为我们很多操作需要root权限,所以直接root登陆省事。需要如下操作1.获取临时root权限:打开终端 -> sudo...
2018-10-16 20:56:56
994
原创 Python爬虫scrapy系列(一)Bilibili分布式爬虫
一、背景:爬取Bilibili用户信息及其发布过的视频信息,并进行数据清洗、分析、可视化二、爬虫思路:利用一个粉丝多的大v用户作为爆点,爬取用户信息、视频信息三、数据去重问题:利用用户粉丝的思路去爬取用户,必然会导致用户数据重复问题,我们可以巧妙地利用mongodb的存储机制,利用唯一的一个字段标识,可以既增量存储而又不重复的问题,这里我们利用用户id和视频id作为标识,数据不重复的存储...
2018-10-14 18:17:32
1534
原创 mongodb系列之强大的$rege配合$not进行精确查询
这几天在看mongodb的查询语句,刚好自己需要用到$regex和$not,自己灵机一动,是不是可以利用两者结合的方式进行精确查询呢?具体如下:import recursor = collection.find({"source": {"$not": re.compile(".*超话"), "$ne": ""}}, {"source": 1, "_id": 0})
2018-09-30 00:34:45
1513
原创 爬虫小知识(三):正则表达式匹配中文
目前我用过的正则表达式匹配中文的方法有两种:1.re.compile(’[\u4E00-\u9FA5]’)实例:>>> text = """【傅首尔打董婧】《奇葩说》辩手<a href="https://m.weibo.cn/p/searchall?containerid=231522type%3D1%26q%3D%23%E8%91%A3%E5%A9%A7%23%2...
2018-09-21 02:35:13
3789
原创 Python爬虫快跑系列(二)async 爬取饿了么商家信息和对应的评论,并且利用snownpl进行评论情感分析
1.背景:最近在学协程异步python异步,想借此机会练习一下,而且网上用协程爬虫的文章好像不也不多,所以借此机会实验一番。2.站点分析:爬取的是eleme的h5页面,难度比较小,电脑端的需要登陆,而且是手机号码接收验证码的登陆,不想要用cookie登陆,所以找个办法,借助h5页面去爬取。3.需求:需求如下图,字段很多,原谅我爬虫就喜欢爬尽所有字段,其实做爬虫分析目标的字段也是蛮有趣的,...
2018-09-17 23:56:55
2324
原创 git系列之重复要求输入密码
问题描述:推送到远程端时,老是重复要求输入密码,很烦,记得老师说过一个解决方案,借此机会记录一下,以免忘记~解决方法:1.打开终端:git bash here2.进入C:\用户\admit:cd users\admit3.创建新文件:touch _netrc4.输入以下内容:5.完事...
2018-09-17 23:43:40
594
原创 使用MySQL插入数据时遇到的问题,Out of range value for column '' at row 1
Out of range value for column ‘xxx’ at row 1解决方法 :int(11) 改成 bigint(50)参考:https://blog.youkuaiyun.com/dfhgshgdf/article/details/77448963
2018-09-17 19:14:40
4365
原创 并发、并行、同步、异步、阻塞、非阻塞
这几个概念在编程中常见而又容易混淆,特此记录一下。并发:在一个时间段内,有几个程序在同一个cpu上运行,但是任意时刻只有一个程序在cpu运行(cpu在一个时间点只有一个程序运行,但是由于cpu切换运行速度之快,达到了1秒中上亿次。) 大白话来说:并发是一次处理很多事情,并发是在线程这个模型下产生的概念。并发表示同时发生了多件事情,通过时间片切换,哪怕只有单一的核心,也可以实现“同时做多件事情...
2018-09-13 11:09:27
313
原创 Python爬虫快跑系列(一)多线程生产者消费者模式爬取Agoda
1.背景:熟悉多线程,熟悉作图所用到的库的api 代码不难,直接看github源代码吧2.需求:爬取的字段好多,我就不写出来了,直接放图吧。。。 3.效果图:4.githubThread_Agoda...
2018-09-12 20:30:08
981
1
原创 关于Python 多线程生产者消费者模式用协程方式去实现的理解
这里利用了Python生成器的send()方法来实现生产者与消费者之间的通信,非常巧妙! 还不了解send()方法的请移步我的上一篇博文:https://blog.youkuaiyun.com/weixin_42471384/article/details/82624009 实例:def producer(c): # 生产者产生消息,之后,yield到消费者执行 c.send(None...
2018-09-11 14:43:57
512
原创 Python 生成器的next和send
1.什么是生成器? 在 Python 中,使用了 yield 的函数被称为生成器(generator)。 跟普通函数不同的是,生成器是一个返回迭代器的函数,只能用于迭代操作,更简单点理解生成器就是一个可以迭代的东西。2.next()与send() next()方法: 在调用生成器运行的过程中,每次遇到 yield ,函数返回当前的值,并且会暂停并保存当前所有的运行信息, 并在下一次执行...
2018-09-11 12:38:25
533
1
转载 爬虫小知识(二):爬虫过程中常见的状态码
原文地址:https://blog.youkuaiyun.com/u012043391/article/details/51069441
2018-09-06 16:08:44
1426
转载 爬虫小知识(一):Scrapy爬虫 捕获403状态码抛出CloseSpider异常
1、爬数据的时候,有时会遇到被该网站封IP等情况,response的状态码为403,那么这时候我们希望能够抛出 CloseSpider的异常。 2、但是如scrapy官网提到的,Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。 因此403的情况会被ignore掉,也就是及时我们用response.status == 400判...
2018-09-05 14:05:57
3999
原创 Python 爬虫实现进度条下载,为你的程序添上点睛之笔!
还在为你的爬虫程序执行结果不能显示进度条而感到枯燥无味吗?快来试试为爬虫加上进度条吧!
2018-09-05 01:52:40
2319
原创 利用request库和队列动态ip抓取拉勾网的python爬虫职位,并且写入MySQL数据库
requests + Queue + 动态ip池抓取拉勾爬虫职位,并且写入数据库
2018-08-10 14:59:25
779
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人