Mr.10-优快云博客

原创菜鸟也来学算法：从小白到入坟系列（不断更新...）

博客教程：点我查看算法目录：二分查找算法选择排序算法递归D&C策略快速排序算法广度优先搜索算法不断更新…GitHub源码：点我查看

2018-12-16 12:08:46 449 3

原创为什么需要前后端分离？

今天我们来聊一聊一个有趣的话题：为什么需要前后端分离？随着app端、pad端的与日俱增，比如：django的开发模式，后端模板生成，但是这种方式一般只适用于pc端，那么app、pad端空缺的，做起来是比较麻烦的，所以以往的开发模式局限性很明显了。SPA开发模式开始流行。SPA(single page web application)单页面web应用，就是只有一张Web页面的应用，是加载...

2019-04-04 00:54:50 281

原创源码角度解读Django RestFrameWork 的 APIView、GenericsAPIView、GenericViewSet以及Router工作原理

Django学习笔记：源码角度解读 DRF 的 View

2018-12-10 13:37:58 447

原创 Ubuntu 安装 Python3.6

请点击：Ubuntu 安装 Python3.6

2018-12-05 13:35:54 538

原创 Git基础教程：Git 与远程库Github 的故事

请前往：Git基础教程：Git 与远程库Github 的故事查看

2018-12-04 00:30:54 169

原创 Git 基础教程：Git 与本地库交互

请前往：Git 基础教程：Git 与本地库的故事查看

2018-12-03 22:58:43 186

原创大白话来说：Restful API 是干啥的？

请前往：Restful API 是干啥的？查看。

2018-12-03 18:26:30 1663 1

原创导出自己项目安装的Python包，并写出txt文件

pip freeze > requirements.txt

2018-11-06 18:54:52 1397

原创 Ubuntu 从安装到设置Redis、MongoDB开机启动脚本的一条龙服务

Redis（安装篇）：1.创建文件夹：mkdir /opt/download/2.下载解压包：wget http://download.redis.io/releases/redis-4.0.11.tar.gz3.解压：tar -zxvf redis-4.0.114.进入、编译：cd redis-4.0.11/sudo makesudo make in...

2018-10-17 23:22:51 584

原创使用Ubuntu 18.04.1安装python之初体验

1.安装素材：vmware、ubuntu 18.04.1-desktop版本（安装很简单，但是好卡啊），教程网上很多，不明白的自己可以去百度~。重点说说几个问题。2.问题集合：问题一：初次登陆是普通用户登陆，要切换永久root用户登陆。为什么需要root身份呢？因为我们很多操作需要root权限，所以直接root登陆省事。需要如下操作1.获取临时root权限：打开终端 -&gt; sudo...

2018-10-16 20:56:56 1022

原创 Python爬虫scrapy系列（一）Bilibili分布式爬虫

一、背景：爬取Bilibili用户信息及其发布过的视频信息，并进行数据清洗、分析、可视化二、爬虫思路：利用一个粉丝多的大v用户作为爆点，爬取用户信息、视频信息三、数据去重问题：利用用户粉丝的思路去爬取用户，必然会导致用户数据重复问题，我们可以巧妙地利用mongodb的存储机制，利用唯一的一个字段标识，可以既增量存储而又不重复的问题，这里我们利用用户id和视频id作为标识，数据不重复的存储...

2018-10-14 18:17:32 1595

原创 mongodb系列之强大的$rege配合$not进行精确查询

这几天在看mongodb的查询语句，刚好自己需要用到$regex和$not，自己灵机一动，是不是可以利用两者结合的方式进行精确查询呢？具体如下：import recursor = collection.find({"source": {"$not": re.compile(".*超话"), "$ne": ""}}, {"source": 1, "_id": 0})

2018-09-30 00:34:45 1552

原创爬虫小知识（三）：正则表达式匹配中文

目前我用过的正则表达式匹配中文的方法有两种：1.re.compile(’[\u4E00-\u9FA5]’)实例：>>> text = """【傅首尔打董婧】《奇葩说》辩手<a href="https://m.weibo.cn/p/searchall?containerid=231522type%3D1%26q%3D%23%E8%91%A3%E5%A9%A7%23%2...

2018-09-21 02:35:13 3838

原创 Python爬虫快跑系列（二）async 爬取饿了么商家信息和对应的评论，并且利用snownpl进行评论情感分析

1.背景：最近在学协程异步python异步，想借此机会练习一下，而且网上用协程爬虫的文章好像不也不多，所以借此机会实验一番。2.站点分析：爬取的是eleme的h5页面，难度比较小，电脑端的需要登陆，而且是手机号码接收验证码的登陆，不想要用cookie登陆，所以找个办法，借助h5页面去爬取。3.需求：需求如下图，字段很多，原谅我爬虫就喜欢爬尽所有字段，其实做爬虫分析目标的字段也是蛮有趣的，...

2018-09-17 23:56:55 2428

原创 git系列之重复要求输入密码

问题描述：推送到远程端时，老是重复要求输入密码，很烦，记得老师说过一个解决方案，借此机会记录一下，以免忘记~解决方法：1.打开终端：git bash here2.进入C:\用户\admit：cd users\admit3.创建新文件：touch _netrc4.输入以下内容：5.完事...

2018-09-17 23:43:40 635

原创使用MySQL插入数据时遇到的问题，Out of range value for column '' at row 1

Out of range value for column ‘xxx’ at row 1解决方法 :int(11) 改成 bigint(50)参考:https://blog.youkuaiyun.com/dfhgshgdf/article/details/77448963

2018-09-17 19:14:40 4447

原创并发、并行、同步、异步、阻塞、非阻塞

这几个概念在编程中常见而又容易混淆，特此记录一下。并发：在一个时间段内，有几个程序在同一个cpu上运行，但是任意时刻只有一个程序在cpu运行（cpu在一个时间点只有一个程序运行，但是由于cpu切换运行速度之快，达到了1秒中上亿次。）大白话来说：并发是一次处理很多事情，并发是在线程这个模型下产生的概念。并发表示同时发生了多件事情，通过时间片切换，哪怕只有单一的核心，也可以实现“同时做多件事情...

2018-09-13 11:09:27 345

原创 Python爬虫快跑系列（一）多线程生产者消费者模式爬取Agoda

1.背景：熟悉多线程，熟悉作图所用到的库的api 代码不难，直接看github源代码吧2.需求：爬取的字段好多，我就不写出来了，直接放图吧。。。 3.效果图：4.githubThread_Agoda...

2018-09-12 20:30:08 1039 1

原创关于Python 多线程生产者消费者模式用协程方式去实现的理解

这里利用了Python生成器的send()方法来实现生产者与消费者之间的通信，非常巧妙！还不了解send()方法的请移步我的上一篇博文：https://blog.youkuaiyun.com/weixin_42471384/article/details/82624009 实例：def producer(c): # 生产者产生消息，之后，yield到消费者执行 c.send(None...

2018-09-11 14:43:57 546

原创 Python 生成器的next和send

1.什么是生成器？在 Python 中，使用了 yield 的函数被称为生成器（generator）。跟普通函数不同的是，生成器是一个返回迭代器的函数，只能用于迭代操作，更简单点理解生成器就是一个可以迭代的东西。2.next()与send() next()方法：在调用生成器运行的过程中，每次遇到 yield ，函数返回当前的值，并且会暂停并保存当前所有的运行信息，并在下一次执行...

2018-09-11 12:38:25 631 1

转载爬虫小知识（二）：爬虫过程中常见的状态码

原文地址：https://blog.youkuaiyun.com/u012043391/article/details/51069441

2018-09-06 16:08:44 1490

转载爬虫小知识（一）：Scrapy爬虫捕获403状态码抛出CloseSpider异常

1、爬数据的时候，有时会遇到被该网站封IP等情况，response的状态码为403，那么这时候我们希望能够抛出 CloseSpider的异常。 2、但是如scrapy官网提到的，Scrapy默认的设置是过滤掉有问题的HTTP response(即response状态码不在200-300之间)。因此403的情况会被ignore掉，也就是及时我们用response.status == 400判...

2018-09-05 14:05:57 4062

原创 Python 爬虫实现进度条下载，为你的程序添上点睛之笔！

还在为你的爬虫程序执行结果不能显示进度条而感到枯燥无味吗？快来试试为爬虫加上进度条吧！

2018-09-05 01:52:40 2358

原创利用request库和队列动态ip抓取拉勾网的python爬虫职位，并且写入MySQL数据库

requests + Queue + 动态ip池抓取拉勾爬虫职位，并且写入数据库

2018-08-10 14:59:25 808

原创 Scrapy shell 如何添加 User_Agent?

让scrapy shell 不再返回302

2018-08-10 04:53:26 4034

Mrrrrr10's Blog