- 博客(62)
- 资源 (8)
- 收藏
- 关注

原创 【CNN】理解卷积神经网络中的通道 channel
在深度学习的算法学习中,都会提到 channels 这个概念。在一般的深度学习框架的 conv2d 中,如 tensorflow 、mxnet ,channels 都是必填的一个参数。channels 该如何理解?先看一看不同框架中的解释文档。首先,是 tensorflow 中给出的,对于输入样本中 channels 的含义。一般的RGB图片,channels 数量是 3 (红、绿、蓝)...
2018-04-04 16:07:15
135854
78

原创 【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配
本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”变量分析首先,需要确定变量之间是否存在共线性,若存在高度相关性,只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor)也就是 方差膨胀因子进行检验。 变量分为连续变量和分类变量。在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼
2017-11-22 17:41:59
102536
13
原创 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused 解决方法
问题:报错 curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused解决方法:参考:https://bbs.huaweicloud.com/blogs/143682很多方法都没用,这个解决了问题。希望对你有用。原因由于某些你懂的因素,导致GitHub的raw.github...
2020-04-17 10:25:45
18526
10
原创 【亲身经历】2019杭州人才引进落户——详细流程、地址、所需材料、网上办事链接
首先说一下整体的办理感受:完美(先吹一波)。不管是从服务态度还是办事效率,好到我都觉得这不是在政府办事了。大部分事情可以在网上办理,政府网站也很给力,基本都是处于更新状态,而不是摆设。不愧是杭州,一套流程走下来打心底里觉得落户杭州是正确的选择。以后不管是生活还是办理公共事务,肯定非常舒服。办理时间是2019年3月份,其实当场办理很快,窗口也很有效率,主要是邮寄东西耽误时间。本文主要说研究生...
2019-07-28 22:41:03
7394
原创 解决xgboost报错 : ValueError: feature_names mismatch
问题原因已使用训练数据完成xgboost模型的训练,后期应用时,加载完成模型,使用新数据进行预测时报错。ValueError: feature_names mismatch,具体如下图。导致这个问题原因可能有多种情况,我这里对我的情况解释一下。我这里是由于训练数据划分好,使用的 X_train 训练, 后面经验证集 X_test 跑出结果,得到auc都没有问题。保存好模型。在后期再应...
2019-05-20 15:28:11
15222
原创 【Linux-Ubuntu】免U盘安装windows 和 Ubuntu 18.04 双系统流程,教你避免各种坑
python机器学习和深度学习的很多开源模块在windows下面不好用,一直使用的是虚拟机,但是虚拟机里不敢给太高配置,电脑会卡,所以训练很慢。为了提高使用体验,决定装一个windows和Linux(Ubuntu)的双系统,在装的过程中我真的遇到了非常多的坑,装了不下十次,才最终找到一个最靠谱的安装方法,在此和大家分享,win7和win10都适用。但是每个人的电脑不同,不能保证所有电脑都完美,但最...
2019-05-07 11:49:31
31824
7
原创 【算法】字符串匹配2 BM算法 坏字符规则 好后缀规则 python代码实现
BM算法, Boyer-Moore,非常高效,是KMP算法的3~4倍。高能预警,此算法较难。核心思想匹配过程其实就是模式串在主串中不停地往后滑动。当遇到不匹配的字符时,BF和RK算法做法是往后滑动一位,从模式串第一个字符重新匹配。上图中,主串中的 c 其实在模式串中并不存在,所以滑动时只要与 c 有重合,肯定无法匹配。所以可以把模式串多滑动几位,移到c后面再开始匹配。这样效率就提高了...
2019-04-26 17:45:51
2220
1
转载 【算法】字符串匹配1 BF算法 RK算法
字符串匹配有多种方法,这里先讲最简单的两种算法: BF算法 和 RK算法,复杂度也相对较高。它们均为单模式串匹配的算法,也就是一个串跟一个串进行匹配。BF算法简介Brute Force,暴力匹配算法,也叫朴素匹配算法。比较简单、好懂,但相应的性能也不高。在字符串 A 中查找字符串 B ,那字符串 A 就是主串,字符串 B 就是模式串。主串的长度记作 n ,模式串的长度记作 m ,所以...
2019-04-26 17:18:34
913
1
原创 【数据处理】pandas DataFrame 实现 某列中分隔数据转成多行 split explode
DataFrame中某列由“逗号”分隔,格式如下。希望转换后,分隔的行全部以列的形式重新排列。处理前:处理后:转换代码如下。import pandas as pddf = pd.DataFrame([{'var1': 'a,b,c', 'var2': 1}, {'var1': 'd,e', 'var2': 2}])df1 = pd.concat...
2019-04-23 15:10:29
12636
3
原创 【算法】图的 深度优先搜索 广度优先搜索 复杂度分析 python代码实现
深度优先搜索算法和广度优先搜索算法都是基于“图”这种数据结构的。作为图的搜索算法,既可用于有向图,也可用于无向图,以下均用无向图讲解。广度优先搜索Breadth-First-Search,BFS。一种“地毯式”层层推进的搜索策略,先查找离起始顶点最近的,然后是次近的,依次往外搜索。s 表示起始顶点,t 表示终止顶点。搜索一条从 s 到 t 的路径。实际上,求得的路径就是从 s 到 t ...
2019-04-10 01:08:55
7411
原创 【数据结构】图的表示与存储方法 邻接表 邻接矩阵
图是一种非线性表数据结构。图中的元素我们就叫作顶点(vertex)。一个顶点可以与任意其他顶点建立连接关系,这种建立的关系叫作边(edge)。跟顶点相连接的边的条数,叫作顶点的度(degree)无向图边没有方向的图就叫作“无向图”。有向图边有方向的图叫作“有向图”。有向图中,把度分为入度(In-degree)和出度(Out-degree)。顶点的入度,表示有多少条边指向这个顶...
2019-04-10 00:49:13
1179
原创 Linux - Ubuntu 下配置JAVA JVM
下载假设现在已经在虚拟机中安装好了ubuntu系统,首先去下载 JDK 和 HADOOP 解压配置环境将压缩包进行解压,放入合适的位置。tar -zxvf jdk-8u172-linux-x64.tar.gztar -zxvf hadoop-X.Y.Z-src.tar.gz如果有root权限可以更改 /etc/environment 内的环境,没有权限的话更改 ~/....
2019-04-04 10:41:36
4471
1
原创 【算法】理解哈希算法 hash 和常见应用
概念将任意长度的二进制值串映射为固定长度的二进制值串,这个映射的规则就是 哈希算法。通过原始数据映射之后得到的二进制值串就是 哈希值。要求从哈希值不能反向推导出原始数据对输入数据非常敏感,一个 Bit 修改得到的哈希值也大不相同散列冲突的概率要很小执行效率高效常见应用安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。后三个应用均与分布式系统有关。下面...
2019-03-19 11:40:56
2667
原创 【链表】快慢双指针——python解决 链表中环的检测,求单链表的中间结点
在解决链表的很多问题时,设置快慢指针是一个很好的解决思路。这次解决两个问题:链表中是否有环结构求单链表的中间节点快慢指针的另一个问题 删除链表倒数第n个结点 ,请点击查看。链表中环的检测class Node(): def __init__(self, data, next=None): self.data = data self.next =...
2019-02-28 15:08:25
1096
原创 【链表】快慢双指针——python解决 删除链表倒数第n个结点
在解决链表的很多问题时,设置快慢指针是一个很好的解决思路。这次问题的是删除链表倒数第 n 个结点。例如, 1 -> 2 -> 3 -> 4 -> 5,删除倒数第2个变成 1 -> 2 -&g
2019-02-28 14:12:02
710
原创 【数据结构】链表 的介绍与python实现 下篇
【算法与数据结构】链表的介绍与python实现 上篇【算法与数据结构】链表的介绍与python实现 下篇上面简单介绍了链表,这篇用python实现链表的基本一些操作。包括打印链表,插入,删除,查找,翻转。class Node(): def __init__(self, data, next=None): self.data = data self.n...
2019-02-27 10:17:10
304
原创 【数据结构】链表 的介绍与python实现 上篇
【算法与数据结构】链表的介绍与python实现 上【算法与数据结构】链表的介绍与python实现 下本文部分文字图片引用了极客时间的《数据结构与算法之美》链表篇 https://time.geekbang.org/column/article/41013讲解的很不错的课程,如果有需要可以去订阅。链表介绍链表通过指针将一组零散的内存块串联在一起。内存块称为链表的“结点”。为了将...
2019-02-27 10:12:26
567
原创 【facenet项目】人脸识别相关数据下载(包括 CASIA/LFW/训练模型)
下面的数据是github上的开源项目 facenet 的相关数据下载。具体请查看项目介绍。名称百度网盘地址密码20180402-114759https://pan.baidu.com/s/1_GABHFZfM13K8Qy0a6EIEgchxh20180408-102900https://pan.baidu.com/s/19Z5uG7LXvtGKSpfYREy...
2019-02-11 16:20:04
5124
6
原创 一文完全理解模型ks指标含义并画出ks曲线(包含代码和详细解释)
KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。 ——神秘的KS值和GINI系数上面是ks的简单介绍,相信大家看了这几句话,肯定还是不懂ks到底是个什么。我也是研究了比较久,终于搞清楚了ks的具体计算方式。搞清楚了计算方式后,ks的含义自然就清楚了。下面...
2019-01-31 11:44:20
78094
13
原创 ubuntu 18.04 安装NVIDIA驱动 cuda/cudnn + tensorflow-gpu + pytorch
电脑换了华硕新主板,需要重装系统,用的Ubuntu18.04的系统,电脑用的显卡是GTX1080Ti。在新系统中装显卡驱动过程中遇到很多坑,中间无奈搞乱环境又重装了一次系统,再次尝试,终于成功。整个过程失败次数很多,参考的教程感觉自己步步都做对了,但是最后就是不能成功运行。配置系统这种事情确实比较麻烦,心态要对,遇到问题上网搜索方法,最终总归都能解决。接下来接讲讲我装NVIDIA驱动到装tens...
2018-12-29 15:35:34
6012
2
原创 conda和pip常用方法,更换源,包的安装、更新、删除、查看
anaconda软件官网下载速度过慢,可以使用清华源的下载地址,https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=Aconda和pip可以说各有优劣。pip的模块更全更多,而conda使用更方便,安装模块时会检查环境,自动下载。conda 特别是在数据分析方面,会对某些常用的包做了专门的优化。更换源pip临...
2018-12-29 15:29:37
15952
原创 【转载】ggplot2主题设置
http://www.rpubs.com/lihaoyi/156592library(ggplot2) #加载ggplot2包library(gcookbook) #加载本书的数据包主题theme参数设置改变字体类型、大小,图例、坐标轴、背景等各种元素,可通过theme()函数来完成library(ggplot2)library(grid) #为了使用unit函数p0 <- ggplo
2018-09-26 10:07:09
8124
1
原创 【数据处理】pandas DataFrame 对多个sheet表格的excel 读取、处理、保存
今天一个不太懂编程的朋友让我帮他处理一些excel的表格,要求大概是:有20多个excel表,每个表里有42个sheet表格(sheet数量和名字相同)。最终需要根据对应的sheet名称将所有表格拼接成一个。为了方式朋友数据泄露,我模拟了一下文件内容,大概如下。不同的excel文件,每个文件中相同的sheet名称。他用VBA一时间没有写出来,请我看看能不能用python实现。我大概搜索了...
2018-09-26 00:46:20
76486
12
原创 【RNN】理解word2vec中的 Skip-Gram
在处理文字模型的时候,将文字转化成可以放进模型的数字,最简单方法是用 one-hot 编码。但是这种方法有弊端,转化后的每个词之间在数字上都是相互独立的,任何一对词的one-hot向量的余弦相似度都为0。Google团队发表的 word2vec 工具。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW...
2018-04-25 11:27:14
1975
原创 【CNN】卷积神经网络中的 1*1 卷积 的作用
在论文 Network In Network 中,提出了一个重要的方法:1×11×11\times1 卷积。这个方法也在后面比较火的方法,如 googLeNet、ResNet、DenseNet ,中得到了非常广泛的应用。特别是在 googLeNet 的Inception中,发挥的淋漓尽致。初次看到 1×11×11\times1 卷积,可能会觉得没有什么作用,因为给人的感觉就是 1×11×11\...
2018-04-09 17:06:53
7912
2
原创 [算法] 二叉树的 先序遍历、中序遍历、后序遍历
本文根据清华大学邓俊辉老师课程《数据结构》总结,课程地址 。遍历介绍 按照事先约定的某种规则或次序,对节点各访问一次而且仅一次。与向量和列表等线性结构一样,二叉树的这类访问也统称为遍历(traversal)。二叉树本身并不具有天然的全局次序, 故为实现遍历,需通过在各节点与其孩子之间约定某种局部次序, 间接地定义某种全局次序。按惯例左兄弟优先于右兄弟, 若记做节点 V ,...
2018-02-27 16:28:05
35752
原创 [算法] 递归方程 减而治之 分而治之
本文根据清华大学邓俊辉老师课程《数据结构》总结,课程地址 。递归 与 递归方程从递推角度看,为求解数组 A 的求和问题 sum(A,n),需要 - 递归求解规模为 n-1 的问题 sum(A,n-1) - 再累加上 A[n-1] 递推方程 看其复杂度, (1)T(n)=T(n−1)+O(1)//recurrence(2)T(0)=O(1)//base:su
2018-02-07 14:12:17
1042
原创 [算法] 循环、级数、复杂度
本文根据清华大学邓俊辉老师课程《数据结构》总结,课程地址 。循环和级数之间的关系,怎样确定其复杂度,有以下几种常见的情况。1for (int i=0; ii++) for (int j=0; jj++) O1Operation(i, j); 外层(i)有 n 层循环,也就是n 项相加。内层(j)每层循环 n 次,也就是每项计算 n 次。加一起复杂度为
2018-02-06 16:47:57
1506
原创 [算法] 大O记号 RAM 级数
本文根据清华大学邓俊辉老师课程《数据结构》总结,课程地址 。RAM 寄存器RAM(Random Access Machine 寄存器),和图灵机(TM)一样,RAM模型也是一半计算工具的简化与抽象。 每一基本操作仅需常数时间:寄存器读写(赋值)、四则运算、比较、goto、call、return。通过RAM使我们可以独立于具体的平台,对算法的效率进行比较与评判。对算法给出客观
2018-02-06 14:29:42
620
原创 台湾大学深度学习课程 学习笔记 Lecture 5-2: Sequence Generation
以下内容和图片均来自台湾大学深度学习课程。 课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.htmlGenerationRNN的应用方法sentences是由characters/word 组成;使用RNN的方法每次生成一个characters/word X 是之前产生的一个word,用one-hot-encodi
2018-01-15 11:57:25
2193
原创 台湾大学深度学习课程 学习笔记 Lecture 5-1: Gated RNN(LSTM与GRU介绍)
以下内容和图片均来自台湾大学深度学习课程。 课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.htmlReview首先复习一下 lecture3-1 Recurrent Neural Network 讲过的RNN结构。RNN假设现在有3个sequence表示为 x1x^1、x2x^2、x3x^3,设定的初始化向量 h0h_
2018-01-10 14:18:06
2944
1
原创 台湾大学深度学习课程 学习笔记 lecture4 Word Embeddings
以下内容和图片均来自台湾大学深度学习课程。 课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html在之前 lecture2-2 Word Representation 的课程中简单讲解了 Word 处理的传统方法。通过传统方法的局限性引入新的方法 Word Embeddings,从而直接学习得到低维结果,而...
2018-01-08 15:50:14
970
原创 台湾大学深度学习课程 学习笔记 lecture3-2 Recursive Neural Network(RvNN)
以下内容和图片均来自台湾大学深度学习课程。 课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html当把所有word 转化成vector后,需要将这些vector进行整合,传统整合方法一般使用average, sum等,接下来介绍使用Recursive Neural Network(RvNN)递归神经网络进行处理。
2017-12-21 18:10:22
4290
原创 台湾大学深度学习课程 学习笔记 lecture3-1 Recurrent Neural Network (RNN)
Recurrent Neural Network (RNN)循环神经网络常被用到的领域是Language Modeling,下面就从Language Modeling方法的发展,引入RNN。Language Modeling多个word组成一句话,根据一句话出现的概率可以得到更符合语法结构和有意义的句子。 比如根据给出的一段语音,可以得到两种完全不同的句子“recognize speech”、“w
2017-12-20 18:31:20
1201
原创 台湾大学深度学习课程 学习笔记 lecture2-2 Word Representation
以下内容和图片均来自台湾大学深度学习课程。 课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html函数“ff”的作用 “Meaning”的含义? 怎样表示文字上的语义? 本节课主要讲了两种方法,分别如下:Knowledge-based representation这个是传统方法,语言学家们制定了一套 WordNe
2017-12-18 18:52:27
600
原创 台湾大学深度学习课程 学习笔记 lecture2-1 Backpropagation
以下内容和图片均来自台湾大学深度学习课程。 课程地址:https://www.csie.ntu.edu.tw/~yvchen/f106-adl/syllabus.html上节课程 lecture1-2 Neural Network Basics 讲了神经网络的结构以及正向传播的方法公式,最后也快速讲了一下使用梯度下降的方法进行优化,并且比较了GD、SGD、Mini-Batch三种方法。本节
2017-12-17 23:04:03
840
原创 【特征工程】 离散型变量 映射成 数字
在特征处理中,有一些特征如: 姓名 学历 收入 小张 高中 4000-5000元 小王 本科 6000-7000元 小李 硕士 8000-9000元 小赵 本科 6000-7000元 … … …这些特征在后期处理上,我们一般需要映射成一组数字去替换。不仅省去了中文容易乱码的问题,查看方便
2017-12-12 10:30:09
1707
原创 【R语言】柱状图+自动颜色+横向+添加文本+更改坐标轴范围
文件:data.txt region counts splice_region 2748 5_prime_UTR 4559 3_prime_UTR 33147 upstream 75401 downstream 85138 intergenic_region 57160 intron 447545 exon 41060libra
2017-12-11 14:21:50
25715
原创 【特征工程】一种异常值检测方法、原理、代码实现 (基于箱线图)
分享一段检测异常值的代码,这段代码从kaggle上看到的,很简单也很有用,代码在下面。 代码原地址:https://www.kaggle.com/cccsss/titanic-top-4-with-ensemble-modeling分享之前先介绍代码使用到的方法原理,也就是一种异常检测的方法。想了解方法首先要先了解箱线图。箱线图 箱线图(Boxplot)也称箱须图(Box-whisker Pl
2017-12-11 13:52:27
13533
1
原创 python 高阶函数 map/reduce/filter/
python中有很多非常实用的內建函数和高阶函数,平时filterfilter()函数接收一个函数 f 和一个list,这个函数 f 的作用是对每个元素进行判断,返回 True或 False,filter()根据判断结果自动过滤掉不符合条件的元素,返回由符合条件元素组成的新list。## 判断是否为正数def is_positive(x): return x > 0
2017-12-11 11:30:24
309
Spark快速大数据分析
2019-02-26
Python机器学习及实践-从零开始通往Kaggle竞赛之路
2019-02-26
21个项目玩转深度学习:基于Tensorflow的实践详解
2019-02-26
Python爬虫开发与项目实战
2019-02-26
数据结构(C++语言版)第三版 答案解析_邓俊辉
2018-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人