你吃过卤汁牛肉吗-优快云博客

原创 shellnet安装记录

github地址:https://github.com/hkust-vgd/shellnetInstallationThe code is based onPointCNN. Please installTensorFlow, and follow the instruction inPointNet++to compile the customized TF operato...

2019-10-28 16:29:14 647

原创海量数据查询问题

https://www.cnblogs.com/xingxia/articles/amount_data.html1、海量日志数据，提取出某日访问百度次数最多的那个IPIP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2...

2019-09-24 18:53:27 423

原创 linux命令

grep和find的区别？区别：(1)find命令是根据文件的属性进行查找，如文件名，文件大小，所有者，所属组，是否为空，访问时间，修改时间等。 (2)grep是根据文件的内容进行查找，会对文件的每一行按照给定的模式(patter)进行匹配查找。统计某一个字符串出现的次数grep -o 'name' wenjian.txt| wc -l-o表示grep显...

2019-09-22 21:14:36 303

原创 6-1 梯度下降法

1. 梯度下降法简介特点不是机器学习算法是一种基于搜索的最优化方法作用:最小化一个损失函数梯度上升法:最大化一个效用函数图像直观理解假设只有一个参数,图像如下:横轴:参数值;纵轴:损失函数值导数(一维)可以代表方向,对应J增大的方向,所以想要找到最小值:1. 方向:向导数的负方向调整参数值,2. 步长:乘以学习率为什么叫梯度?导数是指只有一个变...

2019-08-23 15:37:36 357

原创 5-7 多元线性回归

1. 多元线性回归的正规方程解每个样本有多个特征向量化, 其中是样本矩阵X前面加上一列1目标: 使尽可能的小---向量化了,提高运算效率多元线性回归的正规方程解:求出:缺点: 时间复杂度高:O(n^3)优点:不需要考虑量纲的问题2. 多元线性回归的实现每个系数对应一个特征,系数可以用于描述每个特征对于结果的贡献程度所以实现的时候是将截距和系...

2019-08-21 22:25:23 896

原创 5-5 衡量线性回归法的指标 MSE,RMS,MAE

1. 衡量标准平方误差消除样本数量的影响(样本数越多,累计的误差就越大)均方误差, MSE(mean squared error)消除量纲的影响均方根误差, RMSE(root mean squared error)平均绝对误差, MAE(mean absolute error)2. 实现自己模仿sklearn的接口将这三种评价方式封装成类,放入到m...

2019-08-21 15:16:01 1374

原创 5-1 线性回归算法

1. 线性回归算法简介线性回归算法的特点解决回归问题思想简单,容易实现许多强大的非线性模型的基础 (逻辑回归\多项式回归\SVM等) 结果具有很好的可解释性蕴含机器学习中的很多重要思想分类问题和回归问题的区别分类问题,坐标轴都是特征, 颜色代表样本的输出标记(离散)回归问题,横轴是特征,纵轴是样本的输出标记,样本的输出标记在一个连续的空间里简单线性回归的思...

2019-08-21 10:26:39 319

原创 4-7 数据的归一化

1. 为什幺要进行数据归一化?2. 几种数据归一化方式最值归一化: 把所有数据映射到0-1之间均值方差归一化:把所有数据归一化到均值为0, 方差为1的分布中3. 代码实现最大值归一化:均值方差归一化4. 对测试集如何归一化? 按照训练集的均值和方差进行归一化代码5. 使用K近邻算法解决回归问题6. K近邻算法的缺点1. 为什幺要进行数据归一化?...

2019-08-20 20:24:36 570

原创 4-5 KNN的超参数,k\method\p

目录超参数和模型参数寻找最好的k考虑距离作为投票权重的KNN---超参数weights=[uniform, distance]曼哈顿距离和欧氏距离---超参数p,定义了计算距离的公式; 其中, p=1是曼哈顿,p=2是欧式2. 网格搜素以及kNN中的更多超参数网格搜索超参数和模型参数超参数: 在算法运行前需要决定的参数模型参数: 算法过程中学习的参数K...

2019-08-20 15:04:59 1675

原创 4-4 分类准确度

分类准确度的计算方式:分类正确的样本数 / 总样本数自己封装的类, 与sklearn同接口:(新加了score(X_test, y_test)函数,不关心predict的具体值是多少(predict函数在score中调用),只关心模型的准确度)# from sklearn.neighbors import KNeighborsClassifierimport numpy as ...

2019-08-20 09:46:19 528

原创 4-1 K近邻算法基础

目录1. K近邻的python实现2. 使用scikit-learn中的KNN3. 判断机器学习算法的性能测试我们的算法划分出测试集对模型效果进行评估用sklearn中的train_test_split进行训练集和数据集的划分1. K近邻的python实现(1) 计算训练集中的每个样本与新加入样本的distance并保存下来(2) 对distance进行排序,找到...

2019-08-19 21:49:36 201

原创 3-11 数据可视化之matplotlib

目录1. matplotlib基础绘制折线图横轴代表特征,纵轴代表对应的取值(1) 绘制基本曲线(2) 添加更多描述信息绘制散点图横纵轴都是特征2. 读取数据和简单的数据探索以鸢尾花数据集为例,查看不同特征对于类别的区分度1. matplotlib基础绘制折线图(1) 绘制基本曲线常用的是matplotlib.pyplot模块每次执行plt.plo...

2019-08-19 14:44:51 1688

原创 3-3 numpy

1. 创建numpy数组和矩阵numpy.array其他创建numpy.array的方法2. numpy的几种常用操作arangelinspacerandom(1) np.random.randint(起始点, 终止点, size = ( , , , ))(2) np.random.random()(3) np.random.normal([均值 = 0]...

2019-08-19 11:04:41 439

原创加速技巧---Conv BN的融合

网络完成训练后，在inference阶段，为了加速运算，通常将卷积层和BN层进行融合：卷积层：BN层：融合两层：将Conv层的公式带入到BN层的公式融合后相当于：【tips：inference阶段，E[x]为滑动均值，Var[x]为滑动方差】将BN层融合到卷积层中，相当于对卷积核进行一定的修改，没有增加卷积的计算量，同时整个BN层的计算量都省去了。...

2019-08-06 15:41:26 6079 2

原创第一个只出现一次的字符

题目描述在一个字符串(0<=字符串长度<=10000，全部由字母组成)中找到第一个只出现一次的字符,并返回它的位置, 如果没有则返回 -1（需要区分大小写）.解题思路重点是怎样在遍历一遍字符串之后记录下各个字符出现的次数。可以用map，key是字符，value是出现的次数也可以利用字符的assic码，然后应vector进行字符和出现次数的对应遍历两遍字符数组，...

2019-08-06 10:48:28 169

原创丑数

题目描述把只包含质因子2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14不是，因为它包含质因子7。习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第N个丑数。解题思路通俗易懂的解释：首先从丑数的定义我们知道，一个丑数的因子只有2,3,5，那么丑数p = 2 ^ x * 3 ^ y * 5 ^ z，换句话说一个丑数一定由另一个丑数乘以2或者乘以3或者乘...

2019-08-06 09:59:30 129

原创把数组排成最小的数

题目描述输入一个正整数数组，把数组里所有数字拼接起来排成一个数，打印能拼接出的所有数字中最小的一个。例如输入数组{3，32，321}，则打印出这三个数字能排成的最小数字为321323。解题思路(1) 先将数组转换成字符串(拼接会带来隐含的大数问题)(2) 对于数组按照特定的比较规则进行排序(3) 定义比较的规则---static的函数cmp, 作为sort函数的参数比较规则...

2019-08-05 22:07:12 115

题目描述HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢？例如:{6,-3,-2,7,-15,1,2,2},连续子向量的最大和为8(从第0个开始,到第3个为止)。给一个数组，返回它的最大连续子序...

2019-08-05 19:45:19 143

原创如何解决过拟合和欠拟合

欠拟合集成学习增加模型的迭代次数增加模型复杂程度（如神经网络增加层数，决策树加深等）更换表达能力更强的模型生成更多的特征供训练使用降低正则化程度过拟合使用正则化项，降低模型的复杂度增加训练集减少训练使用的特征数量...

2019-08-05 11:20:11 208

原创偏差、方差、噪声、泛化误差以及过拟合和欠拟合之间的关系

0. 期望预测首先定义: 在一个训练集D上的模型, 对于测试样本x的预测值为在不同训练集D上训练出的模型, 对同一个测试样本x的预测值取期望, 即期望预测---偏差\方差\噪声都是针对测试样本来计算的即，将一个测试样本x输入到模型中，计算出偏差方差和噪声都是针对于同一个样本x，不同模型的输出值进行相应计算的1. 偏差模型的期望预测与真实值的偏离程度...

2019-08-05 11:08:00 1702 2

原创矩阵和线性变换

什么是线性空间?什么是线性变换?什么是线性组合?什么是线性相关?什么是基底?基变换和坐标变换?经过线性变换之后新坐标的计算方式?线性其实就是指满足加法和数乘两种运算矩阵可以看成是一种对于向量的线性变换线性变换矩阵的列可以看做是由原来的基经过变换生成的新的基拼接而成(如果变换矩阵的列是线性相关会起到什么效果???) 基就是一组...

2019-08-04 20:44:14 1524

原创 ROC曲线和PR曲线

一 ROC曲线1. 什么是ROC曲线?2. 曲线的性质3. ROC曲线的绘制:4. ROC曲线的优点5. ROC曲线的缺点6. AUC值二 PR曲线1. 什么是PR曲线2. PR曲线的绘制三 ROC曲线和PR曲线的适用场景1. ROC适用2. PR适用总结:ROC 曲线可以用来评价分类器的效果好坏, 其横轴表示假警报率(聚焦于负例), 纵轴...

2019-08-03 22:32:49 1539

原创算数平均数\几何平均数\调和平均数

1. 算术平均数:2. 平方平均数:3. 几何平均数:4. 调和平均数:注意: 算术平均数、调和平均数、几何平均数是三种不同形式的平均数，分别有各自的应用条件。进行统计研究时，适宜采用算术平均数时就不能用调和平均数或几何平均数，适宜用调和平均数时，同样也不能采用其他两种平均数。但从数量关系来考虑，如果用同一资料（变量各值不相等）计算以上三种平均数的结果是：平...

2019-08-03 18:48:12 3691

原创数组中出现次数超过一半的数字

题目描述数组中有一个数字出现的次数超过数组长度的一半，请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次，超过数组长度的一半，因此输出2。如果不存在则输出0。思路详解思路1---寻找中位数（会改变原数组的顺序）1. 先整体排序，找到中位数（1）先对数组进行排序，如果某个数字m的出现次数超过数组长度的一半，那么排序之后的...

2019-07-25 10:33:01 205

原创剑指offer中要记住的算法思想

1. 数组中出现次数超过一半的数字复杂度O(n)的解法思路1：（不改变原数组的顺序）出现次数超过数组长度的一半，说明它出现的次数比数组中所有元素出现的次数和还要多因此可以在遍历的时候保存两个值，一个是数组中的数字value，一个是次数（1）与前一个数字相同时，times++（2）与前一个数字不同时，times--（3）当times为0时，value重新赋值为当前的元素，并将...

2019-07-24 16:50:57 136

原创字符串的排列

题目描述思路详解代码附录去重的问题（1）在最后的结果中去重（2）直接对输入的字符串进行排序，让重复的元素都在相邻的位置题目描述输入一个字符串,按字典序打印出该字符串中字符的所有排列。例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba。输入描述：输入一个字符串,长度不超过9(可能有...

2019-07-24 15:33:33 226

转载 vector中元素的去重

思路首先对 vector 中的元素使用 sort 函数排序，使重复的元素排在相邻的位置接下来使用 unique 函数将重复的相邻元素放在 vector 末尾，返回值为末尾第一个重复元素的地址最后调用 erase 函数，删掉重复元素代码#include <vector>#include <algorithm>using namespace std;v...

2019-07-24 15:18:12 566

原创复杂链表的复制

题目描述输入一个复杂链表（每个节点中有节点值，以及两个指针，一个指向下一个节点，另一个特殊指针指向任意一个节点），返回结果为复制后复杂链表的head。（注意，输出结果中请不要返回参数中的节点引用，否则判题程序会直接返回空）思路详解https://www.cnblogs.com/darlinFly/p/9339280.html1、遍历链表，复制链表中的每个结点，并将复制的结点插入到该...

2019-07-23 15:50:13 109

原创二叉树中和为某一值的路径

题目描述输入一颗二叉树的跟节点和一个整数，打印出二叉树中结点值的和为输入整数的所有路径。路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。(注意: 在返回值的list中，数组长度大的数组靠前)思路详解用全局变量保存所有路径用递归函数的参数列表记录遍历的路径&target的值，target的值向下一层传递的时候要减去当前节点的值因为题目要求返回的路径按照...

2019-07-22 23:35:12 124

原创滑动窗口的最大值

题目描述给定一个数组和滑动窗口的大小，找出所有滑动窗口里数值的最大值。例如，如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3，那么一共存在6个滑动窗口，他们的最大值分别为{4,4,6,6,6,5}；针对数组{2,3,4,2,6,2,5,1}的滑动窗口有以下6个：{[2,3,4],2,6,2,5,1}， {2,[3,4,2],6,2,5,1}， {2,3,[4,2,6],...

2019-07-21 16:17:56 166

原创二叉搜索树的后序遍历序列

题目描述输入一个整数数组，判断该数组是不是某二叉搜索树的后序遍历的结果。如果是则输出Yes,否则输出No。假设输入的数组的任意两个数字都互不相同。思路详解(1) 后序遍历序列的最后一个元素一定是树的根节点(2) 从头开始遍历，寻找划分左右子树的划分点（第一个 > 根节点的数）(3) 从划分点开始，如果遇到比根节点小的数字说明不符合二叉搜索树的后序遍历，直接返回false...

2019-07-20 13:00:22 181

原创从上往下打印二叉树

题目描述从上往下打印出二叉树的每个节点，同层节点从左至右打印。思路详解(1) 使用queue，利用队列先进先出的特点，首先将根节点入队列(2) 使用while(终止条件是队列为空)(3) 先出队列，并放入vector中(遍历)(3) 如果左右孩子不为空就入队列/*struct TreeNode { int val; struct TreeNode *left;...

2019-07-19 19:48:57 131

原创栈的压入、弹出序列

题目描述输入两个整数序列，第一个序列表示栈的压入顺序，请判断第二个序列是否可能为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如序列1,2,3,4,5是某栈的压入顺序，序列4,5,3,2,1是该压栈序列对应的一个弹出序列，但4,3,5,1,2就不可能是该压栈序列的弹出序列。（注意：这两个序列的长度是相等的）解题思路首先判断两个vector长度是否相同(1) 定义一个栈s，将pus...

2019-07-19 19:18:45 117

原创顺时针打印矩阵

题目描述输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字，例如，如果输入如下4 X 4矩阵： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 则依次打印出数字1,2,3,4,8,12,16,15,14,13,9,5,6,7,11,10.解题思路从外向里缩小矩形（矩形可有左上角和右下角两个点的index确定），然后顺时针打印矩形的四条边（四个循环...

2019-07-19 10:22:42 156

原创二叉树的子结构

题目描述输入两棵二叉树A，B，判断B是不是A的子结构。（ps：我们约定空树不是任意一个树的子结构）方法一（own）思路：递归遍历树A，在A中找与树B的根节点的值相同的节点M---helper2() 在另一个函数中判断B是否是以M为根节点的子树的子结构---helper() 设置一个flag变量，当找到子结构之后就停止对A的遍历，并返回结果/*struct TreeNode...

2019-07-18 21:35:56 180

原创 resnet论文笔记

1. introduction1.1 问题的提出越深越好有实验证明网络越深，效果越好（深度神经网络通过层的堆叠，集成了low/mid/high level的特征，层数越深level越丰富）深带来的梯度爆炸问题主要通过normalized initialization和intermediate normalization layer，让网络可以达到数十层解决了梯度...

2019-07-17 22:33:01 491

转载神经网络优化：指数衰减计算平均值(滑动平均)

目录1. 神经网络优化中的滑动平均2. 滑动平均详解---用滑动平均估计局部均值2.1 三种参数更新方式的比较2.1.1 滑动平均2.1.2 带偏差修正的滑动平均2.1.3 结论3. 滑动平均的好处4. 滑动平均在神经网络中的应用转自：https://blog.youkuaiyun.com/qq_18888869/article/details/830095041...

2019-07-15 18:06:42 3305 1

原创优化器

目录1. 随机梯度下降法 SGD2. 基本动量法梯度下降法的直观理解？为什么加入动量可以改善优化路线的曲折程度？为什么动量法可以加快网络的收敛？公式3.Nesterov动量法(Nesterov accelerated gradient (NAG))思想公式4. AdaGrad如何实现每个参数有不同的学习率？公式Adagrad优缺点5. RMS...

2019-07-12 20:54:05 386

原创全局平均池化

全局平均池化是在论文Network in Network中提出的，原文中全局平均池化的作用和优点：思想：对于输出的每一个通道的特征图的所有像素计算一个平均值，经过全局平均池化之后就得到一个维度==类别数的特征向量，然后直接输入到softmax层作用：代替全连接层，可接受任意尺寸的图像优点：1）可以更好的将类别与最后一个卷积层的特征图对应起来（每一个通道对应一种...

2019-07-12 10:15:04 40387 11

原创几种可分卷积

参考：http://www.sohu.com/a/317166403_3949870. 标准的2D卷积对于神经元的输入（7*7*3），用一个3*3*3的卷积核对输入进行卷积，得到一个5*5*1的特征图：若想得到128个特征图，需要128个3*3*3的卷积核对输入进行卷积：1. 空间可分卷积空间可分卷积操作的是图像的 2D 空间维度，即高和宽。空间可分卷积是将...

2019-07-11 20:32:38 814

空空如也

空空如也