FigthingForADream-优快云博客

原创特征离散化

为什么需要离散化对于很多实际问题（如广告点击率预测），往往特征非常多，这时候时间约束通常不允许我们使用很复杂的非线性分类器。这也是为什么算法发展这么多年，广告点击率预测最常用的方法还是LR模型。在实际应用中，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，除了一些加快计算等好处，还可以引入非线性特性，也可以很方便的做交叉特征。离散特征的增...

2018-08-05 17:01:25 2164

原创数据标准化和归一化

归一化normalization：称为线性函数归一化，归一化到【0， 1】范围内，当然也包括非线性函数归一化标准化standardization：又被称为0均值归一化，归一化到0均值，方差为1的数据集中，公式中符号代表原始数据集的方差和均值两者本质都是一种线性变换区别是归一化仅有极值决定，将数据压缩到【0,1】范围内，而标准化则是动态的，弹性的，和样本的整体分布有关这两种归一化的...

2018-08-05 14:19:34 2279

原创《大数据时代的算法》读书笔记（一）

机器学习、人工智能及其典型实例电子工业出版社刘凡平编著适合回顾机器学习相关算法，或者是感兴趣的课外阅读不过本书错别字较多，而且有部分地方错误，阅读起来有点费劲在本书的基础上，结合本书的结构，梳理相关知识，整理了一下1、常见算法分治法：分而治之，层层向上，最后得到问题的解，归并法，二分查找，快速排序等都用的这个思想，要求子问题间相互独立，小规模成立，解可以合并动态规划：适用情况要求有最优子结...

2018-07-04 11:27:10 922

想到要把之前电脑里的代码上传到GitHub仓库，也是好久没用过了，先熟悉一下基本的步骤1、git clone url(https or ssh)ssh因为没有配置也就没有用2、cd 新生成的GitHub仓库同名的文件夹下3、git add .点号不能省略4、git commit -m "填写提交信息，可以加入备注信息"5、git push -u origin master将提交到本地的代码push...

2018-06-25 16:33:15 1035

原创 Python基础知识整理

## 基于《HeadFirstPyhon》和《Python编程从入门到实践》两本书的Python基础部分在找实习面试期间，碰见了一个Python基础的问题，list和tuple的异同因为之前直接上手Python，用到了才查具体的语法，所以Python基础方面并不扎实所以对这方面进行了补充，阅读了两本书关于Python基础语法的部分，跳过了web等部分不过相对而言Python基础部分确实比java等...

2018-06-14 22:13:50 672

原创 python学习笔记（四）

#!/usr/bin/env python # -*- coding: utf-8 -*""" 判断，键入 """# 其实python中不管是if还是for，只要是有缩进的循环判断都用冒号if 3 > 3: print 'right' print 'next' # 并且python中用缩进代表其他语言中的大括号{}的意思，只要是在...

2018-06-05 11:01:11 311

原创 python学习笔记（三）

#!/usr/bin/env python # -*- coding: utf-8 -*""" list和元组tuple """# 对之前的补充：# 当索引超出了范围时，Python会报一个IndexError错误，所以，要确保索引不要越界# 记得最后一个元素的索引是len(classmates) - 1# 也可以把元素插入到指定的位置，比如索引号为1的位置classmate = ['zhangs...

2018-06-05 11:00:42 203

原创 python学习笔记（二）

#!/usr/bin/env python # -*- coding: utf-8 -*""" 输出"""# print '1024 * 768 = ', 1024*768# Python程序是大小写敏感的，如果写错了大小写，程序会报错# 整型，浮点型，字符串（转义字符）# print r'\n'# r代表内部输出原格式不转义# print '\n'# print '\\n'...

2018-06-05 11:00:08 218

原创 python学习笔记（一）

#!/usr/bin/env python # -*- coding: utf-8 -*day =345print day# 不用声明和定义数据类型，直接赋值day ='abc'print day# 不同数据类型可以覆盖print type(day)# type函数可以输出数据类型month = []# 定义一个listprint type(month)print monthmonth.appen...

2018-06-05 10:59:03 389

原创常见机器学习算法的优缺点

朴素贝叶斯优点：　　对小规模的数据表现很好，适合多分类任务，适合增量式训练。缺点：　　对输入数据的表达形式很敏感。决策树优点：　　计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征；缺点：　　容易过拟合（后续出现了随机森林，减小了过拟合现象）；Logistic回归优点：　　1、实现简单；　　2、分类时计算量非常小，速度很快，存储资源低；缺点：　　1、容易欠拟合，一般准确度...

2018-06-04 09:12:25 906

原创牛客选择题（二）

牛客700题整理（二）1、两层for循环次数不一样的时候（差很多的时候，比如1000次和1000000次），速度不一样快，并不是简单的时间复杂度问题进行数组访问时，操作系统需要将相关内存页面载入cache中，一个页面的大小是有限的，如果程序需要访问页面外的内存数据，操作系统需要进行换页操作，这个操作是耗时的。t1访问的内存区域大小为1000，系统不需要或极少需要换页。t2需要访问的内存区域大小为...

2018-06-03 16:51:48 553

原创牛客选择题（一）

-----------------------------------------------牛客700题整理------------------------------------------------1、不稳定排序算法有：快些（希）选对（堆）2、外部排序过程中，为了减少外存读写次数需要减少归并趟数，可以让初始归并段的长度增减，从而减小初始归并段的段数3、对于某个元素，如果其后存在一个元素小于...

2018-06-03 16:47:32 1140

原创深度学习在自然语言处理中的应用

综述的大体部分自然语言处理的基础研究主要包括词法分析、句法分析、语义分析、语用语境与篇章分析等的研究。词向量(Word embedding 或Word representation) 方法,可以将词映射转换到一个独立的向量空间自然语言处理技术中采用深度学习知识的原因可以总结为以下几点：1、自然语言处理任务中首先要解决的问题是处理对象的表示形式，为了表示对象，通常必须抽取一些特征，如文本的处理中，常...

2018-04-09 17:20:45 1324

原创不得不提的LR和SVM

发现很多算法，机器学习，深度学习面经中经常会提到一个问题，LR和SVM的比较，也稍微整理了以下首先是两者的共同点：1，LR和SVM都是分类算法2，如果不考虑核函数，LR和SVM都是线性分类算法，即分类决策面都是线性的3，LR和SVM都是有监督学习算法4，LR和SVM都是判别模型模型作为统计学习的三要素之一（模型，策略，算法）模型：学习什么样的模型，模型就是所要学习的条件概率分布或者说是决策函数，p...

2018-04-09 17:18:41 603

原创对于正负样本不均衡的解决方法

1、最好的办法是获得更多的数据2、换个评价标准，有一些评判指标就是专门解决样本不平衡时的评判问题的，如准确率，召回率，F1值3、重新采样，少的重复采样，多的抽样，或者加入惩罚权重，多的权重小，少的权重大，这就跟梯度提升类似吧梯度提升AdaBoost会把误分类样本加大权重，在表决中其较大作用4、换个对数据平衡性要求不那么大的机器学习算法，例如决策树5、修改算法。。。合成样本增加样本数目较少的那一类的...

2018-04-09 16:54:22 5785

原创欠拟合，过拟合和正则化

整理的关键点欠拟合：模型过于简单，不能很好的描述数据的趋势，导致在训练集误差也很大1、添加特征量，可能选取的特征不能完全的表示数据的趋势2、添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强3、减小惩罚项，减少L1，L2正则化参数所谓的过拟合就是模型在训练集误差较小，而在测试集却出现较大误差，可能是模型过于复杂导致的1、可以多增加训练集样本量...

2018-04-09 16:52:25 515

原创是时候把简书的东西整理过来了

几经周折，优快云终于能用了，也可以把简书上写的几篇杂记整理下了，发现用简书的人真的很少，也没有优快云资源丰富，以后还是在这里整理下找工作的准备吧...

2018-04-09 09:30:43 296

FigthingForADream的博客