
机器学习
文章平均质量分 78
农民小飞侠
如果放弃了,那还谈什么理想
展开
-
2022年几款前沿的文本语义检索/Sentence Embedding方法:Gradient Cache, SGPT,ART,DPTDR,RocketQAv2, ERNIE-Search等
上面的一些工作都是最近调研的比较有代表性的工作,其中包含了百度的一些工作,因为百度在搜索领域有着得天独厚的优势,我也使用了一些RocketQA等系列的模型,在学术和工业落地场景上都有着不错的效果,除了这些工作外还有SimLM,ColBERTv2等工作。更多关于语义检索方向的内容讲解,请参考本栏目后续的文章,如果有不懂的内容,请留言,我随即为大家安排上哈。原创 2022-10-23 14:01:59 · 2346 阅读 · 2 评论 -
python 线性回归拟合的题目
今天做了一个山景智能公司的线性回归的题目,做了老半天没做出来,心里非常的着急,最后几分钟做出来了,我都没有预料到。真是惊险又刺激的挑战加载库和导入数据import numpyimport sklearn.metricsx_train = numpy.array([[-0.8 , -0.8 ], [-0.8 , -0.48], [-0.8 , -0.16], [-0.8 , 0.16], [-0.8 , 0.48], [-0.8原创 2020-11-25 23:36:12 · 433 阅读 · 1 评论 -
python K-Means算法从头实现
最近看了K-means算法的原理,想用python实现一下,发现网上大部分教程都是调包,我对算法原理比较感兴趣,所以特地从头实现了一下,我把代码分享出来import pandas as pdimport numpy as npclass K_Means: def __init__(self, k=2, tol=0.001, max_iter=300): self.k = k self.tol = tol self.max_iter = ma原创 2020-11-15 13:19:15 · 239 阅读 · 0 评论 -
python 动手实现朴素贝叶斯
最近尝试不调用scikit-learn来实现一下朴素贝叶斯,发现还是不那么容易上手,我这里分享一下我的实现过程,也欢迎大家来批评指正哈导入库和数据import pandas as pdimport numpy as npfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom collections import defaultdictdata = pd.read_csv("A&E Synthetic Data原创 2020-08-16 20:51:01 · 498 阅读 · 0 评论 -
python 动手实现tfidf
最近自己实现了一下tfidf,发现实现起来细节跟tfidf的公式还是不大一样,我这里把我的实现过程分享出来。导入一些库和数据import pandas as pdimport globimport numpy as npfrom nltk.tokenize import word_tokenizeimport nltkfrom nltk.corpus import stopwordsimport mathfrom tqdm import tqdm txtfiles=glob.g原创 2020-08-16 20:27:15 · 1651 阅读 · 2 评论 -
python 多分类画auc曲线和macro-average ROC curve
最近帮一个人做了一个多分类画auc曲线的东西,不过最后那个人不要了,还被说了一顿,心里很是不爽,anyway,我写代码的还是要继续写代码的,所以我准备把我修改的代码分享开来,供大家研究学习。导入基础的pandas和keras处理函数import pandas as pdfrom keras.utils import to_categorical导入数据data=pd.read_excel('5分类新.xlsx')data.head()导入机器学习库from sklearn.met原创 2020-06-07 00:15:07 · 8323 阅读 · 2 评论 -
有两个样本点,第一个点为正样本,它的特征向量是(0,-1);
感想这是牛客网的一道关于支持向量机的问题,我不小心给做错了,犯了大多数人都犯的错误,这里我把解答过程分享出来。problem有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是() 2x+y=4 x+2y=5 x+2y=3 以上都不对 答案:D,我个人感觉不...原创 2018-02-21 14:53:34 · 7054 阅读 · 0 评论 -
SVM核函数
感想今天做了几道SVM的题目,发现自己还做错了,想当年我还是手推过SVM公式的人,看来SVM的理论我还是没有学全,变了样子之后我就不怎么会了,前几个月写过一些简单的关于SVM的最大间隔的博客,这次总结一下SVM的核函数。problem下列不是SVM核函数的是:A 多项式核函数B logistic核函数C 径向基核函数D Sigmoid核函数正确答案是:Banalysis支持向量机是建立在统计学习理...原创 2018-02-21 18:46:37 · 11656 阅读 · 0 评论 -
关于支持向量机SVM,下列说法错误的是
感想看来我是忘记支持向量机了,忘记那个C的作用,忘记了那个最大软间隔了,在哪里跌倒了,就在哪里爬起来。problem关于支持向量机SVM,下列说法错误的是()A. L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力B. Hinge 损失函数,作用是最小化经验分类错误C. 分类间隔为1/||w||,||w||代表向量的模D. 当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习答案:C...原创 2018-02-25 19:13:23 · 8183 阅读 · 3 评论 -
1、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。
感想这对我来说应该算是一个超纲的题目,我从没接触过时间序列预测的问题,我这里也弥补一下。problem1、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测。A. AR模型B. MA模型C. ARMA模型D. GARCH模型答案为:DanalysisAR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。MA模型(moving a...原创 2018-02-28 15:21:19 · 12891 阅读 · 0 评论 -
在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
感想这道题我感觉十拿九稳的,但是一做就错,看来需要注意一下啦。problem在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()A. 增加训练集量B. 减少神经网络隐藏层节点数C. 删除稀疏的特征 SD. SVM算法中使用高斯核/RBF核代替线性核答案为:Danalysis避免过拟合的方法:正则化方法,强制减少参数,增大训练数据集。对于B,过拟合是太多的参数引起的。神经网络减...原创 2018-02-27 17:23:34 · 15263 阅读 · 0 评论 -
以下()属于线性分类器最佳准则?
感想线性分类器我还是知道的,但是什么线性分类器最佳准则就不清楚了,这里我也整理一下。problem以下()属于线性分类器最佳准则?A. 感知准则函数B. 贝叶斯分类C. 支持向量机D. Fisher准则答案为:A,C,Danalysis线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。感知器准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点...原创 2018-02-27 15:16:49 · 4731 阅读 · 0 评论 -
下列哪些方法可以用来对高维数据进行降维:
感想降维的方法有很多种,比如auto encoder,pca, LDA等,但是列举全还是不怎么行,看来还是要刷题。problem下列哪些方法可以用来对高维数据进行降维:A. LASSOB. 主成分分析法C. 聚类分析D. 小波分析法E. 线性判别法F. 拉普拉斯特征映射答案: A B C D E FanalysisLasso(Least absolute shrinkage and selecti...原创 2018-02-26 22:41:22 · 19070 阅读 · 0 评论 -
关于 logit 回归和 SVM 不正确的是()
感想好久没有学习统计学习方法,做这些题目感觉很棘手,有很多概念也是第一次遇到,我这里借此整理一下。problem关于 logit 回归和 SVM 不正确的是()A. Logit回归目标函数是最小化后验概率. B. Logit回归可以用于预测事件发生概率的大小C. SVM目标是结构风险最小化D. SVM可以有效避免模型过拟合答案:AanalysisA. Logit回归本质上是一种根据样本对权值进行极...原创 2018-02-26 21:46:22 · 14633 阅读 · 1 评论 -
数据清理中,处理缺失值的方法是?
感想最近做机器学习的题目的时候,偶尔会蹦出一个数据挖掘的题目,让我措手不及,看来我现在的学艺不精,需要努力一点。problem数据清理中,处理缺失值的方法是?A 估算B 整例删除C 变量删除D 成对删除答案为:A B C Danalysis由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。估算(estimation...原创 2018-02-22 13:03:43 · 12843 阅读 · 0 评论 -
关于线性回归的描述,以下正确的有:
感想线性回归是机器学习里面很经典的算法了,但是谈到一些理论假设,我想一般人可能弄不清楚,我也忽略了,看来简单的东西只是看似简单,很容易就变得很难。problem关于线性回归的描述,以下正确的有:A 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布B 基本假设包括随机干扰项是均值为0的同方差正态分布C 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量D 在违背基本假设时...原创 2018-02-22 13:27:03 · 7899 阅读 · 0 评论 -
python3 opencv 3在ubuntu中打开avi视频失败
最近要用opencv读取视频,我的读取视频的代码为:import numpy as npimport cv2import sysvideo = "/home/eric/data/violence_recognition/HockeyFights/fi46_xvid.avi"video_capture = cv2.VideoCapture(video)if not video_c...原创 2019-05-14 16:52:10 · 1030 阅读 · 0 评论 -
Violent Flows violence recognition 数据集地址下载
本来是想找violent-flow数据集,结果找到了movies数据集,violent-flow数据集movies.rar的名字,误以为找到了movies数据集,然后我确认了一下,还有一个数据集也叫movies,也是暴力行为识别的,这里分享一下下载过程:数据集的英文描述为:Movies: This dataset consists fight sequences collected fro...原创 2019-05-14 12:07:49 · 3142 阅读 · 19 评论 -
Hockey Fight Detection Dataset下载地址
最近在找hockey fight数据集,找了老半天都没找到,最后在一个小角落里面找到了,我这里分享出来给大家。网址为:https://toolbox.google.com/datasetsearch/search?query=Hockey%20Fight%20Detection&docid=ZDZSankIsMXG1SGmAAAAAA%3D%3D它提供的是torrent,找个迅雷什...原创 2019-05-14 11:46:13 · 2722 阅读 · 12 评论 -
keras 2.x python3看图说话模型一步一步的搭建
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2018-12-16 20:39:47 · 413 阅读 · 0 评论 -
论文笔记:SGM: Sequence Generation Model for Multi-label Classification
感想这篇文章是我在参加DeeCamp 2018课程的时候,发现的,当时原作者还只是研一,就中了一篇CCF B类的Best paper,这篇文章的工作跟我的工作非常的像,不过我没作者做得多,所以我发的论文的档次没他的高,anyway,我也学习一下,找一下灵感,模型的代码用pytorch写的,地址为:https://github.com/lancopku/SGM1. 介绍多标签分类(MLC...原创 2018-10-26 20:31:41 · 6446 阅读 · 5 评论 -
2018阿里妈妈一面
感想我投的是机器学习岗位,然后面试官今天跟我打电话说晚上面试,前后跟我给了5个小时的时间准备。一面是考基础,总体感觉什么都考了,我把题目列出来供大家参考,我自己回答的不好,这是我第一次面试,希望后面能够好一点。题目java1. hashmap的实现方式,hashmap是否是线程安全的。2.java创建对象的三种方式。3.说说volatile关键字,它把变量放在哪里供其他线程同步。4.java深拷贝...原创 2018-03-29 23:21:22 · 1859 阅读 · 1 评论 -
下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
感想CRF,HMM和HEMM我也用心的学过,可能公式没有怎么推过,这三个模型还是蛮复杂的,搞得我现在有点生疏,我这里也整理一下,方便后面的复习。problem下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )A.特征灵活B.速度快C.可容纳较多上下文信息D.全局最优答案:BanalysisHMM:隐马尔可夫模型MEMM: 最大熵隐马尔可夫模型CRF:条件随机场这三个模型都可以用来做序列标...原创 2018-02-25 16:48:44 · 6562 阅读 · 0 评论 -
深度学习是当前很热门的机器学习算法。在深度学习中,涉及到大量矩阵相乘,
感想这是一个简单的题,看来我现在处于受虐时期,我决定把它记录下来。problem深度学习是当前很热门的机器学习算法。在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是:()A. A(BC)B. (AB)CC. (AC)BD. 所有效率都相同正确答案:Bana...原创 2018-02-25 15:42:57 · 6322 阅读 · 0 评论 -
解决隐马模型中预测问题的算法是?
感想隐马尔可夫模型涉及的算法很多,周志华的《机器学习》,李航的《统计学系方法》都有讲过,可能当时理解的不深,导致现在都忘干净了,现在是时候弥补一下了。problem解决隐马模型中预测问题的算法是?A. 前向算法B. 后向算法C. Baum-Welch算法D. 维特比算法analysisA、B:前向、后向算法解决的是一个评估问题,即给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。C...原创 2018-02-26 10:25:02 · 2650 阅读 · 0 评论 -
ubuntu_git下远程提交代码
3.设置用户名和邮箱:设置用户名: sudo git config user.name "jellyCai"设置用户邮箱:sudo git config user.email "18617050557@163.com"生成秘钥ssh-keygen -t rsa -C "youaccount@gmail.com"然后再运行:cd ~/.ssh把 s原创 2017-07-25 17:07:37 · 443 阅读 · 0 评论 -
统计学习方法笔记:K近邻法
感受看完了knn算法,感觉算法挺简单的,选择k的大小,距离计算公式,分类决策三个部分就行了,并且三个部分用的东西都挺常见,没什么难度。后面的提到了一个改进算法,搜索空间kd算法,这样可以帮助我们很快的找到k个最近邻,运用中位数缩小搜索空间,省去了对大部分数据点的搜索。思想不难介绍K近邻法是一种基本分类与回归的方法,K近邻法假设给定一个训练数据集,其中的实力类别已定,分类时,原创 2017-09-08 21:20:28 · 598 阅读 · 0 评论 -
Gradient Boosted Decision Trees(GBDT)详解
感受GBDT集成方法的一种,就是根据每次剩余的残差,即损失函数的值。在残差减少的方向上建立一个新的模型的方法,直到达到一定拟合精度后停止。我找了一个相关的例子来帮助理解。本文结合了多篇博客和书,试图完整介绍GBDT的内容,欢迎大家来指正。介绍GBDT是一个应用很广泛的算法,可以用来做分类、回归。GBDT这个算法还有其它名字,如MART(Multiple Additiv...原创 2017-09-16 11:42:31 · 13514 阅读 · 4 评论 -
论文笔记:Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
感想最近深度学习面试的时候,有个面试官问了我LSTM,我一下子傻眼了,确实不怎么好懂,学LSTM已经有半年的时间了,但是对这个玩意儿却还不怎么明白,可能是没用过它的缘故吧,我找了一篇它和GRU比较的论文,这篇论文没有从理论上证明哪个模型的好坏,只是从实验,应用场景的角度发现GRU在一些场景比LSTM强,GRU是2014年提出的模型,可以说是一种LSTM的变体,使得计算和更新效率提高了,并且还取原创 2017-09-24 20:26:28 · 7448 阅读 · 0 评论 -
论文笔记:TextBoxes: A Fast Text Detector with a Single Deep Neural Network
感想这是一篇关于自然场景下文本检测的论文,用了一个深度神经网络来对图片文本进行检测,还发到AAAI顶会上了,可谓真了不起。文本用了一个网络解决了对不同比例,纵横比图片的文本检测,训练的方式是端到端的,最开始还用了16年人工合成的数据集进行预训练,合成训练集的文章为《Synthetic Data for Text Localisation in Natural Images》,也是一篇顶会文章,原创 2017-09-14 23:52:12 · 8375 阅读 · 0 评论 -
教程:Connectionist Temporal Classification详解补充
感想CTC的想法很难懂,尤其是对前向后向算法不熟的人,然后再网上发现了一篇很好的教程,我把它翻译了下来,里面有大量的例子,专注于原理的讲解,非常透彻,不像CTC的原论文,那样全面冗长,希望也能帮助大家理解。我在五六月份找过其它中文资料,发现原理详解的很少,我特地弥补一下中文这一块的空缺。 介绍Connectionist Temporal Classification (CTC...原创 2017-09-06 16:31:21 · 8323 阅读 · 14 评论 -
论文笔记:Connectionist Temporal Classification: Labelling Unsegmented Sequence
感想这篇文章不是好懂,需要有机器学习基础,特别是要了解HMM的前向后向算法,如果有人不知道这个算法的思想,可以参考周志华《机器学习》一书,上面对这个算法有一个详细的讲解,这篇文章最大的贡献就是提出了CTC的loss function,把神经网络输出后,把输出和语音文稿的映射变成了一个解码,我们只需要找到一条最佳路径,从而得到这段语音的转录文本,但是寻找所有路径求概率和是不可能了,因此有了前缀搜原创 2017-09-05 20:20:52 · 6834 阅读 · 0 评论 -
Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin论文笔记
感想这篇文章的署名作者尤其的多,做了很多工作,从模型设计到产品不熟,还实现了一个GPU版本的CTC,CTC可以说是这篇文章的核心部分,没有它,就没有端到端的训练,作者还用到了双向神经网络,对GPU并行都做了相应的定制化优化,涉及的很全,算法比较实验也很全,大多都是很人类水平比较。介绍数十年的手工工程领域知识已经融入到了最新的自动语音识别(automatic speech rec原创 2017-09-04 17:22:16 · 4917 阅读 · 0 评论 -
Singing-Voice Separation from Monaural Recordings using Deep Recurrent Neural Networks论文笔记
感想这篇文章好像没有很多创新点,就是用DRNN做了很多实验,然后得到了一个相对比较好的效果,不过这也是一次把深度学习用在音乐与人声分离的尝试,克服了以往需要基于不合理假设的音乐人声分离的局限,比如音乐和语音的低秩和稀疏性假设,从某种程度上限制了音乐人声分离的效果的提高。本文的网络比较浅,只有3层,和其他深度学习网络相比,这个网络太浅了。还有待进一步探索。单词理解Monaural原创 2017-09-03 21:03:58 · 2592 阅读 · 3 评论 -
git命令学习
保留本地的修改 的改法git stashgit pullgit stash pop通过git stash将工作区恢复到上次提交的内容,同时备份本地所做的修改,之后就可以正常git pull了,git pull完成后,执行git stash pop将之前本地做的修改应用到当前工作区。git stash: 备份当前的工作区的内容,从最近的一次提交中读取相关内容,让工作区转载 2017-07-25 21:04:17 · 264 阅读 · 0 评论 -
2016年机器学习简要笔记
Arthur Samuel.Machine Learningoverfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按原创 2017-07-14 21:39:44 · 576 阅读 · 0 评论 -
读《Machine Learning in Action》的感想
今天刚刚读完了一本叫《Machine Learning in Action》的书,历时还是挺长的,中途因为课程紧张,停顿了几个月的时间。总体感觉还不错,让我开了眼界。不过这不是一本入门的书,主要讲代码方面,对于机器学习算法本身的讲解还不够,这会导致很大的理解障碍。书的有些代码还是有一点小错误,不过都是无关紧要的,百度或者Google一下就能解决的。对理论讲得不深,这是一个很大的毛病。前段时原创 2017-02-12 21:25:04 · 4291 阅读 · 3 评论 -
深度学习语言模型的通俗讲解(Deep Learning for Language Modeling)
感想这是台湾大学Speech Processing and Machine Learning Laboratory的李宏毅 (Hung-yi Lee)的次课的内容,他的课有大量生动的例子,把原理也剖析得很清楚,感兴趣的同学可以去看看,这里是我对它的一次课的笔记,我觉得讲得不错,把语言模型的过程都讲清楚了,例子都很好懂,所以分享给大家。介绍语言模型:估计单词序列的概率值,其中单词序列为:原创 2017-09-17 19:07:33 · 7336 阅读 · 0 评论 -
统计学习方法笔记:决策树
感受其实决策树的思想很好懂的,只要把信息增益弄明白,然后找个例子计算一遍就明白了。为了防止过拟合,需要对生成的树进行后剪枝,后剪枝的算法也简单明了,其实还有一个优化算法是前向剪枝,即在生成决策树的时候就进行交叉验证,如果精度在验证集上下降了,就停止生成下面的叶子了。在论文中我发现前向剪枝比后剪枝的效果要好,这是由于后剪枝从叶子结点开始剪枝,对于一些中间结点的作用比较小,前向剪枝对每一个结点都会原创 2017-09-10 11:39:54 · 1421 阅读 · 0 评论 -
几种常用的优化方法,梯度下降法、牛顿法,拟牛顿法,共轭梯度法解析
感想本文介绍了大家熟知的梯度下降法,还介绍了其它的优化方法,大家可以看到一些对比,和少量的公式推导,这篇博客主要来源于机器之心,链接已经给出,公式我都推过了,没什么问题,最重要的是动笔推导,我把内容做了进一步的完善,希望帮助到读者理解。问题的形式化神经网络的学习过程可以形式化为最小化损失函数问题,该损失函数一般是由训练误差和正则项组成。误差项会衡量神经网络拟合数据集原创 2017-09-22 16:04:01 · 3362 阅读 · 0 评论