
机器学习习题集
文章平均质量分 83
AI让世界更懂你
计算机科学与技术专业博士,主要研究方向为人工智能、自然语言处理、大规模语言模型和对话系统等。曾与微软小冰、微软小娜共同工作。兴趣广泛,包括并不限于人工智能,心理学,认知科学,语言学,数学,天文学等。让我们一起和AI,改进世界!
展开
-
机器学习习题(3)
1. 前言这一次我们只有4道新题,有一道题目我们之前已经做过了。就不再赘述。2. 习题1 下面有关分类算法的准确率,召回率,F1 值的描述,错误的是? A.准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率 B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率 C.正确率、召回率和 F 值取值都在0和1之间,数值越接原创 2017-07-14 15:16:07 · 3890 阅读 · 0 评论 -
机器学习习题(17)
这一期中,我们讲解了相关系数、PCA与SVD、误差偏差与方差、多元共线与线性回归、聚类与分类的相关问题。 1.给定三个变量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2(即 X+2),Y 的全部值减 2(即 Y-2),Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) ...原创 2018-02-23 12:08:04 · 5002 阅读 · 0 评论 -
机器学习习题(16)
在最新的一期中,我们主要介绍了交叉验证的相关知识、t-SNE的相关知识、线性回归的相关知识、可决系数的相关知识、相关系数的相关知识。 1.下面的交叉验证方法 : i. 有放回的Bootstrap方法 ii. 留一个测试样本的交叉验证 iii. 5折交叉验证 iv. 重复两次的5折交叉验证 当样本是1000时,下面执行时间的顺序,正确的是: A....原创 2018-02-22 13:05:15 · 5236 阅读 · 0 评论 -
机器学习习题(15)
给大家拜个晚年了!在新的9题机器学习习题中,我们主要讲解了4个方面: 集成学习里随机森林与GBDT等相关知识,PCA降维的相关知识,聚类算法的相关知识,KNN的相关知识。 1.对于随机森林和GradientBoosting Trees, 下面说法正确的是: 1.在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的 ...原创 2018-02-21 19:45:31 · 5436 阅读 · 0 评论 -
机器学习习题(14)
本次习题则主要侧重于支持向量机、KNN和性能评估上。 1.我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 : (1)使用前向特征选择方法 (2)使用后向特征排除方法 (3)我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征原创 2018-01-27 13:09:01 · 9669 阅读 · 1 评论 -
机器学习习题(13)
今天主要是对于特征选择、降维方法、集成方法、做了较多的讲解。 1.机器学习中做特征选择时,可能用到的方法有? A.卡方 B. 信息增益 C. 平均互信息 D. 期望交叉熵 E. 以上都有参考答案:E解析:特征选择是机器学习框架中的比较重要的一环,可以说是仅次于模型选择。上面4种是常用的文本数据的特征选择方法,还有文档频率和文本证据权(WET)原创 2018-01-23 10:46:37 · 27072 阅读 · 6 评论 -
机器学习习题(12)
最近才知道七月在线收录了一些我的机器学习的题目及解析,我也去刷了一番,有时候看到我自己的答案解析,还是挺亲切的。但是有些不是我解析的题目翻遍了网络也没有找到题目的答案,或者答案不太正确,只好自己来做一下解析了。当然有些题目也是有争议的,我只是给出参考答案和解析。 1.以下哪些方法不可以直接来对文本分类? A. Kmeans B. 决策树 C. 支持向量机原创 2018-01-21 15:10:09 · 8172 阅读 · 0 评论 -
机器学习习题(2)
1. 前言还是学的不扎实啊,如果有什么问题欢迎留言。解析有可能不对,因为是我自己推的(捂脸)。2. 习题1(卷积与池化) 输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,st原创 2017-07-10 09:51:01 · 3690 阅读 · 3 评论 -
机器学习习题(10)
1. 前言行百里者半于九十。此言末路之难也。2. 习题2.1 习题1(支持度) 考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度: A.s({e}) =0.8s({b, d})= 0.2s({b, d原创 2017-07-27 09:50:43 · 4687 阅读 · 0 评论 -
机器学习习题(9)
1. 前言前事不忘后事之师。2. 习题2.1 习题1(判别式模型) 以下几种模型方法属于判别式模型的有: 1)混合高斯模型 2)条件随机场模型 3)区分度训练 4)隐马尔科夫模型 A.1,4 B.3,4 C.2,3 D.1,2正确答案:C解析:这题是做过一遍的,可能印象不深,我们这里再讲一遍。 判别式模型与生成式模型的区别产生式原创 2017-07-24 10:56:59 · 3628 阅读 · 0 评论 -
机器学习习题(8)
1. 前言这次只有4题,因为有一题是重复了。2. 习题2.1 习题1(神经网络) 印度电影《宝莱坞机器人之恋》中的机器人七弟采用的智能算法最有可能是以下哪一种() A.神经网络 B.遗传算法 C.模拟退火 D.穷举算法正确答案:A解析: 没看过电影的笔者悲剧了,只能在豆瓣上看了一下影评,然后下了一个字幕文件[7],在第876句台词的时候,开发七弟的博士原创 2017-07-22 15:37:08 · 3635 阅读 · 0 评论 -
机器学习习题(7)
1. 前言学而不思则罔,思而不学则殆。2. 习题2.1 习题1(无监督学习) 下列属于无监督学习的是: A.k-means B.SVM C.最大熵 D.CRF正确答案:A解析: A是聚类,BC是分类,D是序列化标注,也是有监督学习。2.2 习题2(条件随机场) 下列哪个不属于CRF模型对于HMM和MEMM模型的优势( ) A.特征灵活原创 2017-07-22 10:04:10 · 3524 阅读 · 0 评论 -
机器学习习题(6)
1.前言这一节关于正则化的题目比较多。2. 习题2.1 习题1(信息增益) 如下表是用户是否使用某产品的调查结果() UID 年龄 地区 学历 收入 用户是否使用调查产品 1 低 北方 博士 低 是 2 高 北方 本科 中 否 3 低 南方 本科 高 否 4 高 北方 研究生 中原创 2017-07-17 21:30:10 · 1968 阅读 · 0 评论 -
机器学习习题(11)
1. 前言有志者,事竟成,破釜沉舟,百二秦关终属楚; 苦心人,天不负,卧薪尝胆,三千越甲可吞吴。2. 习题2.1 习题1(文本分类) 下列哪个不属于常用的文本分类的特征选择算法? A.卡方检验值 B.互信息 C.信息增益 D.主成分分析正确答案:D解析:常采用特征选择方法。常见的六种特征选择方法:1)DF(Document Frequency) 文档频原创 2017-07-29 17:28:33 · 3203 阅读 · 0 评论 -
机器学习习题(5)
1. 前言书到用时方恨少!2. 习题1(矩阵相乘) 深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m<n<p<qm*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是() A.(AB)C B.AC(B) C.A(BC) D.所原创 2017-07-16 12:13:42 · 4887 阅读 · 3 评论 -
机器学习习题(4)
1. 前言今天状态还不错。2. 习题1(SPSS基础) SPSS的界面中,以下是主窗口是( ) A.语法编辑窗口 B.数据编辑窗口 C.结果输出窗口 D.脚本编辑窗口正确答案:B解析:SPSS是属于数据分析软件,当然主窗口是在数据编辑上。3. 习题2(分类与聚类) 以下哪些方法不可以直接来对文本分类? A.Kmeans B.决策树原创 2017-07-15 09:27:38 · 5417 阅读 · 0 评论 -
机器学习习题(1)
1. 前言从这章开始,我们将进入机器学习实战题目训练,今天的成果是全军覆没!2. 习题1(过拟合问题) 在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题() A. 增加训练集量 B. 减少神经网络隐藏层节点数 C. 删除稀疏的特征 D. SVM算法中使用高斯核/RBF核代替线性核正确答案:D解析:一般情况下,越复杂的系统,过拟合的可能性就越高,一般模型原创 2017-07-08 15:11:33 · 9089 阅读 · 2 评论 -
机器学习习题(18)
1、中文同义词替换时,常用到Word2Vec,以下说法错误的是A. Word2Vec基于概率统计B. Word2Vec结果符合当前语料环境C. Word2Vec得到的都是语义上的同义词D. Word2Vec受限于训练语料的数量和质量参考答案:C解析:Word2Vec是常用的词向量表示,它采用的是同等上下文环境下的词语具有相同的词向量,而并非相同的含义。例如,我使用和朋友聊天。我使用&l...原创 2018-11-06 11:02:29 · 4781 阅读 · 0 评论