
机器学习
文章平均质量分 61
桂小林
专注于大数据与人工智能!
做一个“姿势正确,有深度,有维度”的人。。。
展开
-
开放数据资源收集
国内1.开放数据中国2.北京市政务数据资源网3.上海市政府数据服务网4.国家统计局5.无锡市政府6.数说南海7.香港特区政府8.中国高校大数据桃战赛9.阿里天池大数据平台10.上海SODA大赛11.数据堂12.AI Challenger数据集,9月5号可下载国际1.斯坦福收集的大量数据2.网页点击数据集3.Quora上关于数据集的问题和回答4.WebDataCommons世界上最大的网页元数据库5.原创 2017-09-18 16:01:11 · 771 阅读 · 0 评论 -
生成模型与判别模型
概念理解监督学习方法可分为两大类,即生成方法与判别方法,它们所学到的模型称为生成模型与判别模型。判别模型:判别模型是学得一个分类面(即学得一个模型),该分类面可用来区分不同的数据分别属于哪一类;生成模型:生成模型是学得各个类别各自的特征(即可看成学得多个模型),可用这些特征数据和要进行分类的数据进行比较,看新数据和学得的模型中哪个最相近,进而确定新数据属于哪一类。举个例子:若分类目标是对图像中原创 2017-09-10 16:57:21 · 741 阅读 · 2 评论 -
课题申报及论文撰写主要逻辑
课题申报主要逻辑:你为什么要做这个事?(一般描述做这个事情的重大意义)你做的这个事情有没有其他人做过?他们是如何做的?做的结果如何?是否有不足之处?(我们很难做开创性的工作,一般都会有其他人做过类似的事情,需要我们广泛阅读已发表的文章、专利)你做这个事情的思路是什么?与已做过的研究有何不同?(一般情况下都是新时期、新阶段、新技术导致解决问题的思路不同)这一块内容要详细描述,最好图文并茂。参考原创 2017-10-22 23:31:49 · 990 阅读 · 0 评论 -
矩阵的秩与迹
记得第一次看到“矩阵的迹”这个概念的时候就怀疑是不是作者的拼写错误,将“矩阵的秩”写成“矩阵的迹”了。实际上,它们是两个完全不同的两个概念。矩阵的迹数学定义:n×n矩阵A的对角线元素之和称为A的迹(trace),记作tr(A),即有:tr(A)=a11+...+ann=∑ni=1aiitr(A)=a_{11}+...+a_{nn}=\sum_{i=1}^n a_{ii}矩阵的迹有如下重要性质:tr(原创 2017-11-05 21:11:49 · 21296 阅读 · 1 评论 -
卷积和内积
我是从支持向量机中领悟到內积运算与之前学过的卷积运算特别相似,搜索了一下,早有学者发现了这种相似。参考:卷积和內积信号处理中的一个重要运算是卷积.初学卷积的时候,往往是在连续的情形, 两个函数f(x),g(x)的卷积,是∫f(u)g(x-u)du 当然,证明卷积的一些性质并不困难,比如交换,结合等等,但是对于卷积运算的来处,初学者就不甚了了。其实,从离散的情形看卷积,或许更加清楚, 对于两个序转载 2017-12-13 06:50:32 · 13814 阅读 · 4 评论 -
项目反应理论
项目反应理论(item response theory)是属于心理学中认知诊断常用的一种理论,即根据被测试者针对某个问题的答案来对被测者的认知状况进行估计。“项目”实质就是测试题,“反应”就是被测者的答案。也有学者称项目反应理论也是机器学习中的一个类别,即根据被测者对测试题的反应来判定被测者所属的类别。1、 项目特征曲线项目特征曲线可用来描述项目(问题)难度与区分度,即项目的难度与区分度是项目的两个原创 2018-01-07 11:58:59 · 15424 阅读 · 3 评论 -
CCF2016-2017中国计算机科学技术发展报告(总结摘录)
1、数据科学中的机器学习基础和进展报告中对数据科学从两个角度进行了定义,摘录如下: 数据科学(高层定义):数据科学关于数据的科学和研究 数据科学(学科定义)是一个融合了统计学、信息学、计算、通讯、管理以及社会学的新的交叉学科,其研究主体为数据及其环境,其目标是将数据转化为洞察力以及决策,采用的方法论以及思路是将数据转化为知识进而转化为智慧。这个定义跟我想的有点不一样,例...原创 2018-01-21 23:21:41 · 2914 阅读 · 0 评论 -
Python数据预处理中的LabelEncoder与OneHotEncoder
1、LabelEncoderLabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法:fit(y) :fit可看做一本空字典,y可看作要塞到字典中的词。 fit_transform(y):相当于先进行fit再进行transform,即把y塞到字典中去以后再进行transform得到索引值。 inverse_transform(y):根...原创 2018-04-08 15:21:42 · 55736 阅读 · 0 评论 -
基于支持向量机的网页分类(Python+Spark实现)
网页分类问题的介绍以及数据集的下载,见基于决策树的网页分类(Python+Spark实现)import sysfrom time import timeimport pandas as pdimport matplotlib.pyplot as pltfrom pyspark import SparkConf, SparkContextfrom pyspark.mllib.class...原创 2018-04-22 23:11:42 · 1200 阅读 · 1 评论