
机器学习
一起学习和分享机器学习有关的内容
成长的小牛233
不辜负每一份热爱
展开
-
【工作】python识别不同国家语言类型
优秀文章推荐:地址:Python使用谷歌langdetect检测语言地址:Python3:语言探测工具langdetect和langid支持的语言类型:支持检测55种语言: af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he, hi, hr, hu, id, it, ja, kn, ko...原创 2019-05-06 20:16:50 · 7407 阅读 · 0 评论 -
【转载保存】推荐ApacheCN开源的一个机器学习路线图
转载:https://mp.weixin.qq.com/s/EMWFFPsaKaGc8FO1g-htzg推荐ApacheCN开源的一个机器学习路线图原创:机器学习初学者机器学习初学者今天推荐一个ApacheCN开源的一个机器学习路线图:https://github.com/apachecn/AiLearning注意:需要直接打开网址或者“阅读原文”才能打开文章里的链接...转载 2019-04-22 23:13:13 · 666 阅读 · 0 评论 -
Spark和机器学习整合
链接:https://www.cnblogs.com/charlesblc/p/6109551.html转载 2019-04-14 12:09:30 · 260 阅读 · 0 评论 -
【转载保存】在python中如何用word2vec来计算句子的相似度
在python中,如何使用word2vec来计算句子的相似度呢?第一种解决方法如果使用word2vec,需要计算每个句子/文档中所有单词的平均向量,并使用向量之间的余弦相似度来计算句子相似度,代码示例如下:import numpy as npfrom scipy import spatialindex2word_set = set(model.index2word)def ...转载 2019-04-13 23:52:04 · 2424 阅读 · 3 评论 -
【链接保存】十分钟上手sklearn:安装,获取数据,数据预处理
简书地址:https://www.jianshu.com/p/a9168803edc6博主地址:http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/转载 2019-03-20 19:33:35 · 184 阅读 · 0 评论 -
【链接保存】十分钟上手sklearn:特征提取,常用模型,交叉验证
原博客地址:http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/简书地址:https://www.jianshu.com/p/731610dca805转载 2019-03-20 19:31:38 · 213 阅读 · 0 评论 -
常见分数值归一化方法
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:一、min-max标准化(Min-Max Normalization)也称为离差标准...转载 2019-03-18 15:14:15 · 5991 阅读 · 0 评论 -
【转】Python实现使用NLTK的快速自动关键字提取算法
Using pippip install rake-nltkDirectly from the repositorygit clone https://github.com/csurfer/rake-nltk.gitpython rake-nltk/setup.py installQuick startfrom rake_nltk import Rake# Uses...原创 2019-03-16 20:05:13 · 3387 阅读 · 0 评论 -
【kaggle入门题一】Titanic: Machine Learning from Disaster
原题:Start here if...You're new to data science and machine learning, or looking for a simple intro to the Kaggle prediction competitions.Competition DescriptionThe sinking of the RMS Titanic is...原创 2019-03-14 18:40:49 · 603 阅读 · 0 评论 -
python机器学习常用包
总结了一些常用的工具:Numpy| 必用的科学计算基础包,底层由C实现,计算速度快。 Pandas| 提供了高性能、易用的数据结构及数据分析工具。 seaborn| 数据可视化 NLTK| 自然语言工具包,集成了很多自然语言相关的算法和资源。 Stanford CoreNLP| Stanford的自然语言工具包,可以通过NLTK调用。 Gensim| 主题模型工具...原创 2019-03-14 10:40:09 · 13347 阅读 · 0 评论 -
python机器学习常用包下载安装以及使用案例汇总
python安装教程(Windows系统,python3.7为例) https://blog.youkuaiyun.com/weixin_40844416/article/details/80889165 在pycharm中切换python版本的方法 https://blog.youkuaiyun.com/sgfmby1994/article/details/77876873 Window...原创 2019-03-14 10:28:10 · 2088 阅读 · 0 评论 -
聚类算法篇章总结
主要的距离计算方法包括:最短距离法(通过样本数值之间的距离计算,然后将距离值最小的样本进行合并的过程) 最长距离法 中间距离法 重心法(重心聚类法:将两个聚类中心点的距离定义为两个类的重心距离,而类的重心为属于该类的样本的平均值) 离差平方和法 类平均距离法(动态聚类法:利用类平均值法对数据进行聚类的方法属于动态聚类的方法,也称逐步聚类法)常见的聚类算法:K-Means算法:初...原创 2019-03-07 18:20:44 · 3782 阅读 · 0 评论 -
几种分类器小结
朴素贝叶斯分类器是假设数据样本特征完全独立,以贝叶斯定理为基础的简单概率分类器。 AdaBoost算法的自适应在于前一个分类器产生的错误分类样本会被用来训练下一个分类器,从而提升分类准确率,但是AdaBoost算法对于噪声样本和异常样本比较敏感。 支持向量机是用过构建一个或者多个高维的超平面来将样本数据进行划分,超平面即为样本之间的分类边界。 基于k近邻的K个样本作为分析从而简化计算提升效率...原创 2019-03-07 17:29:58 · 18934 阅读 · 0 评论 -
中文分词测试语句
研究生命科学 研究生命令本科生 我从马上下来 我马上下来 北京大学生喝进口红酒 在北京大学生活区喝进口红酒 从小学电脑 从小学毕业 美军中将竟公然说 新建地铁中将禁止商业摊点 这块地面积还真不小 地面积了厚厚的雪 让我们以爱心和平等来对待动物 阿美首脑会议将讨论巴以和平等问题 锌合金把手的相关求购信息 别把手伸进别人的口袋里 将信息技术应用于教学实践 信息技术应用...原创 2019-03-04 12:05:46 · 2647 阅读 · 0 评论 -
k-shingles和MinHash优秀文章保存
minhash原理解释:https://www.cnblogs.com/sddai/p/6110704.htmlk-shingles和minhash使用原理:https://blog.youkuaiyun.com/aspirinvagrant/article/details/41281101代码java实现:https://blog.youkuaiyun.com/remoa_dengqinyi/article/d...原创 2019-03-03 20:07:57 · 555 阅读 · 0 评论 -
基于维特比算法的概率路径
简介:维特比算法(Vieterbi algorithm)是一种动态规划算法,探索出很多预测天气的方法,这种基于经验的预测方式,是一种基于历史数据的概率模型。思想维特比算法的思想是假设某一个数据的当前状态是依赖于它的前一个状态,它们在多个状态之间可以相互影响,而维特比算法正是从这些转态中推断出最大可能概率的状态序列(也可作最短路径)。因此,维特比算法解决问题的理论可归纳为如下:在通过...原创 2019-03-03 17:52:44 · 665 阅读 · 0 评论 -
一种基于邻域的聚类算法
基本概念:给定数据集D = {d1,d2 ,.. ,dn},p和q是D中的两个任意对象。我们使用欧氏距离来评估p和q之间的距离,表示为dist(p,q)。 我们将首先给出k-最近邻集合和反向的定义k-最近邻集合。 尽管学术中给出了类似的定义,我们把它们放在这里以方便读者理解我们的新算法。下面是算法需要用到的以下定义:定义1:(kNN) k近邻p的集合是k(k>0)的集合,由k...原创 2019-02-22 23:09:09 · 2326 阅读 · 0 评论 -
机器学习入门学习视频和书籍(笔记保存)
我娜姐推荐的资料和我要看的资料记录下:吴恩达151课时:https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1049052745&courseId=1004570029 机器学习书籍:《Machine Learning in Action》,Peter Harin...原创 2019-01-31 11:03:58 · 292 阅读 · 0 评论 -
【转载】向量空间模型VSM及余弦计算
向量空间模型VSM及余弦计算向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为分量的N维向量表示。这个模型假设词与词间不相关(这个前提造成这个模型无法进行语义相关的判断,向量空间模型的缺点在于关键词之间的线性无关的假说前提),用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。在向量空间模型中,文本泛指各种机器可读的记...转载 2019-01-23 19:24:18 · 873 阅读 · 0 评论 -
协同过滤算法UserCF和ItemCF优缺点对比
UserCF:性能:适用于用户较少的场合,如果用户很多,计算用户相似度矩阵代价很大。 领域:时效性较强,用户个性化兴趣不太明显的领域。 实时性:用户有新行为,不一定造成推荐结果的立即变化。 冷启动: 在新用户对很少的物品产生行为后,不能立即对它进行个性化推荐,因为用户相似度表示每隔一段时间离线计算的。 新物品上线后一段时间,一旦有用户对物品产生行为,就可以将新物品推荐给和对它产生行...原创 2019-01-18 17:09:21 · 5366 阅读 · 0 评论 -
NLP英文缩写词性含义
1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,neither,all,both,ha...转载 2019-01-08 17:55:16 · 2095 阅读 · 0 评论 -
基于ansj_seg和nlp-lang的简单nlp工具类
1、首先在pom中引入ansj_seg和nlp-lang的依赖包, ansj_seg包的作用: 这是一个基于n-Gram+CRF+HMM的中文分词的java实现; 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上; 目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能; 可...转载 2018-12-21 21:47:52 · 1156 阅读 · 0 评论 -
TextRank、BM25算法提取关键字、文章自动摘要优秀文章保存
转载地址:http://www.hankcs.com/nlp/textrank-algorithm-java-implementation-of-automatic-abstract.html转载 2018-12-16 15:44:26 · 1762 阅读 · 0 评论 -
hanlp中文分词、提取摘要关键字、语句分析、智能推荐
hanlp资源:hanlp介绍:http://hanlp.linrunsoft.com/hanlp下载:https://github.com/hankcs/HanLPhanlp(分词)使用:https://blog.youkuaiyun.com/nima1994/article/details/72819973hanlp1.7:https://github.com/hankcs/HanLP/tree/...原创 2018-12-16 14:09:39 · 5556 阅读 · 0 评论 -
Word2vec加TextRank算法生成文章摘要
背景:自动文本摘要是自然语言处理中一个比较难的任务。新闻的摘要要求编辑能够从新闻事件中提取出最关键的信息点,然后重新组织语言进行描述;一般论文的摘要要求作者先表述清楚问题,对前人工作中不完善的地方进行总结,然后用更凝练的语言描述自己的工作;综述性质的论文要求作者通读大量相关领域的工作,用最概括性的语言将每份工作的贡献、创新点写出来,并对每份工作的优缺点进行比较。本质上,文本摘要是一种信息过滤,输...原创 2018-12-16 14:07:13 · 1727 阅读 · 0 评论 -
java字典树(Trie)实现中文模糊匹配
原理解释:java实现:https://blog.youkuaiyun.com/yuhk231/article/details/51539840c实现:https://blog.youkuaiyun.com/qq_31175231/article/details/77827324代码模板:缺点,只能检索出在一个分支中的前缀匹配内容package com.xq.algorithm;import java.io.B...原创 2018-12-16 03:15:50 · 3702 阅读 · 0 评论 -
java HashMap实现中文分词器 应用:敏感词过滤实现
今天下午部门内部技术分享是分词器算法。这次的主讲是大名鼎鼎的Ansj分词器的作者-孙健。作者简介:Ansj分词器作者elasticsearch-sql(elasticsearch的sql插件)作者,支持sql查询nlp-lang自然语言工具包发起人NLPCN(自然语言处理组织)发起人等等…网站:http://www.nlpcn.org/GIT地址:https://github.co...转载 2018-12-16 02:52:38 · 633 阅读 · 0 评论 -
java Trie实现英文单词查找树 搜索自动提示
原理解释文章:https://blog.youkuaiyun.com/beiyetengqing/article/details/7856113代码应用:wordTrie.txt(工具类):package com.xq.algorithm;import java.util.ArrayList;import java.util.List;/** * * <p>Title:...原创 2018-12-16 02:50:15 · 978 阅读 · 0 评论 -
java英文拼写检查并自动纠正
SpellCorrect原理:https://www.cnblogs.com/jianxinzhou/p/4740392.html项目源码:package com.xq.algorithm;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.Fi...原创 2018-12-16 02:14:51 · 3756 阅读 · 3 评论 -
利用TF-IDF提取新闻文章摘要
文章:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html转载 2018-12-15 19:46:20 · 1354 阅读 · 0 评论 -
【java机器学习】svm入门十讲
博客:http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html转载 2018-12-08 15:16:55 · 184 阅读 · 0 评论 -
【java机器学习】支持向量机之拉格朗日乘子法解释
拉格朗日乘子法 最近在学习 SVM 的过程中,遇到关于优化理论中拉格朗日乘子法的知识,本文是根据几篇文章总结得来的笔记。由于是刚刚接触,难免存在错误,还望指出?。另外,本文不会聊到深层次的数学推导,仅仅是介绍拉格朗日乘子法的内容,应用,以及个人对它的感性理解。什么是拉格朗日乘子法按照维基百科的定义,拉格朗日乘数法是一种寻找多元函数在其变量受到一个或多个条件的约束时的极值的方法。用数学...转载 2018-12-06 17:39:33 · 530 阅读 · 0 评论 -
【java机器学习】贝叶斯分类
参考文章:https://blog.youkuaiyun.com/qq_24369113/article/details/53291867#commentsedit转载 2018-12-06 16:00:06 · 223 阅读 · 0 评论 -
【java机器学习】词向量在贝叶斯中的概念
向量:在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(magnitude)和方向的量词向量:词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。单词条件概率计算步骤:对每...原创 2018-12-05 23:31:08 · 476 阅读 · 0 评论 -
【java机器学习】决策树算法
参考文章:https://blog.youkuaiyun.com/qq_38773180/article/details/79188510java代码:package decisionTree;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileInputStream;import java....原创 2018-12-05 21:09:43 · 897 阅读 · 0 评论 -
KDTree算法
原理:1.https://www.cnblogs.com/porco/p/4464414.html(里面代码不好修改,不建议直接利用)2.https://www.cnblogs.com/zfyouxi/p/4795584.html实例:可以用来求最短距离的点,例如:根据经纬度求最近点java实现:package main; import java.util.Collections;...原创 2018-12-04 23:47:58 · 1209 阅读 · 0 评论 -
TFIDF java实现
优秀博客:https://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html原创 2018-12-04 23:42:18 · 572 阅读 · 0 评论 -
[转载]文本特征TFIDF权重计算及文本向量空间VSM表示
https://blog.youkuaiyun.com/Fighting_No1/article/details/51000066原创 2018-12-03 17:38:13 · 516 阅读 · 0 评论 -
机器学习分享的资源
PDF:https://blog.youkuaiyun.com/lqf921205/article/details/78399869视频:https://blog.youkuaiyun.com/q361239731/article/details/81012904转载 2018-11-30 14:58:47 · 308 阅读 · 0 评论 -
机器学习入门知识
本文主要向大家介绍了机器学习入门之机器学习------精心总结,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助。1.数学偏差与方差拉格朗日核函数凸优化协方差矩阵Hessian矩阵CDF(累计分布函数)高斯概率密度函数中心极限定理2.机器学习Java 机器学习 工具 & 库1.处理小数据效果好 2.深度学习—大数据,超过500w;图像,语言方面效果奇...原创 2018-11-30 14:44:56 · 189 阅读 · 0 评论