
机器学习
文章平均质量分 61
三名狂客
success without applause,diligence without reward!Becoming、Cognifying、Flowing、Screening、Accessing、Sharing、Filtering、Remixing、Interacting、Tracking、Questioning、Beginning.
展开
-
机器学习工程师层级
LEVEL1:能读懂论文 这是一个最最基本的层次了,如果没办法读懂论文的话,任何工作几乎都谈不到开展。市面上的任何书籍,不论是中文的还是外文的,都在讲原理层面的事情,要想看着这些书籍来直接做项目是非常困难的事情。而对于拿到一个工程需求的时候,不论这是一个分解完的需求还是一个分解前的粗需求,第一步几乎都是要到网上去找文献——看看目前为止,世界上其它的人有没有涉足过这方面的研究,并且有一些理论成...转载 2018-07-04 16:36:56 · 596 阅读 · 0 评论 -
机器学习框架对比
2.1 主流深度学习框架对比各个开源框架在Github上的数据统计数据统计截止于2017.07.15可以看到各大主流框架基本都支持Python,目前Python在科学计算和数据挖掘领域可以说是独领风骚。虽然有来自R、Julia等语言的竞争压力,但是Python的各种库实在是太完善了,Web开发、数据可视化、数据预处理、数据库连接,爬虫等无所不能,有一个完美的生态环境。仅转载 2017-07-18 09:19:16 · 3054 阅读 · 1 评论 -
机器学习项目
1、CDarknet —— 神经网络框架Darknet 是一个用 C 和 CUDA 编写的开源神经网络框架。它快速,易于安装,并支持 CPU 和 GPU 计算。CCV —— 计算机视觉库CCV 是 C-based/Cached/Core Computer Vision Library 的简称, 它是一个现代的计算机视觉库。CCV 是一种以应用驱动的算法库,比如对静转载 2017-06-24 13:56:53 · 647 阅读 · 0 评论 -
全球100款大数据工具汇总
1、 Talend Open Studio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码转载 2017-07-03 19:53:20 · 1535 阅读 · 0 评论 -
人工智能各大分支技术
神经网络机器学习机器学习: Scikit-learn 算法此部分内容可以帮助你解决机器学习中最难的部分,即找到正确的估计器(Estimator)。下图可帮助快速查找文档与简介,更快了解问题并找到解决方法。Scikit-LearnScikit-learn(更正式的叫法为 scikits.learn)是 Python 的一个用于机转载 2017-07-12 09:28:42 · 4290 阅读 · 0 评论 -
机器学习常见算法
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。 学习方式根据转载 2017-06-07 15:17:44 · 665 阅读 · 0 评论 -
机器学习之数据集
1. 国内数据链接:http://pan.baidu.com/s/1sleuXg5 密码:7xa42. 全球社交媒体链接:http://pan.baidu.com/s/1c2l7a28 密码:nbni3. 好玩的数据集链接:http://pan.baidu.com/s/1mhZf3MK 密码:y8bt4. 各大企业电话邮箱创立转载 2017-06-07 14:50:44 · 5641 阅读 · 1 评论 -
机器学习视频教程
1. Hadoop—Spark企业应用实战(推荐版)链接:http://pan.baidu.com/s/1eSJsUTc 密码:q5lt 2. 西安交大应用统计分析SPSS1-48讲链接:http://pan.baidu.com/s/1slSzYHJ 密码:8twg 3. Python科学计算链接:http://pan.b转载 2017-06-07 14:43:54 · 3810 阅读 · 0 评论 -
卷积神经网络CNN
视频连接: 点击打开链接 国外网址: 点击打开链接 观看网址: 点击打开链接 相关连结:PDF(2MB)、PPT(6MB)日文版波斯文版(由Elham Khanchebemehr翻译)以及Mohammad KHalooei所制作的波斯文简报Nvidia GPU上的MATLAB和Caffe实作由Alexander Ha转载 2017-06-06 19:31:50 · 1019 阅读 · 0 评论 -
10大开源的推荐系统简介
#1.SVDFeature主页:http://svdfeature.apexlab.org/wiki/Main_Page 语言:C++一个feature-based协同过滤和排序工具,由上海交大Apex实验室开发,代码质量较高。在KDD Cup 2012中获得第一名,KDD Cup 2011中获得第三名,相关论文 发表在2012的JMLR中,这足以说明它的高大上。SVDFeat转载 2017-06-01 20:26:13 · 18577 阅读 · 1 评论 -
机器学习&深度学习视频资料大汇总
第一部分 基础语言pandax视频教程链接: https://pan.baidu.com/s/1pLqavVX 密码: fathpython入门到精通链接: https://pan.baidu.com/s/1mhVNIkC 密码: cvp31234512345第二部分 数据篇链接: https://pan.baidu.com/s/1pLK25zP 密码: qtuu11转载 2017-05-31 13:07:50 · 3080 阅读 · 0 评论 -
深度学习框架性能对比分析
下图总结了绝大多数Github上的开源深度学习框架项目,根据项目在Github的Star数量来评级,数据采集于2017年5月初。TensorFlowTensorFlow框架的前身是Google的DistBelief V2,是谷歌大脑项目的深度网络工具库,一些人认为TensorFlow是借鉴Theano重构的。Tensorflow一经开源,马上引起了大量开发者的跟转载 2017-05-10 16:56:35 · 2582 阅读 · 0 评论 -
13种主流机器学习的框架
1. Apache Spark MLlibApache Spark 最为人所知的是它是Hadoop家族的一员,但是这个内存数据处理框架却是脱胎于Hadoop之外,也正在Hadoop生态系统以外为自己获得了名声。Hadoop 已经成为可供使用的机器学习工具,这得益于其不断增长的算法库,这些算法可以高速度应用于内存中的数据。早期版本的Spark 增强了对MLib的支持,MLib是主要面转载 2017-09-05 15:53:39 · 43781 阅读 · 1 评论 -
机器学习十大常用算法
十大算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost 算法神经网络马尔可夫1. 决策树根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。2. 随机森林视频在源数转载 2017-09-26 19:55:02 · 515 阅读 · 0 评论 -
数据挖掘中的 10 大算法
1.C4.5算法C4.5是做什么的?C4.5 以决策树的形式构建了一个分类器。为了做到这一点,需要给定 C4.5 表达内容已分类的数据集合。等下,什么是分类器呢? 分类器是进行数据挖掘的一个工具,它处理大量需要进行分类的数据,并尝试预测新数据所属的类别。举个例子吧,假定一个包含很多病人信息的数据集。我们知道每个病人的各种信息,比如年龄、脉搏、血压、最大摄氧量、家族病史等。这转载 2017-11-03 22:09:12 · 806 阅读 · 0 评论 -
深度学习的开放数据集
数据集分为三类——图像处理、自然语言处理和音频/语音处理。一、图像数据集1.MNISThttps://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/MNIST是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好...转载 2018-04-11 11:18:40 · 3489 阅读 · 0 评论 -
零基础入门深度学习
无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就out了?现在救命稻草来了,《零基础入门深度学习》系列文章旨在讲帮助爱编程的你从零基础达到入门级水平。零基础意味着你不需要太多的数学知识,只要会写程序就行了,没错,这是专门为程序员写的文...转载 2018-04-03 09:07:16 · 771 阅读 · 0 评论 -
国外20个机器学习相关博客推荐
概述 最近一直在学习机器学习相关的知识,前面相继边学习边翻译了四篇机器学习相关的国外文章15分钟破解网站验证码使用机器学习预测天气(第一部分)使用机器学习预测天气(第二部分)使用机器学习预测天气(第三部分) 今天我就把我平时看到的一些国外的关于机器学习的博客和新闻站,分享给大家。Machine Learning - Reddit网址:转载 2018-01-17 23:24:51 · 1125 阅读 · 0 评论 -
人脸识别中的机器学习
机器学习的一个主要应用领域是对客观对象的识别,也称为模式识别----目的是赋予机器类似生物的信息识别和处理能力。而机器视觉研究的是如何用机器代替人眼来感知外部的世界,测量和识别外部对象,并作出正确的判断。对图像的不同特征来编制专门的算法进行处理----OpenCV 广泛应用于人机互动、物体识别、图像分割、人脸识别、动作识别、运动跟踪、机器人、运动分析、机器视觉、结构分析、自动汽车驾驶等领域。原创 2017-04-08 12:02:05 · 4103 阅读 · 0 评论 -
机器学习导论
在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻 这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责转载 2018-01-31 21:05:33 · 665 阅读 · 0 评论 -
从8800个机器学习开源项目中精选出Top30,推荐给你
A. 神经网络:深度学习 A-ZTM : 亲手搭建人工神经网络(推荐次数68,745 , 4.5/5 stars)链接:bit.ly/2CH1WcQB.用Python进行深度学习的TensorFlow的完整指南(推荐次数17,834, 4.6/5 stars)链接:bit.ly/2EatVy7接下来是Mybridge精选的Top 30的项目:1. F转载 2018-01-10 21:11:01 · 2639 阅读 · 0 评论 -
机器学习之项目实践
机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的。预测模型项目模板不能只通过阅读来掌握机器学习的技能,需要进行大量的练习。本文将介绍一个通用的机器学习的项目模板,创建这个模板总共有六个步骤。通过本文将学到:端到端地预测(分类与回归)模型的项目结构。转载 2018-01-02 11:19:26 · 4103 阅读 · 3 评论 -
深度学习学习资料
原文地址:http://blog.youkuaiyun.com/hjimce/article/details/45421595一、学习计划1、综合类(1)收集了各种最新最经典的文献,神经网络的资源列表:https://github.com/robertsdionne/neural-network-papers 里面包含了深度学习领域经典、以及最新最牛逼的算法,如果把这个列表学过一转载 2018-01-01 19:43:06 · 515 阅读 · 0 评论 -
15个最流行的GitHub机器学习项目
GitHub 是计算机科学领域最为活跃的社区,在 GitHub 上,来自不同背景的人们分享越来越多的软件工具和资源库。在其中,你不仅可以获取自己所需的工具,还可以观看代码是如何写成并实现的。作为一名机器学习爱好者,作者在本文中列出了 2017 年 GitHub 平台上最为热门的知识库,其中包含了学习资料与工具。希望对你的学习和研究有所帮助。目录1. 学习资源1. A转载 2017-12-30 21:48:54 · 8115 阅读 · 0 评论 -
破解网站验证码
概述 很多开发者都讨厌网站的验证码,特别是写网络爬虫的程序员,而网站之所以设置验证码,是为了防止机器人访问网站,造成不必要的损失。现在好了,随着机器学习技术的发展,机器识别验证码的问题比较好解决了。样本采集工具 这里我们采用wordpress的Really Simple CAPTCHA生成验证码的插件,之所以选择这个插件,一个是它的安装量很大,二个是因为它是开源的,我们转载 2017-12-22 16:12:55 · 564 阅读 · 0 评论 -
机器学习基本概念
国外:1、kaggle:https://www.kaggle.com/简介:这个比赛应该是数据挖掘比赛里面很出名的了,竞赛题目源源不断,种类丰富,而且有不菲的竞赛奖金,是刚入门数据挖掘行业人的练手平台。记得我研一的数据挖掘课的期末大作业就是参加kaggle的一个比赛。kaggle的比赛规则简单,注册之后就可以参加比赛,而且竞赛页面人性化,会有一个时间轴提示d转载 2017-12-11 22:08:13 · 573 阅读 · 0 评论 -
机器学习基础---概率论基础知识
0. 前言本文主要旨在对概率统计的基础概念与知识进行概要的总结,以便于使用到时可以参考。相关的细节可以参考给出的书目。概率论是数理统计的基础,也是很多机器学习模型的支撑。其中涉及的贝叶斯公式、大数定理、中心极限定理尤为重要。1. 概率论的基本概念1.1 基本概念随机试验 (E)(1)可以在相同的条件下重复地进行(2)每次试验的可能结果不止一个,并转载 2017-04-13 19:31:34 · 2663 阅读 · 0 评论 -
大数据与MapReduce
MapReduce是一个软件框架,可以将单个计算作业分配给多台计算机执行。MapReduce在大量节点组成的集群上运行。它的工作流程是:单个作业被分成很多小分,输入数据也被切分发到每个节点,各个节点只在本地数据上做运算,对应的运算代码称为mapper,这个过程称作map阶段。每个mapper的输出通过某种方式组合(一般会排序)。排序后的结果再被分成小份分发到各个节点进行下一步处理工作。第二步的原创 2017-04-13 14:51:57 · 1091 阅读 · 0 评论 -
预测数值型数据---回归
回归的目的:预测数值型的目标值。 回归与分类不同点在于,前者预测连续型的变量,而后者预测离散型的变量。、 岭回归是缩减法的一种,相当于对回归系数的大小施加了限制。 具体的实现代码如下:from numpy import *def loadDataSet(fileName): #general function to parse tab -delimite原创 2017-04-05 09:38:55 · 714 阅读 · 0 评论 -
树回归
数据集中经常包含一些复杂的相互关系,使得输入数据和目标变量之间呈现非线性关系。对复杂的关系建模,一种方式用树对预测值分段,包括分段常数(回归树)和分段直线(模型树)。 CART算法可以用于构建二元树并处理离散型或连续型数据的切分,对于过拟合可以采取剪枝的办法:预剪枝(在树的构建过程中剪枝)和后剪枝(当树构建完毕进行剪枝)。 树回归的具体实现代原创 2017-04-07 11:04:41 · 527 阅读 · 0 评论 -
TOP 10开源的推荐系统简介
最近这两年推荐系统特别火,本文搜集整理了一些比较好的开源推荐系统,即有轻量级的适用于做研究的SVDFeature、LibMF、LibFM等,也有重量级的适用于工业系统的 Mahout、Oryx、EasyRecd等,供大家参考。PS:这里的top 10仅代表个人观点。#1.SVDFeature主页:http://svdfeature.apexlab.org/wiki/Main翻译 2017-03-21 14:21:31 · 1066 阅读 · 0 评论 -
K-近邻算法
一. 基本的工作原理: 选择样本数据集中的前K个最相似数据(最近邻)的分类标签。二. k-近邻算法的一般步骤: (1)收集数据: 可以使用任何办法 (2)准备数据: 距离计算所需要的数值,最好是结构化的数据格式 (3)分析数据: 可以使用任何办法 (4)训练算法: 次此步骤不适用k-近邻算法 (5)测试算原创 2017-03-28 10:11:36 · 462 阅读 · 0 评论 -
机器学习的本质
1. 前言这个世界不缺少专家,我只是期待他们中有一位能把事情说清楚。机器学习很火。 机器学习专家很贵。 所有大型互联网公司都驾着机器学习的马车朝着人工智能前进。然而今天哪怕是互联网从业者,大部分也是不知道机器学习到底是什么的。机器如何学习?机器学到的是什么?为什么机器经过学习能够神奇的预测用户的喜好、股票的涨跌?人们好奇又渴望。这里所说的从业者可能是转载 2017-03-06 19:08:15 · 2468 阅读 · 0 评论 -
主流深度学习框架对比
深度学习研究的热潮持续高涨,各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon,等等。然而TensorFlow却杀出重围,在关注度和用户数上都占据绝对优势,大有一统江湖之势。表2-1所示为各个开源框架在GitHub上的数据统计(数据统计于2017年1月转载 2017-02-20 20:20:35 · 95261 阅读 · 8 评论 -
机器学习发展史
机器学习(Machine Learning, ML)可以认为是:通过数据,算法使得机器从大量历史数据中学习规律,从而对新样本做分类或者预测。它是人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,主要使用归纳、综合的方法获取或总结知识。很多高校已经开设机器学习这一课程,作为一门交叉领域学科,它涉及到概率论,统转载 2016-12-29 12:31:29 · 6867 阅读 · 0 评论 -
Linux操作系统下部署python 机器学习开发环境
1.首先提下学习机器学习的数学基础,数学对很多人来说并不简单,一是语言符号非常简练;二是理论描述计较抽象,长久以来数学研究是客观世界的空间形式和数量形式,即事物在时空的普遍存在的运动的规律。好了不逼逼了,说下要用到的数学知识: (1)概率论:说明了事物可能会怎么样; (2)数值分析:揭示了它们为什么这样,以及如何变成这样; (3)线性代数:告诉我们事物从来不只一个样子,使我们能从多个角度来观察事物...原创 2016-11-28 13:14:06 · 2772 阅读 · 0 评论 -
机器学习 算法原理与编程实践 第一章 机器学习的基础
开篇引言:"基础决定高度,而不是高度决定基础!" 书中主要从 编码程序,数据结构,数学理论,数据处理和可视化等几个方面阐述机器学习的理论,然后扩展到概率论,数值分析,矩阵分析等知识引导我们进入机器学习的世界!1.1编程语言和开发环境:选取python 开发环境(搭建过程省略)(当然也可以用R语言)选取原因如下: 1.免费、开源 2. python编程更加简单原创 2016-11-27 12:54:28 · 991 阅读 · 0 评论 -
梯度寻优
一.最优化与计算复杂性:以最小的代价取得最大的收益(矩阵分析,数值分析,计算机(GPU并行计算,云计算,云存储))----数学建模、公式推导、算法设计。机器学习中的多数算法都是针对NP类问题(包括NP完全性问题):背包问题,最短路径问题,TSP问题,最大团问题,图同构问题等。二.梯度下降法 梯度法是求解无约束多源函数值的最早的数值方法,很多机器学习的常用算法都是以它作为算法翻译 2016-12-06 20:24:02 · 1637 阅读 · 0 评论 -
机器学习 推荐系统
一.推荐系统的总体架构1.1选取用户偏好二.开源的推荐系统2.1协同过滤及其算法(1)数据预处理与UI矩阵:分组为"查看"和"购买",对数据进行一定的预处理,减噪和归一化(2)推荐模型:User CF和Item CF:基于物品的协同过滤(Amason,Netfix,Hulu,YouTube等采用)这里使用kNN近邻算法。(1)User CF# -*- c翻译 2016-12-05 22:31:43 · 3050 阅读 · 0 评论 -
神经网络初探
一.BP神经网络:曾经的最著名、最经典的非线性学习算法 (1)BP神经网络基本结构 (2)传递激活函数 (3)训练过程 a.正向传播过程 b.计算期望与实际分类的误差 c.计算反向传播过程 d.修正各层的权值 (4)代码实现# -*- coding: UTF-8 -翻译 2016-12-11 22:31:04 · 830 阅读 · 1 评论