
Machine_learning
文章平均质量分 84
Roaring Kitty
供应链算法专家,量化交易爱好者,You Only Live Once!,技术交流:AllenYZXL
展开
-
无人驾驶之车辆检测与跟踪
整个项目源码:GitHub引言本次分享主要介绍,如何对道路上的汽车进行识别与跟踪。这里我们实现一个简单的demo。后续我们还会对前面的代码及功能进行重构,从而进一步丰富我们的功能。项目软件框架下图是车辆检测的实现流程图: 具体内容如下: 在有标签的训练数据集上进行Histogram of Oriented Gradients(HOG)特征提取 Nor...原创 2018-05-30 14:52:43 · 3615 阅读 · 18 评论 -
Word2vec之情感语义分析实战(part3)--利用分布式词向量完成监督学习任务
引言这篇博客将基于前面一篇博客Part2做进一步的探索与实战。 demo代码与数据:传送门单词的数值化表示前面我们训练了单词的语义理解模型。如果我们深入研究就会发现,Part2中训练好的模型是由词汇表中单词的特征向量所组成的。这些特征向量存储在叫做syn0的numpy数组中:# Load the model that we created in Part 2from gensim.models原创 2017-12-16 18:37:43 · 6757 阅读 · 0 评论 -
Word2vec之情感语义分析实战(part2)
引言这一部分的内容主要是衔接前面分享的一篇文章:Word2vec之情感语义分析实战(part1)做进一步深入探讨。在本次文章中,我们将把重心放在使用Word2Vec算法创建的词向量表达上去。Word2vec是由谷歌在2013年发布的,是一种学习分布式语言表示的神经网络实现。在此之前,已经提出了其他深度或递归的神经网络体系结构来学习单词表示,但是这些模型的主要问题是需要很长时间来训练模型。与其他模型相原创 2017-12-15 00:13:44 · 7247 阅读 · 0 评论 -
FP-growth算法
demo 代码:传送门引言上次分享Apriori算法时,我们有提到Apriori算法在每次增加频繁项集的大小时,会重新扫描整个数据集。当数据集很大时,这会显著降低频繁项集发现的速度。而本次分享的FP-growth(frequent patten)算法就能高效地发现频繁项集。 那么在现实生活中,是否存在应用FP-growth算法的产品呢?答案是存在的,如下图所示: 上图中,我们在Google搜原创 2017-11-08 21:09:50 · 1591 阅读 · 0 评论 -
关联分析之Apriori算法
本文demo源码、实验数据:传送门引言如题,关联分析这个词语对于初学者而言或许比较陌生。但是我若将关联分析换成另一个短语“尿布与啤酒”大家就会很熟悉了。据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。这样商店实际上可以将尿布和啤酒放在一块,并确保在周四的销售中获利。“尿布与啤酒”是关联分析中最著名的例子。那么关联分析的定义也就呼之欲出了:从大规模数据集中寻找物品间的隐含关系被称作关原创 2017-11-08 14:03:41 · 7132 阅读 · 9 评论 -
Word2vec之情感语义分析实战(part1)
引言前面我分享了三篇文章,其中一篇:Word2vec使用手册主要专注于工具包gensim的讲解;另外两篇文章:轻松理解skip-gram模型、轻松理解CBOW模型。主要专注于Google出的关于Word2vec的两篇论文中两个模型的理论讲解。而接下来的这篇文章,我将系统地讲解如何在IMDB电影评论数据集上应用word2vec进行情感分析。代码与数据集:传送门NLPNLP(Natural Langua原创 2017-12-07 17:20:54 · 12185 阅读 · 1 评论 -
轻松理解skip-gram模型
引言在许多自然语言处理任务中,许多单词表达是由他们的tf-idf分数决定的。即使这些分数告诉我们一个单词在一个文本中的相对重要性,但是他们并没有告诉我们单词的语义。Word2vec是一类神经网络模型——在给定无标签的语料库的情况下,为语料库中的单词产生一个能表达语义的向量。这些向量通常是有用的: 通过词向量来计算两个单词的语义相似性 对某些监督型NLP任务如文本分类,语义分析构造特征原创 2017-12-05 16:01:00 · 90173 阅读 · 21 评论 -
轻松理解CBOW模型
引言前面我分析了Word2vec的一种模型叫做skip-gram模型。在这篇文章中,我将讲述另一个word2vec模型——连续词袋模型(CBOW)模型。如果你理解skip-gram模型,那么接下来的CBOW模型就更好理解了,因为两者模型互为镜像。我们先来看看CBOW模型与skip-gram模型对比图: 如何,这是不是镜像关系?所以接下来的讲解也会和skip-gram那篇文章极其类似。前向传播接原创 2017-12-05 20:59:53 · 79801 阅读 · 31 评论 -
CART分类回归树分析与python实现
引言前面我们分享过一篇决策树算法叫ID3:ID3决策树原理分析及python实现。首先我们来回顾下ID3算法。ID3每次选取最佳特征来分割数据,这个最佳特征的判断原则是通过信息增益来实现的。这种按某种特征切分完数据集后,当前特征在下次切分数据集时就不再起作用,因此会存在切分方式过于迅速地问题。ID3算法还存在另一个问题就是它不能直接处理连续型特征,因此算法需要改进。于是有人提出了二元切分法很好的解决原创 2017-11-01 16:27:16 · 8185 阅读 · 0 评论 -
Lightgbm-GPU运行出错(2017.11)boost::filesystem::create_directory...Abort (core dumped)
问题描述在编译lightgbm GPU版本时并没有出错,但是在运行demo时发生了错误,错误如下: 解决方法后来发现,源文件目录:src/treelearner/gpu_tree_learner.h的第26行代码:#define BOOST_COMPUTE_USE_OFFLINE_CACHE如果包含这个这个宏 BOOST_COMPUTE_USE_OFFLINE_CACHE,就会导致要寻找缓存目录,原创 2017-11-24 10:23:56 · 3871 阅读 · 0 评论 -
Word2vec使用手册
引言Google开源的Word2vec是自然语言处理领域里面,比较好用的工具。这篇博客主要就是介绍如何在一些开源工具中使用这套工具。官方网址:传送门安装Gensim开发了一套工具箱叫做gensim,里面继承了Word2vec方法。 因此安装方法就是:pip install --upgrade gensimNote:依赖环境 Python >= 2.6 NumPy >= 1.3 Sc原创 2017-12-04 14:24:06 · 16913 阅读 · 14 评论 -
无人驾驶避障方法研究
引言老师和学生的关系是建立在一份错觉上。老师错以为自己可以教学生什么,而学生错以为能从老师那里学到什么。重要的是,维持这份错觉对双方而言都是件幸福的事。因为看清了真相,反而一点好处都没有。我们在做的事,不过是教育的扮家家酒而已。——东野奎吾 《恶意》无人驾驶避障综述嗯,很惨,距离上次做 国内外无人驾驶技术相关调研没多久,就来做无人驾驶避障调研。为什么调研我要发博客呢,因为在我看来调研的结果给实验室看原创 2017-12-02 17:32:58 · 21529 阅读 · 8 评论 -
国内外无人驾驶技术相关调研
引言最近在做无人驾驶相关的调研,主要调研目前主流无人驾驶公司的数据来源,软件平台,硬件平台相关的内容,现整理如下,权当做个笔记~ 接下来我将以Waymo公司的无人驾驶技术来详细讲讲这里面的一些细节。Waymowaymo理所当然是目前全球领域最顶尖的无人驾驶技术公司了,依托于Google这个庞大的技术平台(16年末从Alphabet拆分出去)。很可惜waymo人家不开源,因此我们只能从他们的官网以及原创 2017-11-27 15:32:46 · 6312 阅读 · 3 评论 -
K-means聚类算法原理分析与实际应用案例分析(案例分析另起一篇博客)
引言在数据分析中,我们常常想将看上去相似或者行为形似的数据聚合在一起。例如,对一个营销组织来说,将不同客户根据他们的特点进行分组,从而有针对性地定制营销活动,这很重要。又比如,对学校老师来说,将学生分组同样能够有所侧重的进行教育活动。分类与聚类是数据挖掘领域两大基础方法,分类被用于监督学习中而聚类算法属于无监督的。聚类算法主要是将相似的数据聚合在一起形成不同的组别,但是组与组之间相差很大。 在本次原创 2017-11-02 16:05:28 · 10024 阅读 · 0 评论 -
K-means聚类算法原理分析与实际应用案例分析(案例分析另起一篇博客)
引言在数据分析中,我们常常想将看上去相似或者行为形似的数据聚合在一起。例如,对一个营销组织来说,将不同客户根据他们的特点进行分组,从而有针对性地定制营销活动,这很重要。又比如,对学校老师来说,将学生分组同样能够有所侧重的进行教育活动。分类与聚类是数据挖掘领域两大基础方法,分类被用于监督学习中而聚类算法属于无监督的。聚类算法主要是将相似的数据聚合在一起形成不同的组别,但是组与组之间相差很大。 在本次原创 2017-12-26 20:59:42 · 30822 阅读 · 3 评论 -
Jupyter Notebook远程登陆
引言最近买了台性能比较好的主机,准备在上面跑跑算法之类的,本来想做个利用tensorflow实现word2vec的demo,但是我一直在笔记本上办公,笔记本上有没有安装tensorflow环境,于是我配置了主机jupyter notebook环境,从而实现了远程访问jupyter-notebook并编码的功能。现总结如下登陆远程服务器这里我设置了SSH登陆生成配置文件$原创 2018-01-04 18:51:04 · 1756 阅读 · 1 评论 -
简单交通灯识别Traffic-Light-Classify
整个项目源码:GitHub引言前面我们讲完交通标志的识别,现在我们开始尝试来实现交通信号灯的识别 接下来我们将按照自己的思路来实现并完善整个Project. 在这个项目中,我们使用HSV色彩空间来识别交通灯,可以改善及提高的地方: 可以采用Faster-RCNN或SSD来实现交通灯的识别 首先我们第一步是导入数据,并在RGB及HSV色彩空间可视化部分数据。...原创 2018-05-15 16:18:40 · 10495 阅读 · 4 评论 -
traffic-sign-classifier
本篇博客tensorflow1.7,整个项目源码:github引言本次博客将分享Udacity无人驾驶纳米学位的另一个项目,交通标志的识别。 本次项目实现主要采用CNN卷积神经网络,具体的网络结构参考Lecun提出的LeNet结构。参考文献:Lecun Paper项目流程图本项目的实现流程如下所示: 代码实现及解释接下来我们就按照项目流程图来逐块实现#imp...原创 2018-05-14 10:48:06 · 5794 阅读 · 0 评论 -
无人驾驶之Behaviroal-Cloning实现
引言本篇博客采用了Keras2.1.5,tensorflow1.7,整个项目源码:github 本次博客主要分享Udacity自动驾驶纳米学位的第三个项目,转角预测模型的实现。 该项目的任务是在给定道路图像的前提下,实现一个深度神经网络模型来预测汽车的转角。Udacity开源了一个模拟器。该模拟器有两种模式:训练模式和自动驾驶模式。 在训练模式中,我们将车开到轨道上,并保存帧(.jpg文...原创 2018-04-21 15:21:20 · 2404 阅读 · 6 评论 -
车道线检测之lanelines-detection
本篇博客整个项目源码:github NOTE:本文只介绍了基本的车道线检测方法,预测曲率及车辆位置的车道线检测请戳:无人驾驶之高级车道线检测-AdvanceLane_finding_release前言本次博客主要分享Udacity自动驾驶纳米学位的第一个项目,车道线检测算法模型的实现。 本项目主要实现以下几个功能: 在一张图片上检测出车道线,并将其标记成红色 在一段...原创 2018-04-23 23:05:06 · 7939 阅读 · 8 评论 -
无人驾驶之高级车道线检测-AdvanceLane_finding_release
本篇博客整个项目源码:github引言前面我们介绍车道线检测的处理方法:车道线检测之lanelines-detection 在文章末尾,我们分析了该算法的鲁棒性,当时我们提出了一些解决方法,比如说: 角度滤波器:滤除极小锐角或极大钝角的线段 选取黄色的色调,并用白色代替 在边缘检测前,放大一些特征 但是上述算法还存在一个问题:在弯道处无法检测车道线,因...原创 2018-05-01 09:24:27 · 3939 阅读 · 8 评论 -
EB-Boost :智慧景区共享单车中长期投放量精准预测方法
EB-Boost :智慧景区共享单车中长期投放量精准预测方法ABSTRACT目前,共享单车已成为景区交通的重要组成部分。共享单车改变了过去景区交通产品和供给主体单一的问题,增加了游客出行消费选择。共享单车在给游客出行带来便利的同时,也对景区交通环境秩序管理造成一定影响。当前,共享单车进入门槛低,各个经营主体为抢占景区市场份额,毫无计划地摆放共享单车。这种行为占用了景区本已有限的空间...原创 2018-04-13 11:22:52 · 628 阅读 · 0 评论 -
Facebook时序预测工具Prophet实战分析
引言去年Facebook开源了一套时序预测工具叫做Prophet。Prophet是一个预测时间序列数 据的模型。 它基于一个自加性模型,用来拟合年、周、季节以及假期等非线性趋势。 它在至少有一年历史数据的日常周期性数据,效果最好。 Prophet对缺失值,趋势的转变和大量的异常值是有极强的鲁棒性。Prophet中文翻译是:“先知”。名字还是挺贴切的。在看完本篇文章后,你将会知道:原创 2018-01-31 19:10:00 · 21720 阅读 · 2 评论 -
全自动机器学习神器:H2OAutoML
引言做机器学习的老铁们在平时训练模型时,对交叉验证、模型集成想必是绞尽了脑汁。现在我将给各位介绍一个神器。叫做H2O。在读了这篇文章后,你将会: 了解H2O是什么,在哪些地方大放异彩 H2O的安装与初步使用 迫不及待地去安装使用(哈哈哈) H2O概述H2O是一个开源的、内存、分布式、快速和可扩展的机器学习和预测分析平台,允许诸位在大数据上构建机器学习模型,并原创 2018-02-01 10:35:32 · 13644 阅读 · 3 评论 -
基于改进的K-means算法在共享交通行业客户细分中的应用
对应实现代码:传送门(实现代码专注于方案的实现,k-means算法的改进并没有在代码云中体现,为方便实现直接采用sklearn标准库算法)摘要:信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。面对共享单车行业激烈的市场竞争,各个共享交通公司都...原创 2018-05-30 19:32:23 · 3316 阅读 · 12 评论 -
基于改进的K-means算法在共享交通行业客户细分中的应用
对应代码:传送门(代码只专注于方案的实现,k-means算法的改进并不包括在代码云中,读者感兴趣可以自己实现~)摘 要:信息时代的来临使得企业营销焦点从产品中心转变为客户中心,客户关系管理成为企业的核心问题。准确的客户分类结果是企业优化营销资源分配的重要依据,客户分类越来越成为客户关系管理中亟待解决的关键问题之一。面对共享单车行业激烈的市场竞争,各个共享交通公司都推出了更优惠的营销方式来吸引更原创 2017-10-06 14:59:51 · 239 阅读 · 0 评论 -
智能网联汽车计算平台关键算法综述
摘要本文以日本无人驾驶开源软件Autoware为参考,汇总分析了无人驾驶所涉及的基本算法,最后给出了在一些典型数据集上测试的效果。介绍本文将自动驾驶算法部分分成以下三个部分:场景识别、路径规划及车辆控制。每一类别都是由多种算法组成的。例如场景识别需要定位,物体检测及追踪算法。路径规划通常由任务、运动规划组成,车辆控制则对应路径跟随。下图1,显示了算法基本的控制及数据流。接下来本文将按照原创 2018-01-10 18:54:11 · 2280 阅读 · 0 评论 -
Word2Vec总结
最近一段时间,我写了好几篇关于Word2vec的文章,从理论部分到具体实践,现总结如下:理论部分轻松理解skip-gram模型 轻松理解CBOW模型 上述两篇博文从理论角度,讲述了Word2Vec两大模型实践部分Word2vec使用手册 这一篇文章主要从工具箱的角度,讲述如何使用现成的API来直接使用Word2VecWord2vec之情感语义分析实战(part原创 2017-12-16 19:37:43 · 2555 阅读 · 1 评论 -
支持向量机(SVM)的分析及python实现
本文所有代码都是基于python3.6的,数据及源码下载:传送门引言今天我们算是要来分享一个“高级”的机器学习算法了——SVM。大家自学机器学习一般都会看斯坦福的CS229讲义,初学者们大都从回归开始步入机器学习的大门。诚然回归学习起来与使用起来都很简单,但是这能达到我们的目的么?肯定不够的,要知道,我们可以做的不仅仅是回归。如果我们把机器学习算法看作是一种带斧子,剑,刀,弓,匕首等的武器,你有各种原创 2017-10-29 09:52:58 · 149667 阅读 · 33 评论 -
Xgboost与Lightgbm参数对比
最近在使用Xgboost与Lightgbm模型来训练数据,众所周知,lightgbm是2016年末微软开源的工具,具体相关信息可以参考一下链接:Lightgbm: https://github.com/Microsoft/LightGBMXgboost:https://github.com/dmlc/xgboost两大神器的优缺点,咱们就不讨论了,微软官方给了一些example对比原创 2017-07-19 14:34:30 · 7192 阅读 · 0 评论 -
Xgboost参数调优的完整指南及实战
引言Xgboost是一种高度复杂的算法可以处理各种各样的数据。相信每个用过Xgboost的人都有过这样的感受:利用Xgboost构建模型十分简单,但是用Xgboost来调参提升模型就很难了。该算法使用多个参数。为了改进模型,必须对参数进行优化。但是我们很难找到实际问题的答案——你应该调整哪些参数?这些参数的理想值是什么?以前我写过一篇Xgboost与lightgbm参数对比的文章,但是感觉应该把Xg原创 2017-11-14 17:09:34 · 64364 阅读 · 12 评论 -
机器学习相关概念及简单介绍
本次分享会的主要内容如下:什么是机器学习日常生活中如何用到机器学习以及机器学习如何改进我们的工作和生活使用机器学习解决问题的一般方法什么是机器学习接下来,正式分享,首先问下大家,什么叫机器学习?官方定义:[Mitchell,1997]给出了一个更形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和原创 2017-09-17 13:11:55 · 663 阅读 · 0 评论 -
Holt-Winters模型原理分析及代码实现(python)
引言最近实验室老师让我去预测景区内代步车辆的投放量,于是乎,本着“一心一意地输出年富力强的劳动力”这份初心,我就屁颠屁颠地去找资料,然后发现了Holt-Winters模型 , 感觉这个模型可以有,于是就去研究一番,并总结成这篇博客了。原理分析移动平均(The simple moving average (SMA))直观上,最简单的平滑时间序列的方法是实现一个无权重的移动平均,目前已知的方法是用窗口函原创 2017-09-21 13:54:15 · 65576 阅读 · 32 评论 -
superset之安装与部署(Ubuntu16.10)
引言Superset 是Airbnb的数据科学部门开源的一套工具,它是一个自助式数据分析工具,它的主要目标是简化我们的数据探索分析操作,它的强大之处在于整个过程一气呵成,几乎不用片刻的等待。Superset通过让用户创建并且分享仪表盘的方式为数据分析人员提供一个快速的数据可视化功能。现在,我们就来安装部署下这个工具,看看到底好不好玩。安装下载地址superset的源码可以在github上找到。pip原创 2017-09-27 10:10:59 · 4048 阅读 · 5 评论 -
CS229 Lecture Note 1(监督学习、线性回归)
CS229 Lecture Note 1(监督学习、线性回归)翻译 2017-07-31 17:38:16 · 2323 阅读 · 0 评论 -
利用AdaBoost元算法提高分类性能
本节内容组合相似的分类器来提高分类性能应用AdaBoost算法处理非均衡分类问题元算法(meta-algorithm)是对其他算法进行组合的一种方式。其中AdaBoost是最流行的元算法之一。本节首先讨论不同分类器的集成方法,主要关注boosting方法及其代表分类器Adaboost。接着建立一个单层决策树分类器,并将AdaBoost算法应用在上述单层决策树分类器上。本文将在一个难原创 2017-08-07 18:25:05 · 1372 阅读 · 0 评论 -
非均衡分类问题
前言在我们研究非均衡分类这个问题前,我们先来讨论下一个问题。众所周知,在我们一开始学习诸多分类算法(如k-近邻算法,决策树,朴素贝叶斯,logistic,支持向量机,AdaBoost)时,我们一般都假设所有类别的分类代价是一样的,坦白说,在大多数情况下,不同类别的分类代价并不相等。其他分类性能度量指标:正确率、召回率及ROC曲线在我们应用前言中提到的那些分类算法时,都是基于错误率来衡量原创 2017-08-07 20:56:08 · 1351 阅读 · 0 评论 -
CS229 Part2 分类与逻辑回归
分类与逻辑回归,牛顿法,海塞矩阵翻译 2017-08-27 15:59:14 · 749 阅读 · 0 评论 -
预测数值型数据:回归
本文首先介绍线性回归(具体概念解释可以参考CS229,吴恩达讲义的译文:传送门),包括其名称的由来和python实现。在这之后引入了局部平滑技术,分析如何更好地你和数据。接下来,本文将探讨回归在"欠拟合"情况下的shrinkage技术,探讨偏差和方差的概念。原创 2017-08-29 17:02:01 · 11574 阅读 · 0 评论 -
CS229part3广义线性模型
广义线性模型到目前为止,我们已经看到一个回归示例和一个分类示例。在回归示例中。在本节中,我们将展示这两种方法都是一个更广泛的模型的特例,称为广义线性模型GLMs。我们还将展示GLM家族中的其他模型如何派生和应用其他分类和回归问题。翻译 2017-08-30 17:14:04 · 726 阅读 · 0 评论