
算法实现
文章平均质量分 87
ljtyxl
大数据,智能算法研究,包括机器学习,深度学习,强化学习nlp等在推荐领域的应用和智能算法研究,比赛之类的合作联系qq:1329331182,wx:ljt1761
展开
-
深度神经网络为何很难训练
假设你是一名工程师,接到一项从头开始设计计算机的任务。某天,你在工作室工作,设计逻辑电路,构建AND门,OR门等等时,老板带着坏消息进来:客户刚刚添加了一个奇特的设计需求:整个计算机的线路的深度必须只有两层:你惊呆了,跟老板说道:“这货疯掉了吧!”老板说:“他们确实疯了,但是客户的需求比天大,我们要满足它。”实际上,在某种程度上看,他们的客户并没有太疯狂。假设你可以...转载 2019-02-20 21:13:22 · 748 阅读 · 0 评论 -
深度学习
在上一章,我们学习了深度神经网络通常比浅层神经网络更加难以训练。我们有理由相信,若是可以训练深度网络,则能够获得比浅层网络更加强大的能力,但是现实很残酷。从上一章我们可以看到很多不利的消息,但是这些困难不能阻止我们使用深度神经网络。本章,我们将给出可以用来训练深度神经网络的技术,并在实战中应用它们。同样我们也会从更加广阔的视角来看神经网络,简要地回顾近期有关深度神经网络在图像识别、语音识别和其他应...转载 2019-02-20 21:14:29 · 525 阅读 · 0 评论 -
模拟退火算法- 最短路径问题
模拟退火算法并不是一个独立的算法,他只是算法的框架,它可以和任意的数值算法绑定在一起,比如说和梯度下降发、蚁群和爬山法绑定到一起。 退火算法思想现在有函数曲线如上图,X(n)是横坐标的值,当前的代价值是E(n)。下一个点是X(n+1),对应的能力是E(n+1)。这时候X(n)前进到X(n+1),这时候能量下降了( E(n+1) < E(n) ),这个前进肯定要做,但是...翻译 2019-02-21 11:44:21 · 8295 阅读 · 1 评论 -
pso-svm 算法实现(1):python DEAP
粒子群优化算法(Particle Swarm Optimization,PSO)属于进化算法的一种,是通过模拟鸟群捕食行为设计的。从随机解出发,通过迭代寻找最优解,通过适应度来评价解的品质。设想这样一个场景:一群鸟在随机搜索食物。在这个区域里只有一块食物。所有的鸟都不知道食物在那里。但是他们知道当前的位置离食物还有多远。那么找到食物的最优策略是什么呢。最简单有效的就是搜寻目前离食物最近的鸟的周围...转载 2019-02-26 21:58:43 · 12470 阅读 · 0 评论 -
sklearn机器学习之特征工程
特征工程是什么数据探索性分析Exploratory Data AnalysisEDA数据预处理无量纲化 数据规范化标准化 0均值标准化Z-score standardization区间缩放法线性函数归一化Min-Max scaling标准化与归一化的区别 标准化规范化与归一化的区别对定量特征二值化对定性特征哑编码缺失值计算数据变换回顾特征选择Fi...原创 2019-03-03 19:15:10 · 3298 阅读 · 2 评论 -
阿里妈妈首次公开自研CTR预估核心算法MLR
阿里妈妈算法团队阿里技术2017-06-15一、 技术背景CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。点击率预估(Click-Through Rate Prediction)是互联网主流应用(广告、推荐、搜索等)的核心算法问题,...转载 2019-03-04 14:17:19 · 398 阅读 · 0 评论 -
使用GBDT选取特征
为什麽选取特征有些特征意义不大,删除后不影响效果,甚至可能提升效果。关于GBDT(Gradient Boosting Decision Tree)可以参考:GBDT(MART)概念简介GBDT(MART) 迭代决策树入门教程 | 简介机器学习中的算法(1)-决策树模型组合之随机森林与GBDT如何在numpy数组中选取若干列或者行?>>> impo...转载 2019-03-10 19:10:57 · 5795 阅读 · 0 评论 -
GBDT 特征提取(2)
1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文Practical Lessons from Predicting Clicks on Ads at Facebook。2. GBDT + LR 用在哪GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测...原创 2019-03-10 19:15:49 · 4048 阅读 · 0 评论 -
Locality-sensitive hashing
Locality-sensitive hashing(LSH)reduces the dimensionalityof high-dimensional data. LSHhashesinput items so that similar items map to the same “buckets” with high probability (the number of bucket...转载 2019-03-12 11:12:28 · 551 阅读 · 0 评论 -
nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
本文以QA形式对自然语言处理中的词向量进行总结:包含word2vec/glove/fastText/elmo/bert。目录一、文本表示和各词向量间的对比1、文本表示哪些方法?2、怎么从语言模型理解词向量?怎么理解分布式假设?3、传统的词向量有什么问题?怎么解决?各种词向量的特点是什么?4、word2vec和NNLM对比有什么区别?(word2vec vs NNLM)5、wor...转载 2019-03-13 09:58:17 · 8370 阅读 · 7 评论 -
TensorFlow读取自己数据集的几个小方法
1. mat -> ndarray数据处理经常用到matlab,matlab中数据保存格式常为.mat,因此首先提供一份从mat转到ndarray的代码.#读取.mat格式数据#.mat 中包含trainFeatures矩阵import tensorflow as tfimport osimport numpy as npimport scipy.io #for load m...原创 2019-03-18 09:35:59 · 4260 阅读 · 2 评论 -
神经网络与深度学习2
改进神经网络的学习方法(下)权重初始化创建了神经网络后,我们需要进行权重和偏差的初始化。到现在,我们一直是根据在第一章中介绍的那样进行初始化。提醒你一下,之前的方式就是根据独立的均值为0,标准差为1的高斯随机变量随机采样作为权重和偏差的初始值。这个方法工作的还不错,但是非常 ad hoc,所以我们需要寻找一些更好的方式来设置我们网络的初始化权重和偏差,这对于帮助网络学习速度的提升很有价...转载 2019-02-20 21:12:26 · 633 阅读 · 0 评论 -
神经网络与深度学习
使用神经网络识别手写数字人类视觉系统是世界上众多奇迹之一。看看下面的手写数字序列:大多数人毫不费力就能够认出这些数字为 504192. 这么容易反而让人觉着迷惑了。在人类的每个脑半球中,有着一个初级视觉皮层,常称为 V1,包含 1 亿 4 千万个神经元及数百亿条神经元间的连接。但是人类视觉不是就只有 V1,还包括整个视觉皮层——V2、V3、V4 和 V5——他们逐步地进行更加复杂的图像...转载 2019-02-20 21:10:23 · 21694 阅读 · 0 评论 -
一致性hash算法的应用研究学习
一致性哈希算法 在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用。 一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义: 1、平衡性(Balance):平衡性转载 2017-07-19 10:37:04 · 1249 阅读 · 0 评论 -
Python入门深度学习完整指南
Python入门深度学习完整指南 介绍深度学习目前已经成为了人工智能领域的突出话题。它在“计算机视觉”和游戏(AlphaGo)等领域的突出表现而闻名,甚至超越了人类的能力。近几年对深度学习的关注度也在不断上升,这里有一个调查结果可以参考。这里有一个 Google 的搜索趋势图:如果你对这个话题感兴趣,这里有一个很好的非技术性的介绍。如果你有兴趣了解最近的趋势,那么这里有一个很好的汇总。在这篇文章中转载 2017-10-09 16:12:16 · 577 阅读 · 0 评论 -
利用SVD(Singular Value Decomposition)简化数据
参考:http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 利用SVD(Singular Value Decomposition)简化数据 奇异值分解(Singular value decomposition)奇异值分解是线性代数中一种重要的矩阵分解,在信号处理、统计学等领域有重要应用。奇异转载 2017-10-22 15:58:47 · 1350 阅读 · 0 评论 -
overfitting怎么解决?
overfitting就是过拟合, 其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集, 对训练集外的数据却不work, 这称之为泛化(generalization)性能不好。泛化性能是训练的效果评价中的首要目标,没有良好的泛化,就等于南辕北辙, 一切...转载 2019-02-24 22:37:28 · 749 阅读 · 0 评论 -
ALS
采用MovieLens 100k数据集 http://files.grouplens.org/datasets/movielens/ml-100k.zip# -*- coding: utf-8 -*-# spark-submit movie_rec.pyfrom pyspark import SparkConf, SparkContextfrom pyspark.mllib.recom...转载 2019-02-24 22:53:03 · 226 阅读 · 0 评论 -
机器学习项目中使用统计学方法的十个例子
这将证明统计学知识对于成功解决预测建模问题至关重要。 问题架构 数据理解 数据清洗 数据选择 数据准备 模型评估 模型配置 模型选择 模型表达 模型预测 1. 问题架构也许预测模型问题中最困难的一点就是问题的架构。这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出...转载 2019-02-28 21:39:50 · 2276 阅读 · 0 评论 -
异常检测算法
异常检测算法 1 什么是异常值?在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为预测问题通产关注的是整体样本的性质,而异常点的生成机...转载 2019-02-25 18:06:05 · 5102 阅读 · 0 评论 -
(MLR)Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
Learning Piece-wise Linear Models from Large Scale Data for Ad Click PredictionKun Gai1, Xiaoqiang Zhu1, Han Li1, Kai Liu2†, Zhe Wang3†Alibaba Inc.jingshi.gk@taobao.com, {xiaoqiang.zxq, lihan.lh}...翻译 2019-03-05 15:37:03 · 2091 阅读 · 0 评论 -
pyspark 手写Apriori算法
其中白色部分是新增的Python进程,在Driver端,通过Py4j实现在Python中调用Java的方法,即将用户写的PySpark程序”映射”到JVM中,例如,用户在PySpark中实例化一个Python的SparkContext对象,最终会在JVM中实例化Scala的SparkContext对象;在Executor端,则不需要借助Py4j,因为Executor端运行的Task逻辑...原创 2019-03-05 15:27:52 · 1481 阅读 · 0 评论 -
先知平台算法原理简介
先知机器学习平台算法原理1. 统计学角度看待机器学习问题如何从数据中“学习”到尽可能正确的知识(模型),并将其用于新数据的预测是传统机器学习需要解决的核心问题。从统计的角度看,这个问题可以表述为,依据已有的样本数据,寻找模型参数(知识)的合理估计,使得这个估计在总体样本数据上期望损失最小。 对于传统的有监督的机器学习(supervised learning)形式化的表示就是:给定样本总体D...转载 2019-03-05 15:33:35 · 3852 阅读 · 0 评论 -
时频分析-傅里叶级数及傅里叶变换、STFT 、小波变换、Wigner-Ville 分布
傅里叶级数傅里叶生于1768年,死于1830年。傅里叶级数在数论、组合数学、信号处理、概率论、统计学、密码学、声学、光学等领域都有着广泛的应用.傅里叶级数的公式:1、把一个周期函数表示成三角级数: 首先,周期函数是客观世界中周期运动的数学表述,如物体挂在弹簧上作简谐振动、单摆振动、无线电电子振荡器的电子振荡等,大多可以表述为: f(x)=A sin(ωt+ψ) 这里t...原创 2019-07-17 20:50:37 · 10901 阅读 · 2 评论