
机器学习
冰阔落
Stay hungry, Stay foolish, Stop when you are perfect.
展开
-
机器学习常用评估指标的前世今生
在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict和y_true之间的某种“距离”得出的。 性能指标往往使我们做模型时的最终目标,如准确率,召回率,敏感度等等,但是性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-entropy,rmse等“距离”可微函数作为优化目标,以期待在loss函数降低的时候,能够提高性能指...转载 2018-12-13 11:30:02 · 1068 阅读 · 0 评论 -
某SLG游戏公测期用户与付费分析
这次主要对某SLG游戏的用户及付费进行分析。数据来源为游戏玩家付费金额预测大赛-竞赛信息-DC竞赛一.理解数据下图为数据的部分截图:图1主要关键字有:用户ID, 注册时间, 付费金额,要塞(玩家主基地)等级,付费金额等。将数据导入到Data Frame中:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%...转载 2018-12-26 14:39:33 · 5256 阅读 · 1 评论 -
用户增长分析——用户分群分析
导语在产品的增长分析当中,想关注符合某些条件的一部分用户,不仅想知道这些人的整体行为(访问次数,访问时长等),还希望知道其中差异较大的细分群体。用户分群方法,能帮助我们对差异较大的群体分别进行深入分析,从而探究指标数字背后的原因,探索实现用户增长的途径。一、用户分群的应用场景在日常的数据工作中,我们经常接到这样的需求:想关注符合某些条件的一部分用户,不仅想知道这些人的整体行为(访问次数,访...转载 2019-07-16 10:19:18 · 10913 阅读 · 0 评论 -
腾讯QQ大数据:一种海量社交短文本的热点话题发现方法
随着社交网络的发展和积累,内容的产生、传播、消费等已经根深蒂固地融入在人们的生活里。随之内容分析的工作也就走进了人们的视野。近年来,各种公众趋势分析类产品涌现,各大公司都利用自身资源纷纷抢占一席之地。公众趋势分析平台利用自然语言处理、机器学习方法对数据进行分析,给用户提供舆情分析、竞品分析、数据营销、品牌形象建立等帮助。其中,热点发现问题是公众趋势分析中不可或缺的一部分。热点发现通过对海量数据...转载 2019-07-16 12:00:51 · 678 阅读 · 0 评论 -
腾讯QQ大数据:从用户行为去理解内容-item2vec及其应用
导语在内容推荐系统里,一个常用的方法是通过理解内容(挖掘内容属性)去挖掘用户的兴趣点来构建推荐模型。从大多数业务的效果来看,这样的模型是有效的,也就是说用户行为与内容是相关的。不过有一点常被忽略的是:相关性是对称的!这意味着如果可以从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。相关性是对称的在内容推荐系统里,一个常用的方法是通过理解内容(挖掘...转载 2019-07-16 17:56:37 · 686 阅读 · 0 评论 -
腾讯QQ大数据:相关推荐之反浩克装甲
写在前面本文介绍了神盾推荐系统中基于热传导模型的相关推荐模块. 神盾推荐系统是 SNG 数据中心立身 QQ 大数据构建的通用化推荐平台. 服务于应用宝, 手Q手游推荐, 企鹅 FM 等多个应用场景, 为业务方提升收入, 提高用户体验做出巨大贡献.代号说明神盾的基于热传导模型的相关推荐模块的代号是 “反浩克装甲” (Hulk Buster), 来源于”复仇者联盟2” 中钢铁侠开发用来对抗...转载 2019-07-16 18:09:24 · 777 阅读 · 0 评论 -
如何用3个月零基础入门机器学习?
来源 | 微调的知乎专栏▌0. 背景写这篇文章的初衷是大部分私信我的朋友都想了解如何入门/转行机器学习,搭上人工智能这列二十一世纪的快车。再加上这个问题每隔一阵子就会在知乎时间线上出现一次,因此想写一篇文章来“一劳永逸”的分享我的观点。文章的宗旨是:1. 指出一些自学的误区 2. 不过多的推荐资料 3. 提供客观可行的学习表 4. 给出进阶学习的建议。这篇文章的目标读者是计划零基础自...转载 2019-07-24 11:30:46 · 302 阅读 · 0 评论 -
腾讯QQ大数据:机器学习建模问题中的特征构造方法
导语在机器学习建模问题中,合适特征的构造对于模型的性能至关重要,看到很多同学介绍特征工程,包括特征的预处理和特征筛选等,这些非常重要,但是特征预处理和特征筛选的前提是要有基础特征,而这些特征从哪里来,又如何构造?现在总结一下在推荐系统中比较通用的特征构造方法。场景分析:推荐场景一般可以抽象为:内容(Item)和受众(User),其中内容主要是指要推荐的Item,在购物场景中Item就是商...转载 2019-07-17 14:01:09 · 493 阅读 · 0 评论 -
小白理解的机器学习
机器学习给大多数人的感觉就是3个字:”高大上”。我看到的大多数关于机器学习的博客,读起来要么是说了等于没说(太笼统),要么是逼格极高(太细节),始终没有找到高屋建瓴,直击本质的好文章(我个人特别喜欢追求问题本质,即渴望解决20%的核心问题 or 疑惑)。不过在好奇心的驱动下,我还是找到了做机器学习的同事,以推荐系统为例把我的疑惑问了个遍,答案让我豁然开朗。在同事推荐下,快速扫完了一本推...转载 2019-09-06 15:39:10 · 338 阅读 · 0 评论 -
使用R包networkD3绘制炫酷的动态关系网络
引言在数据可视化领域,关系网络数据的可视化一直是一个受到广泛关注的话题。我们经常会看到这样的复杂网络关系图。 也会经常看到一些影视作品的人物关系图,例如: 我们可以从图中清晰地了解到不同人物之间的关系,但是这样静态的图片无法满足我们的一些深层次需求,比如:如何快速找到一个人物(节点)?能否单击某个节点,只显示该节点及其相邻节点?能否点击一个节点弹出该节点...原创 2018-11-22 11:52:01 · 13976 阅读 · 7 评论 -
使用 Spark MLlib 做 K-means 聚类分析
引言提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是一项复杂的工作,需要充足的知识储备,如概率论,数理统计,数值逼近,最优化理论等。机器学习旨在使计算机具有人类一样的学习能力和模仿能力,这也是实现人工智能的核心思想和方法。传统的机器学习算法,由于技术和单机存储的限制,只能在少量数据上使用,随着 HDFS...转载 2018-11-15 09:36:18 · 1049 阅读 · 0 评论 -
下载和安装R、RStudio !~~~
现如今,R语言是统计领域广泛使用的工具,是属于GNU系统的一个自由、免费、源代码开放的软件,是用于统计计算和统计绘图的优秀工具。而RStudio是R的集成开发环境,用它进行R编程的学习和实践会更加轻松和方便。下面就教大家如何下载并安装R和RStudio,比较简单。R的维护工作由一个国际化的开发者团队负责。R软件的官方下载页面叫...转载 2018-11-16 11:45:12 · 1975 阅读 · 0 评论 -
普通程序员如何入门深度学习?
摘要: 作为一名软件工程师,我们应该活到老学到老,时刻与不断发展的框架、标准和范式保持同步。同时,还要能活学活用,在工作中使用最合适的工具,以提高工作效率。随着机器学习在越来越多的应用程序中寻得了一席之地,越来越多的程序员加入AI领域,那么,入行AI领域需要哪些技能呢?人工智能到底有多火我相信大家之所以能来看这篇文章,也间接说明了人工智能这几年的火爆。自从基于深度学习技术的算法20转载 2017-11-20 20:21:16 · 450 阅读 · 0 评论 -
一文读懂深度学习与机器学习的差异
文章来源 | OSC如果你经常想让自己弄清楚机器学习和深度学习的区别,阅读该文章,我将用通俗易懂的语言为你介绍他们之间的差别。机器学习和深度学习变得越来越火。突然之间,不管是了解的还是不了解的,所有人都在谈论机器学习和深度学习。无论你是否主动关注过数据科学,你应该已经听说过这两个名词了。为了展示他们的火热程度,我在 Google转载 2017-11-20 20:47:07 · 553 阅读 · 0 评论 -
K-Means 算法的 10 个有趣用例
K-means算法具有悠久的历史,并且也是最常用的聚类算法之一。K-means算法实施起来非常简单,因此,它非常适用于机器学习新手爱好者。首先我们来回顾K-Means算法的起源,然后介绍其较为典型的应用场景。起源1967年,James MacQueen在他的论文《用于多变量观测分类和分析的一些方法》中首次提出 “K-means”这一术语。1957年,贝尔实验室也将标准算法用于脉冲编码调制技...转载 2018-04-11 20:03:43 · 1038 阅读 · 0 评论 -
人工智能之机器学习常见算法
摘要之前一直对机器学习很感兴趣,一直没时间去研究,今天刚好是周末,有时间去各大技术论坛看看,刚好看到一篇关于机器学习不错的文章,在这里就分享给大家了. 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类...转载 2018-05-04 14:16:35 · 391 阅读 · 0 评论 -
如何用机器学习来判定红楼梦后40回是否曹雪芹所写
前言今天在涉机器学习相关知识时,看到黎晨这篇文章,觉得蛮有意思的,拿来这里介绍大家.这里判定的维度越多越精准,下面判定仅供参考,仅供娱乐学习!判定整体思路主要从以下几个方面可以进行粗略进行判定:1.写作习惯 每个人写作都有一些与种不同的小习惯,这些小习惯并不会轻易就会发生改变;万分之一的例外情况不考虑!2.词频统计 就像每次领导人开会一样,媒体或政客们都会...转载 2018-05-04 14:35:36 · 720 阅读 · 0 评论 -
利用 KNN 算法进行验证码识别
文章:用KNN来进行验证码识别前言对那些及其简单的验证码,可以用KNN算法来破解,这里整理了一个思路,可以了解了解.那么KNN算法原理是什么呢?KNN原理 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的...转载 2018-05-04 14:37:25 · 1562 阅读 · 0 评论 -
十行Python代码搞定图片中的物体检测
“Word is useless, show me the pic” -MR Lu先看下原图: 图片表述的是一男一女在散步,后面有一辆车,现在来看下我们通过十行代码实现的效果: 我们可以看到,在这幅图中其实有三个“person”被识别出来,包括后面非常非常小的行人,还有一个“car”被识别出来,可以说模型能力基本达到了人眼的能力。现在就来介绍...转载 2018-07-16 09:58:45 · 907 阅读 · 0 评论 -
机器学习是统计学的新瓶装旧酒?
最近,社交媒体上疯传一张表情包(如下图)。随着深度学习的炒作开始消退,看到这张图的人将会心一笑。“机器学习真的没什么好让人兴奋的”或者“它只是对古老统计学的改进”这类情绪越来越普遍。但问题是,这不是真的。我知道,成为热情过度、沉迷于炒作的深度学习布道师可不是件时髦的事。那些2013年还把深度学习奉为神祗的机器学习专家,现在提到这个词时只是带着一丝懊恼,他们现在更倾向于对现代神经网...转载 2018-08-06 11:44:17 · 867 阅读 · 0 评论 -
Github 上有趣的项目,用机器学习训练 AI 下五子棋
谷歌旗下人工智能公司 DeepMind 发布了一篇新论文,它讲述了团队如何利用 AlphaGo 的机器学习系统,构建了新的项目 AlphaZero。AlphaZero 使用了名为「强化学习」(reinforcement learning)的 AI 技术,它只使用了基本规则,没有人的经验,从零开始训练,横扫了棋类游戏 AI。今天,我们就给大家介绍一个GitHub上的有趣项目——用机器学习训练AI下...转载 2018-08-06 11:47:30 · 5160 阅读 · 0 评论 -
如何利用 TensorFlow.js 实现简版的谷歌「猜画小哥」图像识别应用
本文创建了一个简单的工具来识别手绘图像,并且输出当前图像的名称。该应用无需安装任何额外的插件,可直接在浏览器上运行。作者使用谷歌 Colab 来训练模型,并使用 TensorFlow.js 将它部署到浏览器上。代码和 demodemo 地址:https://zaidalyafeai.github.io/sketcher/代码地址:https://github.com/za...转载 2018-08-06 14:38:01 · 1185 阅读 · 0 评论 -
数据特征的标准化和归一化你了解多少?
一、标准化/归一化定义归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解。为了方便后续的讨论,必须先明确二者的定义。归一化就是将训练集中某一列数值特征(假设是第i列)的值缩放到0和1之间。方法如下所示: 标准化就是将训练集中某一列数值特征(假设是第i列)的值缩放成均值为0,方差为1的状态。如下所示: 进一步明确二者含义归一化和标准化...转载 2018-11-13 20:49:31 · 2413 阅读 · 1 评论 -
研究人脸识别技术必须知道的十个基本概念
实验室研究人脸技术多年,不仅在技术方面有很好的积累,而且在公司内外的业务中有众多应用。在与产品、商务、工程开发同事交流过程中发现:不管是“从图中找到人脸的位置”,或是“识别出这个人脸对应的身份”,亦或是其他,大家都会把这些不同的人脸技术统称为“人脸识别技术”。因此,整理了一些常见人脸技术的基本概念,主要用于帮助非基础研究同事对人脸相关技术有一个更深入的了解,方便后续的交流与合作。转载 2017-08-22 14:52:10 · 22749 阅读 · 1 评论