
易明建模
润乾软件
创新技术 推动应用进步
润乾报表二十年
展开
-
如何利用历史数据预测罕见现象的发生
在《利用历史数据做商业预测的全过程》(以下简称前文) 一文中我们介绍了如何使用历史数据进行商业预测的过程。不同的商业需求,还会有些各自的特殊性。例如,在很多业务场景中,存在一种数据不平衡的现象,比如银行贷款违约,违约的人只是很小一部分人;保险欺诈,欺诈者也是个别现象;还有产品质量中不良品的比例、工业生产中非计划停车现象……。这些罕见现象的发生比率很低,但一旦发生就会产生较大的损失,所以要尽量能预测出来并避免。本文将介绍如何来预测这些罕见发生的现象。1. 准备历史数据数据准备的过程如前文所述,但是对于原创 2020-11-13 13:26:14 · 718 阅读 · 0 评论 -
如何利用历史数据提高营销成功率
我们在《利用历史数据做商业预测的全过程》(以下简称前文) 一文中介绍了如何使用历史数据进行商业预测的过程。不同的商业需求,还会有些各自的特殊性,本文将介绍如何使用预测技术来提升营销成功率。1. 准备历史数据在营销场景中,要预测的目标是客户的购买行为,需要搜集一些可能会影响购买行为的信息字段,比如客户的年龄、学历、工作、收入、家庭结构、生活习惯、购物偏好,以及产品的特点、促销力度等信息,收集到的相关信息越多,预测效果也会越好。另外,我们还可以根据业务特点,分地区、分客群进行预测,比如纽约的房价和中原创 2020-11-13 13:25:05 · 394 阅读 · 0 评论 -
利用历史数据做商业预测的全过程
使用历史数据进行商业预测,首先我们要知道什么东西是能够被预测的,举几个例子: 银行放贷款时,希望预测出当前贷款人是否可能违约? 保险公司希望预测出客户的理赔风险,从而更灵活的制定保费,高风险高收费,低风险低收费 银行有很多种金融产品,希望预测出哪些用户会购买哪些产品,更精准的进行销售活动 工业生产中,企业希望预测设备的运行状态,减少非计划停车 商场超市希望预测出产品的销量,可以精准备货,降低库存 互联网金融信贷业务,希望预测出借资金的流动情况,合理管理原创 2020-11-13 13:17:33 · 2903 阅读 · 0 评论 -
数据挖掘模型的衰减是什么意思?为什么要经常要重新建模?
数据挖掘模型建好后,我们通常会关注建模时的准确率查全率等指标,但是常常会忽略模型另一个重要指标:模型的衰减程度,也就是模型在实际应用中预测能力的变化(一般都会越用越差)。为什么会发生模型衰减呢?我们知道数据挖掘的本质是发现过去事物发生的历史规律然后对未来进行预测,因此模型能够准确预测的前提就是,要预测的未来必须是历史规律的延续。但是在几乎所有的商业场景中,市场是在不断变化的,数据也在不断变化的,也就是说历史规律也是在不断的变化。而用来训练模型的数据集通常是一个静态数据集,只能描述某一段历史时期的规律模式原创 2020-08-26 12:00:54 · 836 阅读 · 0 评论 -
深度学习是怎么回事?有什么用?
如今,提到人工智能,几乎无人不谈深度学习,似乎不用深度学习就不好意思谈人工智能。今天我们就用几分钟的时间来讲一下深度学习到底是什么,有什么用。首先深度学习并不等于人工智能,它只是一种算法,和普通的机器学习算法一样,是解决问题的一种方法。真要区分起来,人工智能、机器学习和深度学习,三者大概是下图这种关系。人工智能是一个很大的概念,机器学习是其中的一个子集,而深度学习又是机器学习的一个子集。其次,深度学习也不是什么新技术,深度学习的概念源于人工神经网络的研究,早在上世纪 40 年代,通用计算机问世之原创 2020-08-26 11:58:33 · 3460 阅读 · 0 评论 -
批量自动建模有什么意义?
目前,由于数据挖掘技术的门槛较高,实现起来复杂度较大,因此一般一个数据挖掘项目通常就是建立一个模型,这个模型要尽量有更广泛的应用范围。这样做其实会导致模型的适应能力下降,而多个模型适用效果就远远好于一个模型。在需求侧,业务场景是多种多样的,模型的需求量很大。就是一个业务场景也往往不是一个模型就能完全解决的,而是需要一系列的模型。例如在精准营销场景中,使用模型可以帮助我们快速的定位潜在目标客户,提高营销成功率。通常的做法是简单的建一个全国所有客户的模型,但是各地区的营销政策和消费特点可能不同,即使同一地区原创 2020-08-18 15:38:03 · 514 阅读 · 0 评论 -
业内的人工智能培训课有多大用?
随着人工智能技术的火热,各种 AI 培训也应运而生,翻阅各种社交网站和 APP,几乎每天都能刷到 Python、人工智能相关的文章,点进去很大一部分都是培训机构给自家 AI 课程打的广告。那么业内人工智能的培训课程靠谱吗,学了之后又有多大作用?目前市场上的 AI 课程众多,质量也是参差不齐,总体来讲大概有 3 种类型。一种是打着培训人工智能的幌子,实际上只教 Python 的课程,甚至有些机构竟然混淆视听,宣传掌握了 Python 就掌握了人工智能。这种类型的课程学了以后,虽然也能建出模型,但也只是原创 2020-08-06 16:03:33 · 278 阅读 · 0 评论 -
为什么我基于开源包建的模型效果不好?
机器学习发展到今天已经有众多优秀前辈给我们贡献了各种各种现成的开源包以最流行的 Scikit-learn 为例,提供了包括回归 (Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering) 等方法的开源包,使用者可以灵活的实现各种建模操作。但是也有人发现了,同样的开源包不同的人建出的模型效果是不一样的,甚至大相径庭。为什么大牛就能建出高质量模型,而我基于开源包建的模型效果总是不尽人意呢?主要原因有以下三点:首先是原创 2020-07-28 12:17:37 · 334 阅读 · 0 评论 -
建模高手与初学者的差别在哪里?需要什么样的人来建模?
我们知道,数据挖掘的基本流程包括:(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。其中第 4 步,数据预处理和建模是整个流程的核心部分,其他的步骤都是围绕的该步骤进行的。建模高手和初学者的差距也往往在这里,建出一个模型很容易,快速高效的建出一个好的模型却不容易。机器学习发展到今天已经有众多优秀前辈给我们贡献了各种各种现成的算法包,例如在 Scikit-learn 里就提供括回归 (Regression)、降维(Dimensionality Re原创 2020-07-20 14:51:29 · 280 阅读 · 0 评论 -
完成一个预测建模项目一般需要多长时间?
为了回答这个问题,我们先来了解一下建模的流程,通常一个完整的数据挖掘项目包含以下流程(1)业务理解、(2)数据理解、(3)数据准备、(4)数据预处理和建模、(5)模型评估、(6)模型部署应用。这个流程的操作性很强,也是业界公认标准。业务理解的主要工作有需求调研,了解商务背景;明确业务目标和成功的标准。数据理解和业务理解一般是同时进行的,主要内容包括确定建模所需要的数据,描述数据,探索数据,检验数据质量,明确数据挖掘目标和成功标准。这两个阶段的主要任务就是明确挖掘目标和建模数据,目标和数据都明确以后就原创 2020-07-14 10:45:26 · 1315 阅读 · 0 评论 -
制约数据挖掘业务的环节
各行各业都对数据挖掘表现出极大兴趣,也纷纷展开了应用尝试,但成功案例并不多,这是为什么呢?1. 数据质量差玩数据就像挖金矿。如果含金量高,那么挖掘难度就小,出金率就高,如果含金量低,那么就会难度大效果差。数据质量问题通常表现在三个方面。(1)数据量不足要教一个牙牙学语的小朋友什么是苹果,只需要指着苹果说“苹果”(可能需要重复这个过程几次)就行了,然后孩子就能识别各种颜色和形状的苹果了,简直是天才!然而,机器还没达到这一步,大部分机器学习算法需要大量数据才能正常工作。即使是最简单的问题,很原创 2020-07-13 11:00:54 · 225 阅读 · 0 评论 -
数据挖掘是什么?能解决什么问题?
数据挖掘其实是个“古老”的技术,已经有几十年历史了,近年来红火的人工智能又让这个古老技术有了更多关注。那么,到底什么是数据挖掘呢?它又能做什么事呢?傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,心里期待着享受这个好瓜。由路面微湿、微风、晚霞得出明天是个好天气。根蒂蜷缩、敲声浊响、色泽青绿推断出这是个好瓜,显然,我们是根据以往的经验来对未来或未知的事物做出预测。人可以根据经验对未来进行预测,那原创 2020-07-13 11:03:49 · 736 阅读 · 0 评论 -
数据挖掘建模需要什么样的数据?多大量?
数据挖掘通常需要结构化数据才能建模,而不是近些年来热闹的非结构化数据,预测建模仍然是结构化数据上的运算!所谓结构化数据,是指表现为二维形式的数据,一般特点是:数据以行(也称样本)为单位,一行数据表示一个实体的信息,每一行数据的属性(也称字段或列)是相同的。结构化数据可以来自于数据库,也可以来自于文本文件或 Excel。例如预测 titanic 幸存者数据见下图,就是一个结构化数据,数据的每一行表示一个乘客样本,每一列的属性都是相同的例如”Age”列都表示乘客的年龄,这样的数据是可以拿来建模的。原创 2020-07-13 11:06:14 · 1056 阅读 · 0 评论 -
做人工智能为什么经常要学 python?
当前,提到人工智能、数据科学几乎就一定会提到 Python,很多人工智能相关的课程实质上也都在大篇幅的讲 Python,有的初学者甚至认为人工智能和 Python 是划等号的,随着人工智能概念的火热几乎掀起了一股全民学 Python 的热潮。那么,作为一种计算机程序语言,Python 到底有何魅力,如此受到人工智能的喜爱。总结下来,主要就是两点:(1)丰富的类库支持Python 从面世以来逐渐发展出了一个大型、活跃的科学计算及数据分析社区,成为数据科学、机器学习和学术 / 工业界通用软件开发等领域的原创 2020-07-13 11:08:01 · 258 阅读 · 0 评论 -
有没有简单易用的数据挖掘工具?
当前用于数据挖掘的工具软件主要有两类,早期都是有图形化界面的商用软件,比如 SAS 和 SPSS,此类工具历史悠久,性能稳定。图形化的操作界面基本以拖拽填写为主,配合少量脚本编程,使用较为方便。不过,此类工具的价格也比较高,一般只有大型企业在用。近年来,随着人工智能的普及,出现许多开源编程类工具,以 Python 和 R 为代表,此类工具操作灵活,支持多种数据挖掘相关拓展库。而且,因为开源而完全免费。但是,无论是图形化操作工具还是开源编程类工具,都要求使用者具备丰富的统计学经验、机器学习算法知识,否原创 2020-07-13 11:11:09 · 267 阅读 · 0 评论