
算法
文章平均质量分 84
拓端研究室
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
原文链接:http://tecdat.cn/?p=8640介绍在本文中,我们将看到如何开发具有多个输出的文本分类模型。我们将开发一个文本分类模型,该模型可分析文本注释并预测与该注释关联的多个标签。多标签分类问题实际上是多个输出模型的子集。在本文结尾,您将能够对数据执行多标签文本分类。数据集数据集包含来自Wikipedia对话页编辑的评论。 评论可以属于所有这些类别......原创 2019-11-18 16:54:23 · 3278 阅读 · 2 评论 -
R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数
原文链接:http://tecdat.cn/?p=6690在最近的一篇文章中,我描述了一个Metropolis-in-Gibbs采样器,用于估计贝叶斯逻辑回归模型的参数。这篇文章就此问题进行了研究,以展示Rcpp如何帮助克服这一瓶颈。 TLDR:只需用C ++编写log-posterior而不是矢量化R函数,我们就可以大大减少运行时间。我模拟了与上一篇文章类似的.........原创 2019-06-13 08:40:33 · 1064 阅读 · 2 评论 -
R语言使用马尔可夫链Markov Chain, MC来模拟抵押违约
原文http://tecdat.cn/?p=3603这篇文章的目的是将我学习的材料与我的日常工作和R相结合。如果我们有一些根据固定概率随时间在状态之间切换的对象,我们可以使用马尔可夫链*来模拟该对象的长期行为。一个很好的例子是抵押贷款。在任何给定的时间点,贷款都有违约概率,保持最新付款或全额偿还。总的来说,我们将这些称为“转移概率”。假设这些概率在贷款期限内是固定的**。举.........原创 2019-06-13 08:38:48 · 2496 阅读 · 1 评论 -
R语言解决最优化问题-线性规划(LP)问题
原文:http://tecdat.cn/?p=3432线性优化简介优化是一种为所有可能的解决方案找到给定问题的最佳解决方案的技术。优化使用严格的数学模型来找出给定问题的最有效解决方案。要从优化问题开始,首先确定目标非常重要。目标是绩效的量化衡量。例如:最大化利润,最小化时间,最小化成本,最大化销售。优化问题可分为两组线性规划(LP):它也被称为线性优化,在这个问题中...原创 2019-06-13 08:55:27 · 10126 阅读 · 5 评论 -
R语言时变参数VAR随机模型
原文:http://tecdat.cn/?p=3223摘要时变参数VAR随机模型是一种新的计量经济学方法,用于在具有随机波动率和相关状态转移的时变参数向量自回归(VAR)的大模型空间中执行随机模型规范搜索(SMSS)。这是由于过度拟合的关注以及这些高度参数化模型中通常不精确的推断所致。对于每个VAR系数,这种新方法自动确定它是恒定的还是随时间变化的。此外,它可用于将不受限制的时变参数...原创 2019-06-13 22:06:27 · 8237 阅读 · 0 评论 -
r语言中如何进行两组独立样本秩和检验
原文链接:http://tecdat.cn/?p=2723所述配对双样品的Wilcoxon检验一种的非参数检验,其可以被用于比较样品的两个独立数据。本文介绍如何在ř中计算两个样本的秩检验。可视化数据并在ř中计算的Wilcoxon测试ř函数用于计算的秩检验为了执行两个样本的Wilcoxon检验,比较两个独立样本(x&y)的均值,R函数wilcox.test()可以如下...原创 2019-06-13 22:08:24 · 22513 阅读 · 4 评论 -
新能源车主数据图鉴
在环保形势日益严峻的今天,新能源汽车是当今汽车发展的潮流。拓端数据(tecdat)研究人员根据新能源车主满意度调查数据,从多个角度进行数据分析。▼新能源汽车是当今汽车发展的潮流,在环保形势日益严峻的今天,随着政府相关利好政策出台,新能源汽车发展十分迅猛。在明确传统能源汽车退出的时间表后,中国或将于2030 年停售传统汽车,这些都奠定了新能源汽车广阔的市场前景。基于以上背景,拓端数据...转载 2019-08-02 15:27:22 · 3868 阅读 · 0 评论 -
混合IBCF协同过滤推荐算法推荐引擎的探索1
原文链接:电商行业智能推荐引擎的探索电商行业智能推荐引擎的探索机器学习助力母婴电商 概要拓端帮助国内母婴电商公司创建智能推荐引擎,由此打造精准、高效的购物体验,探索如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的解决方案。业务挑战随着电商网站用户数量和商品数量的增加,数据成为影响推荐质量的重要因素。作为电子商...原创 2019-06-14 14:56:02 · 1134 阅读 · 0 评论 -
混合IBCF协同过滤推荐算法推荐引擎的探索2
原文链接:http://tecdat.cn/?p=3948混合IBCF算法的离线与实时的分布式设计实现在现行的Web站点上的推荐往往都不是单纯只采用了某一种推荐的机制和策略,往往是将多个方法混合在一起,从而达到更好的推荐效果。结合业务痛点,我们采用一种基于矩阵填充技术的混合IBCF算法。首先利用准确度指标找出SVD的最优参数和混合IBCF算法的最佳权重,然后使用SVD降维方法对原...原创 2019-06-14 14:58:01 · 3716 阅读 · 0 评论 -
拟合R语言中的多项式回归
原文链接:http://tecdat.cn/?p=2686让我们看一个经济学的例子:假设你想购买一定数量q的特定产品。如果单价是p,那么你会支付总金额y。这是一个线性关系的典型例子。总价格和数量成正比。如下所示:但购买和出售,我们可能要考虑一些其他相关信息,就像当:购买显著数量很可能是我们可以要求并获得折扣,或购买更多更重要的是我们可能会推高价格。这可能......原创 2019-06-14 15:10:10 · 26195 阅读 · 0 评论 -
spss modeler用决策树神经网络预测ST的股票
原文链接:http://tecdat.cn/?p=2784之前在某社区中看到一篇帖子《一张价值几十万个跌停的统计表》,主要是预测即将被ST的股票,虽然有些标题党,但是还有有一些参考价值的。文章中使用了净利润指标来对可能成为ST的股票进行排雷,那么是否有其他指标可以用机器学习的方法对该问题进行建模同时提高预测的准确度呢?首先我们来了解下问题的背景:股票市场上,一般把财务状况或其他状况出......原创 2019-06-14 15:11:30 · 11475 阅读 · 0 评论 -
r语言中使用Bioconductor 分析芯片数据
原文链接:http://tecdat.cn/?p=4764介绍芯片数据分析流程有些复杂,但使用 R 和 Bioconductor 包进行分析就简单多了。本教程将一步一步的展示如何安装 R 和 Bioconductor,通过 GEO 数据库下载芯片数据, 对数据进行标准化,然后对数据进行质控检查,最后查找差异表达的基因。教程示例安装的各种依赖包和运行命令均是是在 Ubuntu 环境中运...原创 2019-06-19 14:04:52 · 3414 阅读 · 0 评论 -
R语言阈值模型代码示例
原文链接:http://tecdat.cn/?p=4276阈值模型用于统计的几个不同区域,而不仅仅是时间序列。一般的想法是,当变量的值超过某个阈值时,过程可能表现不同。也就是说,当值大于阈值时,可以应用不同的模型,而不是当它们低于阈值时。例如,在药物毒理学应用中,可能低于阈值量的所有剂量都是安全的,而当剂量增加到阈值量以上时毒性增加。或者,在动物种群丰度研究中,种群可以缓慢增加至阈值大小...原创 2019-06-20 13:53:53 · 2009 阅读 · 0 评论 -
python缺失值处理案例分析:泰坦尼克数据
原文链接:https://www.cnblogs.com/tecdat/p/9430901.html缺失值处理真实数据往往某些变量会有缺失值。首先,我们用 info( ) 语句操作,看到整份数据的大概情况: titanic_df.info()从这份数据我们可以发现,这里一共有 891 行数据,所以在中间那一列数据中看到的不是 891 个数据的,都是有缺失值的。比如年...原创 2019-06-20 14:06:37 · 1694 阅读 · 0 评论 -
matlab实现MCMC的马尔可夫转换MS- ARMA - GARCH模型估计
原文链接:http://tecdat.cn/?p=4241时间序列非线性的有前景的方法。将MS模型的元素与完全自回归移动平均 - 广义自回归条件异方差(ARMA - GARCH)模型相结合,给参数估计器的计算带来了严重的困难。我们制定了完整的MS- ARMA - GARCH模型及其贝叶斯估计。这有利于使用马尔可夫链蒙特卡罗方法,并允许我们开发一种算法来计算我们模型的方案和参数的贝叶斯估............原创 2019-06-20 14:08:15 · 1587 阅读 · 0 评论 -
爬取微博用户行为数据语义分析数据挖掘
原文链接 微博作为热门话题的聚集地,评价、点赞转发、评论有无水军……都可能影响新人们的判断。本文对婚策微博上的用户行为数据进行盘点,一起来看看微博用户行为里有哪些值得深挖的奥秘吧! ▼ 每年的“五一”前后都是新人结婚的扎堆期。随着结婚旺季到来,如何办一场终身难忘的婚宴成为人们的热门话题。微博作为热门话题的聚集地,评价、点赞转发、评...原创 2019-06-20 14:25:29 · 4637 阅读 · 0 评论 -
Python用PyMC3实现贝叶斯线性回归模型
原文链接:http://tecdat.cn/?p=5263在本文中,我们将在贝叶斯框架中引入回归建模,并使用PyMC3 MCMC库进行推理。我们将首先回顾经典或频率论者的多重线性回归方法。然后我们将讨论贝叶斯如何考虑线性回归。用PyMC3进行贝叶斯线性回归在本节中,我们将对统计实例进行一种历史悠久的方法,即模拟一些我们知道的属性的数据,然后拟合一个模型来恢复这些原始......原创 2019-06-20 15:20:36 · 3263 阅读 · 1 评论 -
拓端tecdat|R语言文本挖掘NASA数据网络分析,tf-idf和主题建模
原文链接:http://tecdat.cn/?p=6763NASA托管和/或维护了超过32,000个数据集;这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系。1NASA如何组织数据首先,让我们下载JSON文件,并查看元数据中存储的名称。 metadata <- fromJSON("http......原创 2021-01-18 12:57:59 · 2950 阅读 · 5 评论 -
R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究
原文链接:http://tecdat.cn/?p=6864我们将 对1993年发送到20个Usenet公告板的20,000条消息进行分析。此数据集中的Usenet公告板包括新闻组用于政治,宗教,汽车,体育和密码学等主题。预处理我们首先阅读20news-bydate文件夹中的所有消息,这些消息组织在子文件夹中,每个消息都有一个文件。我们可以看到在这样的文件用的组合read_line...原创 2019-06-20 16:41:25 · 1583 阅读 · 0 评论 -
拓端tecdat|python主题LDA建模和t-SNE可视化
原文:http://tecdat.cn/?p=4261使用潜在Dirichlet分配(LDA)和t-SNE中的可视化进行主题建模。本文中的代码片段仅供您在阅读时更好地理解。有关完整的工作代码,请参阅此回购。我们将首先介绍主题建模和t-SNE,然后将这些技术应用于两个数据集:20个新闻组和推文。什么是主题建模?主题模型是一套算法/统计模型,可以揭示文档集中的隐藏主题。直观地......原创 2020-11-16 10:06:28 · 4648 阅读 · 2 评论 -
sas文本挖掘案例:如何使用SAS计算Word Mover的距离
原文链接:http://tecdat.cn/?p=6181Word Mover的距离(WMD)是用于衡量两个文档之间差异的距离度量,它在文本分析中的应用是由华盛顿大学的一个研究小组在2015年引入的。Word Mover距离的定义WMD是两个文档之间的距离,作为将所有单词从一个文档移动到另一个文档所需的最小(加权)累积成本。通过解决以下线性程序问题来计算距离。T i...原创 2019-06-21 14:16:03 · 875 阅读 · 0 评论 -
Python使用矩阵分解法找到类似的音乐
原文链接:http://tecdat.cn/?p=6054这篇文章是如何使用几种不同的矩阵分解算法计算相关艺术家。代码用Python编写,以交互方式可视化结果。加载数据这可以使用Pandas加载到稀疏矩阵中:# read in triples of user/artist/playcount from the input datasetdata = pandas...原创 2019-06-21 14:24:12 · 715 阅读 · 0 评论 -
数据告诉你:互联网哪个职位最有前途?
原文链接互联网无疑是当今最热门的行业。这个行业高薪资的背后也是大量的加班和激烈的竞争。择业不能只看薪水,适合自己才是最重要的。互联网公司都需要哪些人才?哪些职位更抢手?!本文对近年来互联网职位数据进行盘点,一起来看看职位数据有哪些值得深挖的奥秘吧!▼互联网无疑是当今最热门的行业,越来越多的人投入到互联网的浪潮中。这个行业高薪资的背后也是大量的加班和激烈的竞争。择业不能只...原创 2019-06-21 14:41:02 · 1495 阅读 · 0 评论 -
R语言使用马尔可夫链对营销中的渠道归因建模
原文链接:http://tecdat.cn/?p=5383介绍在这篇文章中,我们看看什么是渠道归因,以及它如何与马尔可夫链的概念联系起来。我们还将通过一个电子商务公司的案例研究来理解这个概念在理论上和实践上如何运作(使用R)。什么是渠道归因?Google Analytics为归因建模提供了一套标准规则。根据Google的说法,“归因模型是决定销售和转化功劳如何分配给转化.........原创 2019-06-21 14:52:05 · 1760 阅读 · 0 评论 -
R语言对MNIST数据集分析:探索手写数字分类
原文链接:http://tecdat.cn/?p=5246数据科学和机器学习之间区别的定义:数据科学专注于提取洞察力,而机器学习对预测有兴趣。我还注意到这两个领域大相径庭:我在我的工作中同时使用了机器学习和数据科学:我可能会使用堆栈溢出流量数据的模型来确定哪些用户可能正在寻找工作(机器学习),但是会构建摘要和可视化来检查为什么(数据科学)。我想进一步探讨数据科学和机器学习如何相互...原创 2019-06-21 15:00:49 · 3072 阅读 · 0 评论 -
R语言中实现层次聚类模型
原文链接:http://tecdat.cn/?p=5305大家好!在这篇文章中,我将向你展示如何在R中进行层次聚类。什么是分层聚类?分层聚类是一种可供选择的方法,它可以自下而上地构建层次结构,并且不需要我们事先指定聚类的数量。该算法的工作原理如下:将每个数据点放入其自己的群集中。确定最近的两个群集并将它们组合成一个群集。重复上述步骤,直到所有数据点位于一个群集中......原创 2019-06-21 15:20:41 · 2933 阅读 · 0 评论 -
时间序列建模三部曲
原文链接:http://tecdat.cn/?p=5202与大多数高级分析解决方案不同,时间序列建模是一种低成本解决方案,可提供强大的洞察力。本文将介绍构建质量时间序列模型的三个基本步骤:使数据静止不动,选择正确的模型并评估模型的准确性。这篇文章中的例子使用了一家主要汽车营销公司的历史页面浏览数据。步骤1:时间序列涉及使用按时间间隔(分钟,小时,天,周等)进行索引的数据。由于...原创 2019-06-21 15:44:41 · 4166 阅读 · 0 评论 -
R语言代写岭回归ridge regression分析租房价格报告
原文链接:http://tecdat.cn/?p=6173住房趋势首先,这里是伯克利价格的一般直方图。这是基于从伯克利的租金收集委员会收集的数据,从中我可以获取伯克利目前被占用的9143套公寓的租赁信息,并从2014年开始租赁。这是每间客房的价格,平均为公寓楼数量由于租金管制,我认为每个房间的每栋房租都非常相似。正如我们可以清楚地看到的那样,这是一个标准的正态分布形状,...原创 2019-06-21 15:48:31 · 944 阅读 · 0 评论 -
R语言ARMA-GARCH-COPULA模型和金融时间序列案例
原文http://tecdat.cn/?p=3385最近我被要求撰写关于金融时间序列的copulas的调查。 从读取数据中获得各种模型的描述,包括一些图形和统计输出。原创 2019-06-17 16:07:24 · 3956 阅读 · 0 评论 -
R语言使用ARIMA模型预测股票收益时间序列
原文链接:http://tecdat.cn/?p=2831“预测非常困难,特别是关于未来”。丹麦物理学家尼尔斯·波尔(Neils Bohr)很多人都会看到这句名言。预测是这篇博文的主题。在这篇文章中,我们将介绍流行的ARIMA预测模型,以预测库存的回报,并演示使用R编程的ARIMA建模的逐步过程。时间序列中的预测模型是什么?预测涉及使用其历史数据点预测变量的值,或者还.........原创 2019-06-17 16:10:43 · 16634 阅读 · 2 评论 -
R使用LASSO回归预测股票收益
原文链接:http://tecdat.cn/?p=4228使用LASSO预测收益1.示例一个热门目标。只要有金融经济学家,金融经济学家一直在寻找能够预测股票回报的变量。对于最近的一些例子,想想Jegadeesh和Titman(1993),它表明股票的当前收益是由前几个月的股票收益预测的,侯(2007),这表明一个行业中最小股票的当前回报是通过行业中最大股票的滞后回报预测,以及......原创 2019-06-17 16:11:06 · 4481 阅读 · 0 评论 -
R语言时间序列和ARIMA模型预测拖拉机销售的制造案例研究
完整原文链接:http://tecdat.cn/?p=5421本文是我们通过时间序列和ARIMA模型预测拖拉机销售的制造案例研究示例的延续。您可以在以下链接中找到以前的部分:第1部分:时间序列建模和预测简介第2部分:在预测之前将时间序列分解为解密模式和趋势第3部分:ARIMA预测模型简介ARIMA模型 - 制造案例研究示例回到我们的制造案例研究示例,准备好开始分.........原创 2019-06-17 16:12:24 · 3713 阅读 · 0 评论 -
python用线性回归预测股票价格
原文链接:http://tecdat.cn/?p=2979线性回归在整个财务中广泛应用于众多应用程序中。在之前的教程中,我们使用普通最小二乘法(OLS)计算了公司的beta与相对索引的比较。现在,我们将使用线性回归来估计股票价格。线性回归是一种用于模拟因变量(y)和自变量(x)之间关系的方法。通过简单的线性回归,只有一个自变量x。可能有许多独立变量属于多元线性回归的范畴。在这种情况下......原创 2019-06-17 16:13:49 · 16500 阅读 · 1 评论 -
MATLAB 求解特征方程的根轨迹图稳定性分析
原文:http://tecdat.cn/?p=3871根轨迹分析在下文中,我们提供了用于根轨迹分析的强大MATLAB命令的简要描述。读者可能想知道为什么当强大的MATLAB命令可用时,教师强调学习手工计算。对于给定的一组开环极点和零点,MATLAB立即绘制根轨迹。在极点和零点中进行的任何更改都会立即产生新的根位点,依此类推。MATLAB允许特征方程的根轨迹1 + G(s)H......原创 2019-06-17 16:16:49 · 8309 阅读 · 2 评论 -
R语言做复杂金融产品的几何布朗运动的模拟
原文链接:http://tecdat.cn/?p=5334几何布朗运动(GBM)是模拟大多数依赖某种形式的路径依赖的金融工具的标准主力。虽然GBM基于有根据的理论,但人们永远不应忘记它的最初目的 - 粒子运动的建模遵循严格的正态分布脉冲。基本公式由下式给出:标准维纳过程代表创新。在对气体进行建模时效果很好,在财务建模方面存在一些严重的缺陷。问题是维纳过程有两个非常严.........原创 2019-06-17 16:19:08 · 1982 阅读 · 2 评论 -
R语言实现LDA主题模型分析网购数据
原文链接研究人员对各大电商平台海量用户的评价数据进行分析,得出智能门锁剁手攻略。1语义透镜顾客满意度和关注点我们对于评价数据进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将......原创 2019-06-17 16:20:04 · 2458 阅读 · 0 评论 -
在PYTHON中进行主题模型LDA分析
原文链接:http://tecdat.cn/?p=6227主题建模是一种在大量文档中查找抽象主题的艺术方法。一种作为监督无的机器学习方法,主题模型不容易评估,因为没有标记的“基础事实”数据可供比较。然而,由于主题建模通常需要预先定义一些参数(首先是要发现的主题ķ的数量),因此模型评估对于找到给定数据的“最佳”参数集是至关重要的。概率LDA主题模型的评估方法使用未......原创 2019-06-17 16:26:53 · 2584 阅读 · 0 评论 -
用Python粒度分析及其在沉积学中应用研究
原文链接:http://tecdat.cn/?p=5754谷物沉降是沉积学中最重要的问题之一(因此也是沉积地质学),因为在不知道某一粒度粒子的沉降速度是多少的情况下,沉积物运输和沉积都不能被理解和建模。当浸没在水中时,非常小的颗粒具有足够小的质量,使得它们在任何湍流发展之前达到最终速度。这适用于在水中沉降的粘土和淤泥尺寸的颗粒,对于这些颗粒尺寸等级,斯托克斯定律可用于计算沉降速度:...原创 2019-06-17 16:28:37 · 1608 阅读 · 0 评论 -
电商行业智能推荐引擎的探索 :机器学习助力母婴电商
原文 :http://tecdat.cn/?p=984电商行业智能推荐引擎的探索机器学习助力母婴电商概要拓端帮助国内母婴电商公司创建智能推荐引擎,由此打造精准、高效的购物体验,探索如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的解决方案。业务挑战随着电商网站用户数量和商品数量的增加,数据成为影响推荐质量的重要因素。作为电子商务中一个热门领...原创 2019-06-17 16:31:16 · 6218 阅读 · 2 评论 -
R语言k折交叉验证
原文链接:http://tecdat.cn/?p=5176“机器学习中需要把数据分为训练集和测试集,因此如何划分训练集和测试集就成为影响模型效果的重要因素。本文介绍一种常用的划分最优训练集和测试集的方法——k折交叉验证。”k折交叉验证K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本,不重复的选取其中一个子样本作为测试集,其他K-1个样本......原创 2019-06-18 15:57:33 · 8766 阅读 · 0 评论