
应用层-算法应用
文章平均质量分 73
小丁丁_ddxdd
这个作者很懒,什么都没留下…
展开
-
R语言-聚类分析
第一步:对数据集进行初步统计分析检查数据的维度> dim(iris)[1] 150 5 显示数据集中的列名> names(iris)[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species" 显示数据集的内部结构> str(iris)'data.fram转载 2016-05-22 22:43:43 · 1353 阅读 · 0 评论 -
量化交易系列--(1)R语言下载股票数据
library(zoo)library(xts)library(TTR)library(quantmod)setSymbolLookup(szzs=list(name='000001.ss',src='yahoo'))getSymbols("szzs")sz=as.data.frame(SZZS)write.table(zs, file = "/home/SZ.原创 2016-09-11 12:49:46 · 3739 阅读 · 1 评论 -
量化选基--shiny实现
library(shiny)ui=shinyUI(fluidPage(navbarPage("quant",inverse = FALSE, tabPanel("sigle fund", fluidPage( titlePanel("choose one fund"),原创 2016-09-19 08:58:47 · 1455 阅读 · 0 评论 -
量化投资--量化干货分享
来源链接:http://blog.youkuaiyun.com/dipolar/article/details/50752839/http://www.newsmth.net/nForum/#!article/Python/128763最近程序化交易很热,量化也是我很感兴趣的一块。 国内量化交易的平台有几家,我个人比较喜欢用的是JoinQuant,里面有篇干货贴分享给大家,希转载 2016-10-17 11:17:34 · 4016 阅读 · 0 评论 -
自然语言分析--LDA浅析
来源:http://blog.youkuaiyun.com/huagong_adu/article/details/7937616上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相转载 2016-12-07 16:25:24 · 1420 阅读 · 0 评论 -
推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)
来源:http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/下面简单列举几种常用的推荐系统评测指标:1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档转载 2017-01-14 20:55:15 · 673 阅读 · 0 评论 -
推荐系统评价
来源:http://blog.youkuaiyun.com/allenalex/article/details/51318270 评价一个推荐系统的好坏的重要性不用多少。本文的总结非常的全面,相信读者通过阅读本文以及本文参考的文献可以对推荐系统的评价指标有比较全面的掌握。 对推荐系统的研究一个重要的环节是如何评价一个推荐算法的好坏。关于推荐系统评价的转载 2017-01-14 21:15:15 · 3163 阅读 · 0 评论 -
Python--Python 基于协同过滤的推荐
来源:http://www.open-open.com/lib/view/open1403852806733.html在 用户 —— 物品(user - item)的数据关系下很容易收集到一些偏好信息(preference),比如评分。利用这些分散的偏好信息,基于其背后可能存在的关联性,来为用户推荐物品的方法,便是协同过滤,或称协作型过滤(collaborative filte转载 2017-01-14 21:35:19 · 3716 阅读 · 0 评论 -
协同过滤推荐算法的原理及实现
来源:http://www.sohu.com/a/65218858_116235协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和转载 2017-06-18 16:03:03 · 463 阅读 · 0 评论 -
推荐系统---深度学习在电商商品推荐当中的应用
来源:1.常见算法套路电商行业中,对于用户的商品推荐一直是一个非常热门而且重要的话题,有很多比较成熟的方法,但是也各有利弊,大致如下:基于商品相似度:比如食物A和食物B,对于它们价格、味道、保质期、品牌等维度,可以计算它们的相似程度,可以想象,我买了包子,很有可能顺路带一盒水饺回家。优点:冷启动,其实只要你有商品的数据,在业务初期用户数据不多的情况下,也转载 2017-09-04 17:16:37 · 10864 阅读 · 5 评论 -
文本情感分类---搭建LSTM(深度学习模型)做文本情感分类的代码
来源:http://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652391534&idx=1&sn=901d5e55971349697e023f196037675d&chksm=84da48beb3adc1a886e2a0d9d45ced1e8d89d4add88a9b6595f21784fcc461938b19a7385684&mpshare=转载 2017-09-04 17:32:31 · 12247 阅读 · 1 评论 -
R语言-简单多元回归
1.读入数据,R-STUDIO直接有按钮,否则就> zsj 数据一般从excel的CSV或者txt里读取,实现整理好以符合R的数据框的结构ps1:这块有很多包提供从不同来源读取数据的方法,笔者还得慢慢学。。2.画相关图选择回归方程的形式> plot(Y~X1);abline(lm(Y~X1))> plot(Y~X2);abline(lm(Y~X2))转载 2016-06-28 23:32:16 · 4118 阅读 · 0 评论 -
机器学习系列:(一)机器学习基础
http://mp.weixin.qq.com/s?__biz=MjM5MzM4Mjc4MQ==&mid=2652420890&idx=1&sn=e5405e1e28dcaf47b5b81684f0e0aa6b&scene=5&srcid=0719X3jEIVjg0drO6GKoLJkr#rd 本章我们简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应转载 2016-07-29 09:26:50 · 457 阅读 · 0 评论 -
原理-关联FP Growth算法
转载地址:http://liyonghui160com.iteye.com/blog/2086033FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达 到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下转载 2016-07-06 23:47:49 · 1254 阅读 · 0 评论 -
京东基于Spark的风控系统架构实践和技术细节
1.背景互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不法分子对互联网资产的觊觎,针对电商行业的恶意行为也愈演愈烈,这其中,最典型的就是黄牛抢单囤货和商家恶意刷单。黄牛囤货让广大正常用户失去了商家给予的优惠让利;而商家转载 2016-06-11 16:08:20 · 4721 阅读 · 0 评论 -
R应用-多元线性回归
#准备好数据,看看pv与uv、cindex、hsindex之间的关系fhead(f) pv uv cindex hsindex1 5531 3279 1458 22962 6439 4070 1425 22803 5404 3253 1477 22914 6121 4137 1458 22865 6654 453转载 2016-06-28 09:09:15 · 914 阅读 · 0 评论 -
量化-windows下如何安装Python、pandas
本篇内容主要讲如何安装Python和pandas。Python比较好安装,而pandas比较难装,当时装了我一整天。pandas是Python下面的一个package,专门用于金融数据的分析,简直是神器。这里有pandas的简单入门介绍http://pandas.pydata.org/pandas-docs/stable/10min.html本篇主要涵盖以下三部分内容:1.Python转载 2016-06-28 23:59:30 · 9559 阅读 · 1 评论 -
量化-使用python计算各类移动平均线
计算移动平均线是最常见的需求,下面这段代码将完成以下三件事情:1. 从csv格式的文件中导入股票数据,数据例图如下:2.计算各类移动平均线,包括简单简单算术移动平均线MA、指数平滑移动平均线EMA;3.将计算好的数据输出到csv文件中。代码应该复制下来就能运行了,关于从哪里可以得到代码中使用的数据,后面会讲,下面贴上代码(附件中也可以下载):--转载 2016-06-29 00:05:18 · 54758 阅读 · 4 评论 -
R语言-回归分析及实现
一、数据探索阶段1、了解变量类型做回归分析前,了解数据集是怎样的?那些是数值型变量,那些是分类变量,这一步是相当重要的。r代码:> class(mydata$Middle_Price)[1] "numeric"> class(mydata$MPG.city.)[1] "factor"另外我们利用factor函数对各水平进行赋值:status这样将1=poor转载 2016-06-29 00:18:53 · 22340 阅读 · 2 评论 -
推荐系统-文本相似性计算(1)
1. 前言推荐系统分为两种,一种是基于用户的,根据某个用户的特性推荐一些东西,还有一种是根据内容,推荐一些相似的内容,或者是两种的结合,任何推荐系统,仔细分析下来,都属于这两种情况的组合。今天我们说一下基于内容推荐中的一个分支,也是使用得比较多的内容推荐方式,那就是基于文本相似性的推荐,我们说文本相似性的计算,文本相似性应用范围是比较广的:普通的阅读文章,底下的相关文章转载 2016-06-29 23:36:04 · 3682 阅读 · 0 评论 -
推荐系统-文本相似性计算(2)
上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的层次上来,正因为这样才有了自然语言处理这门课程了。今天我们稍微说说这个吧,后台留言很多朋友对这方面感兴趣,因为自然语言处理实在不是一篇文章就能说清的,而且我水平也非常有限,我本身是个工程人员,自然语言处理这么高转载 2016-06-29 23:44:27 · 1545 阅读 · 0 评论 -
推荐系统-文本相似性计算(3)
前面说了两篇了,分别介绍了TFIDF和向量空间的相关东西,然后介绍了主题模型,这一篇我们就来试试这两个东西。词向量就不在这篇试了,词向量和这两个关系不大,不好对比,不过我最后也给出了代码。0. 工具准备工欲善其事,必先利其器,那么我们先来利其器,这里我们使用的是python的gensim工具包,地址是:https://radimrehurek.com/gensim/index.ht转载 2016-06-29 23:46:24 · 5484 阅读 · 1 评论 -
应用层-个性化推荐系统基本概念及5种常规算法初探
1. 什么是推荐系统?推荐系统是什么?如果你是个多年电商(剁手)党,你会说是这个:如果你是名充满文艺细胞的音乐发烧友,你会答这个:如果你是位活跃在各大社交平台的点赞狂魔,你会答这个:没错,猜你喜欢、个性歌单、热点微博,这些都是推荐系统的输出内容。从这些我们就可以总结出,推荐系统到底是做什转载 2016-06-24 00:08:58 · 1819 阅读 · 0 评论 -
R语言-kmeans聚类理论篇K的选择(轮廓系数)
kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。本文记录学习kmeans算法相关的内容,包括算法原理,收敛性,效果评估聚,最后带上R语言的例子,作为备忘。 算法原理kmeans的计算方法如下:1 随机选取k个中心转载 2016-06-11 15:59:21 · 22240 阅读 · 1 评论 -
机器学习时代的三大神器:GBDT,XGBOOST和LightGBM
来源:https://blog.youkuaiyun.com/bbbeoy/article/details/79590981本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上...转载 2018-05-13 14:21:29 · 3852 阅读 · 0 评论