
机器学习&人工智能
文章平均质量分 62
taoyuanforrest
这个作者很懒,什么都没留下…
展开
-
TF-IDF提取关键词
转自http://www.ruanyifeng.com/blog/2013/03/tf-idf.html作者: 阮一峰日期: 2013年3月15日这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做转载 2016-05-20 15:37:44 · 998 阅读 · 0 评论 -
scikit-learn常用接口
1)roc_auc_score 获取AUC score用法:from sklearn import metricsauc = metrics.roc_auc_score(y_true, y_score)常见问题:Data is not binary and pos_label is not specified原因:y_true必须是0 1 array,如果不是0,1可以有两种...原创 2018-10-27 10:45:21 · 732 阅读 · 0 评论 -
时间序列分析 - 移动平均SMA, WMA, EMA(EWMA) 之理论公式
原文:https://zh.wikipedia.org/w/index.php?title=%E7%A7%BB%E5%8B%95%E5%B9%B3%E5%9D%87&variant=zh-cn#_note-0移动平均(英语:moving average,MA),又称“移动平均线”简称均线,是技术分析中一种分析时间序列数据的工具。最常见的是利用股价、回报或交易量等变数计算出移动平均。...转载 2019-03-01 16:29:07 · 22388 阅读 · 0 评论 -
时间序列分析 - 移动平均SMA, EMA(EWMA) 之python
pandas:pandas.DataFrame.rollingpandas.DataFrame.ewmpandas.DataFrame.mean其中rolling可以指定窗口类型win_type,比如boxcar, boxcar, triang, blackman, hanning, bartlett以hanning window为例,其窗口形状为钟型,曲线函数为:...原创 2019-03-01 16:38:47 · 22276 阅读 · 0 评论 -
时间序列分析 - ARMA, ARIMA, SARIMA
【目标数据】ARMA: 针对弱平稳/宽平稳时间序列分析ARIMA: 针对非平稳非周期性时间序列分析SARIMA: 针对非平稳周期性时间序列分析。【自协方差与自相关系数】时间序列在t时刻记作Xt,在s时刻记作Xs,那么这两个时刻对应的时间序列的自协方差的计算公式为:假设时间间隔t-s=k, 并且假设时间序列的均值为常数u, 那么上述公式可以写成自相关系数的表...原创 2019-03-06 17:19:26 · 9893 阅读 · 3 评论 -
机器学习特征缩放
网上流行的关于特征缩放的两个图:原创 2019-03-20 20:59:44 · 1352 阅读 · 0 评论 -
时间序列分析 - ARMA/ARIMA参数估计及模型预测
整体处理流程如下: 【平稳化处理】根据ADF单位根检验看序列是否平稳,对于非平稳序列可以进行差分,对数等等。对于得到的平稳序列需要检测是否为白噪声,如果是就没有必要再分析了。【白噪声检验】1)由于白噪声序列期望为0,方差固定。因此会在y=0上下小幅波动,比如:2...原创 2019-03-13 20:00:12 · 31829 阅读 · 0 评论 -
时间序列分析 - python实现
python的statsmodels模块(http://www.statsmodels.org/dev/tsa.html)提供了时间序列分析相关的内容:acf() 计算自相关 statsmodels.tsa.stattools.acfplt_acf() 画自相关系数 statsmodels.graphic...原创 2019-03-13 20:01:17 · 3541 阅读 · 0 评论 -
时间序列分析 - 异常检测
草稿原创 2019-03-13 20:16:33 · 2389 阅读 · 0 评论 -
GPU太贵无从下手?大神教你省钱又省心
原文:https://www.itcodemonkey.com/article/8227.html来自:AI前线(微信号:ai-front),作策划编辑:Vincent,作者:Tim Dettmers,译者:核子可乐、Debra,编辑:Debra,原文链接导读:深度学习是一类对计算资源有着高度要求的领域,而 GPU 的选择将从根本上决定你的深度学习体验。如果没有 GPU,你...转载 2019-03-26 19:50:00 · 986 阅读 · 1 评论 -
Approaching (Almost) Any Machine Learning Problem
原文:http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/Abhishek Thakur, a Kaggle Grandmaster, originally published this posthereon July 18th, 2016 and...转载 2019-03-26 20:03:58 · 2594 阅读 · 0 评论 -
数据降维 - PCA, LDA, SVD
草稿原创 2019-03-21 19:34:50 · 430 阅读 · 0 评论 -
正则化:Lasso, Ridge, 以及Elastic Net
草稿原创 2014-11-07 10:37:28 · 1690 阅读 · 0 评论 -
RF, GBDT, XGBoost, LightGBM
to be continued原创 2018-10-28 20:14:21 · 377 阅读 · 0 评论 -
超参选择之Grid Search
Grid Search原创 2018-10-28 18:51:13 · 809 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):找出相似文章
原文:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方转载 2016-05-20 15:43:39 · 977 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):自动摘要
作者: 阮一峰日期: 2013年3月26日有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼转载 2016-05-20 15:49:44 · 396 阅读 · 0 评论 -
64位CentOS 6.7安装Caffe (非GPU模式 )
1) 安装依赖库sudo yum install protobuf-devel leveldb-devel snappy-devel hdf5-develsudo yum install gflags-devel glog-devel lmdb-develsudo yum install atlas-devel有些包没有,已经放在了我的资源里面:http://downl原创 2017-04-28 11:29:02 · 781 阅读 · 1 评论 -
Spark常见问题
Spark版本:spark-2.1.0-bin-hadoop2.71)java.net.BindException: Cannot assign requested address: Service 'sparkDriver' failed after 16 retries (starting from 0)!参考https://stackoverflow.com/questions/34...原创 2018-09-29 22:11:18 · 371 阅读 · 0 评论 -
贝叶斯优化
原文:https://blog.youkuaiyun.com/cqzz513524327/article/details/72772205/如果想进一步了解贝叶斯优化,下面的是必读的英文文献。《A Tutorial on Bayesian Optimization of ExpensiveCost Functions, with Application to Active User Modeling ...转载 2018-10-18 20:00:45 · 1701 阅读 · 1 评论 -
auto-sklearn安装配置
官方安装指南:http://automl.github.io/auto-sklearn/stable/installation.html#installation系统需求:auto-sklearn has the following system requirements:Linux operating system (for example Ubuntu), Python (&...原创 2018-10-19 10:53:54 · 6068 阅读 · 2 评论 -
机器学习分类器指标 准确率,精确率,召回率,F1值以及ROC, AUC曲线
原文:https://www.jianshu.com/p/7cb8759b0680http://alexkong.net/2013/06/introduction-to-auc-and-roc/对于分类模型,也有很多评估指标来判断该分类模型是否达到我们的要求,这几个评估指标主要是指:准确率(accuracy),精确率(precision),召回率(recall),F1值(F1 meas...转载 2016-02-09 18:23:04 · 8268 阅读 · 0 评论 -
The Unreasonable Effectiveness of Recurrent Neural Networks
原文:http://karpathy.github.io/2015/05/21/rnn-effectiveness/There’s something magical about Recurrent Neural Networks (RNNs). I still remember when I trained my first recurrent network for Image Capti...转载 2018-10-10 19:03:54 · 2312 阅读 · 0 评论 -
Understanding LSTM Networks
原文:http://colah.github.io/posts/2015-08-Understanding-LSTMs/Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you understand each word b...转载 2018-10-10 19:04:45 · 226 阅读 · 0 评论 -
卷积草稿
提纲:1)信号与系统2)图像处理3)傅里叶变换4)卷积与滑动平均(np.convolve)5) convolution vs correlation 参考:https://www.zhihu.com/question/22298352https://www.zhihu.com/question/27251882https://blog.youkuaiyun.com/ch...原创 2018-10-10 19:05:42 · 172 阅读 · 0 评论 -
超参选择之BayesianOptimization
python hyperopt原创 2018-10-28 18:36:02 · 1475 阅读 · 0 评论 -
模型选择之:偏差Bias与方差Variance
小结:误差主要包含两部分,Bias与Variance。以线性回归举例,回归函数可以表示为:其中误差符合正态分布:经过训练数据training以后得到的模型记作, 由于挑选训练数据的随机性,导致最终得到的模型也有一定的随机性,比如用数据集A训练得到的模型和用数据集B训练得到的模型参数可能是不一样的。那么通过模型得到的预测值与真实值Y之间的误差用均方误差可以表示为:,将 代入,...原创 2014-11-07 10:38:34 · 1113 阅读 · 0 评论