- 博客(408)
- 资源 (1)
- 收藏
- 关注

原创 周末阅读
重要发现::1. 使用分类模型的前提假设:每个样本相互独立。而大盘涨跌每一个交易日并不是相互独立,而是沿着时间轴关联的,或许使用回归,将样本分成时间段,更合理。2. 同样个股之间也并不是相互独立的样本存在,有行业关联,上下游关联等等。起始时间:500:201811,201812(22000),20190103(8000)50:20190103(22600) ...
2016-10-14 08:49:27
564
3
转载 转:PANDAS输出频率分布(PD.CUT相关用法)直方图
data['班级'].value_counts().sort_index()plt.hist(data['成绩'],bins=list_bin)plt.title("成绩分布直方图")二、频率分布-自定义频率区间看成绩分布。#这里要设置字体,不然不支持中文。一、频率分布-查看班级人数。三,绘制频率分布直方图。
2022-12-02 09:44:57
1111
转载 交易方法3代
1. 交易,本质是以时间换空间。2. 交易里唯一要处理的:止损和浮盈对时间的关系。3. 你必须规定,多少时间后止损必须上移,多少时间后浮盈必须大于多少;不然就清仓。4. 在交易中,必须在尽量持长的同时兼顾主动性。5. 浮盈也是你的钱,对它必须有一个要求:什么时间止损移动到当前浮盈位置? 价格什么时间必须要在其基础上继续产生多少利润?6. 交易,要获利, 1)必须抓取概率肥尾的大利润。 2)但同时注意,没有人可以赚到所有得钱。不要因为贪婪,改一个指标似乎就可以抓到更多利...
2021-09-29 15:27:32
587
转载 转:正则项的详细分析
转自:https://zhuanlan.zhihu.com/p/55251269当模型的复杂度达到一定程度时,则模型处于过拟合状态。本文首先讨论如何去理解复杂度这一概念,然后回顾贝叶斯思想,并从贝叶斯的角度去理解正则项以及正则项降低模型复杂度的方法,最后总结全文。理解复杂度 回顾贝叶斯 贝叶斯角度下的正则项 正则项降低模型复杂度的方法 总结理解复杂度怎么去理解复杂度,可能有人认为模型的参数越多,模型越复杂。其实最好是通过结果去理解复杂度,比如当模型的训练误差很小且测试误差很大时,则模型
2021-04-27 17:29:28
632
转载 转:一文读懂BERT(原理篇)
转自:https://blog.youkuaiyun.com/jiaowoshouzi/article/details/89073944一文读懂BERT(原理篇)2018年的10月11日,Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》,成功在 11 项 NLP 任务中取得 state of the art 的结果,赢得自然语言处理学界的一片赞誉之声。本文是对近期关于BERT论文、相关
2021-04-27 16:01:16
785
转载 转:sklearn 用户手册之1.12. 多类别与多标签算法
from:https://blog.youkuaiyun.com/fanyingkk/article/details/80240663翻译官方文档:http://scikit-learn.org/stable/modules/multiclass.html#id41.12. 多类别与多标签算法Multiclass and multilabel algorithms*警告scikit-learn中所有分类器做多类别分类是开箱即用的。除非你想实验不同的多分类策略,否则没有必要使用sklearn.multi
2021-04-07 14:35:02
1038
1
转载 转:特征工程(sklearn)
from:https://www.iteye.com/blog/weishiym-2395442一、特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择...
2021-03-17 15:20:27
308
转载 转:多重共线性问题的几种解决方法
转自:https://blog.youkuaiyun.com/wangcheng666666/article/details/79187703在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,Xk中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。 所谓多重共..
2021-01-05 14:01:07
7923
转载 转:线性回归——lasso回归和岭回归(ridge regression)
转自:https://www.cnblogs.com/wuliytTaotao/p/10837533.html线性回归——lasso回归和岭回归(ridge regression)目录线性回归——最小二乘 Lasso回归和岭回归 为什么 lasso 更容易使部分权重变为 0 而 ridge 不行? References线性回归很简单,用线性函数拟合数据,用 mean square error (mse) 计算损失(cost),然后用梯度下降法找到一组使 mse 最小的权重。..
2020-12-25 10:35:41
1314
转载 转:Python数据分箱,计算woe,iv
转自:https://zhuanlan.zhihu.com/p/38440477数据分箱的重要性及优势:离散特征的增加和减少都很容易,易于模型的快速迭代; 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰; 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达
2020-12-22 14:03:44
4226
2
转载 转:IV值和WOE值的理解
转自:https://blog.youkuaiyun.com/njliaojiang817/article/details/904097991.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢.
2020-12-22 13:57:01
923
原创 多重共线性:python计算VIF以及使用vif做因子独立性检验的方法
转自:https://blog.youkuaiyun.com/ab1112221212/article/details/100133066多重共线性在python中的解决方法本文将讨论多重共线性的相关概念及利用python自动化消除多重共线性的方法,以供参考,欢迎拍砖线性模型与非线性模型关于线性模型与非线性模型的定义,似乎并没有确切的定论,但是个人认为建模首先得清楚地认识样本,样本有线性可分与线性不可分两种,所谓是否线性可分,是指是否存在一条直线(或平面)将样本分开。上图中y=0和y=1的样本可以由一
2020-12-22 11:06:03
8534
转载 转:机器学习是否需要考虑共线性、异方差等问题?
转自:https://www.zhihu.com/question/310448033/answer/596576732作者:刘一刀链接:https://www.zhihu.com/question/310448033/answer/596576732来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。机器学习里只不过是换了名字,l1正则化和l2正则化实际上就是套索回归和岭回归,实际上就是为了解决异方差等问题。共线性的话要具体看,比如我的模型只是为了预测,那么.
2020-12-21 14:57:29
846
转载 转:回归分析和相关分析的区别和联系
转自:https://blog.youkuaiyun.com/mo18312723429/article/details/85806762
2020-12-17 10:47:15
488
转载 转:线性回归标准化与R、T、F
转自:https://blog.youkuaiyun.com/jinruoyanxu/article/details/51628441?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1.control1、标准化对于多元线性回归需要对各个自
2020-12-17 09:54:34
2732
原创 金融科技探索这一路
1. 金融坑,所谓的大数据不是大数据。同一性,多维度,多样本。共同的模式,同一性就是我们要预测的y需要是一致的,多维性是要从不同维度搜集数据,但这些维度都与y相关;多样本,样本足够多,或者说时间维度足够长。金融数据具有这三个属性的比较少。这是金融数据应用机器学习遇到的最大的困难。2. 新领域的探索不容易,这一点是要和奋斗在这条路上的同事们共勉的。新领域的探索最大的不同是,如何问对问题,而不是如...
2019-11-01 17:38:34
458
原创 python画图
fig, ax = plt.subplots(figsize=(10.8, 6.4))width = 0.35 # the width of the barsh1 = ax.bar(range(len(x)), y, width)#画直方图yrange = np.arange(0, 0.5, 0.1)ax.set_yticks(yrange) ax.set_xticks(range...
2019-09-27 15:54:54
796
1
转载 pandas将不同dataframe保存到同一个excel的不同sheet
原文链接:https://blog.youkuaiyun.com/qq_39697564/article/details/88640686工作之中一个excel内会有多个sheet。但是将两组数据先后保存到一个excel内会发现只有后一组保存的数据,因为前一组的数据被后写入的数据覆盖了。如:这是两组数据,df1与df2,我们分别使用to_excel将这两组数据保存到同一个excel内。这里我们将shee...
2019-09-09 14:58:49
7809
原创 关于python中使用matplotlib画图show不显示
解决方法:1. 查看自己的配置支持什么import matplotlib.rcsetup as rcsetupprint(rcsetup.all_backends)输出如:['GTK', 'GTKAgg', 'GTKCairo', 'MacOSX', 'Qt4Agg', 'Qt5Agg', 'TkAgg', 'WX', 'WXAgg', 'GTK3Cairo', 'GTK3Agg', '...
2019-09-06 14:39:04
2487
转载 (Python)异常处理try...except、raise
转载自:https://www.cnblogs.com/Lival/p/6203111.html一、try...except有时候我们写程序的时候,会出现一些错误或异常,导致程序终止。例如,做除法时,除数为0,会引起一个ZeroDivisionError例子: 1 2 3 4 a=10 b=0 c=a/b ...
2019-09-05 08:19:30
375
转载 如何做好B端产品
from:https://blog.youkuaiyun.com/g2V13ah/article/details/82026948如何做好B端产品呢?作为B端产品经理,要充分了解自己负责的业务方向,要在实际的业务需求中发现问题、理清逻辑、形成解决方案,进行产品设计、推动上线、最终为企业业务提升工作效率。具体的步骤如下:1明确自己的服务对象我们的客户是什么样的?客户的业务目标是什么?客户目前...
2019-07-04 09:57:15
1818
转载 pycharm的python包opencv(cv2)无代码提示问题的解决
from:https://blog.youkuaiyun.com/qq_36735489/article/details/82110972我们在使用pycharm的时候总是很喜欢其强大的代码提示功能,只需ctrl+左键就可以查看源码,"."也能显示所含的函数,但是很多时候opencv的模块经常是失灵的。so,解决此问题。环境:windows/linux第一步 安装opencv这是加强版的open...
2019-06-25 14:06:57
2923
转载 python向量之间相似性的计算方法(持续更新中)
from:https://blog.youkuaiyun.com/u011412768/article/details/86714540亲测有效的方法:1、余弦相似性(cosine)(1)使用sklearn中的向量相似性的计算包,代码如下:这个函数的输入是n个长度相同的list或者array,函数的处理是计算这n个list两两之间的余弦相似性,最后生成的相似矩阵中的s[i]...
2019-06-10 17:48:16
5788
原创 读书笔记:《投资正途》-丁圣元
点评:1. 该书最重要的部分是将个股走势与市场(宽基指数)走势比较,提出了自上而下的选股方法。2. 上择时:市场走势向上或者震荡时考虑买入,选择个股,走势向下清盘。3. 下选股:在判断买入时机时候,设定一个时间区间,在该区间内将个股股票走势与市场走势比较,从而将个股分为三类,强与市场,与市场同步,弱于市场。当然随着时间流动,比较窗口不断滑动,个股与市场的比较的强弱会发生变化。对于强于市...
2019-05-09 11:42:31
6140
转载 从个人投资者角度看技术分析与基本分析
作者:刘鹏程Sai.L链接:https://zhuanlan.zhihu.com/p/19810363来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。现在刚刚开始关注证券投资的朋友可能必然面临一个极大的困惑,那就是在技术分析和基本面分析这两种分析方式中如何做出选择。技术分析这里有被很多人奉若神明的威廉.江恩。基本面分析这边有成为过世界首富的巴菲特。你说技术...
2019-04-11 17:28:39
1117
转载 完全图解RNN、RNN变体、Seq2Seq、Attention机制
from:https://zhuanlan.zhihu.com/p/28054589本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。一、从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函...
2019-04-10 14:48:40
314
转载 ROC和AUC理解
from:https://www.cnblogs.com/king-lps/p/9501572.html一. ROC曲线概念二分类问题在机器学习中是一个很常见的问题,经常会用到。ROC(Receiver Operating Characteristic) 曲线和AUC(Area Under the Curve) 值常被用来评价一个二值分类器 (binary classifier) ...
2019-04-10 09:15:57
647
转载 深度学习之Attention Model(注意力模型)
from:http://www.cnblogs.com/jiangxinyang/p/9367497.html1、Attention Model 概述 深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上...
2019-04-08 16:05:15
1223
转载 深度学习之从RNN到LSTM
from:https://www.cnblogs.com/jiangxinyang/p/9362922.html1、循环神经网络概述 循环神经网络(RNN)和DNN,CNN不同,它能处理序列问题。常见的序列有:一段段连续的语音,一段段连续的手写文字,一条句子等等。这些序列长短不一,又比较难拆分成一个个独立的样本来训练。那么RNN又是怎么来处理这类问题的呢?RNN就是假设我们的样本是...
2019-04-08 15:21:08
1180
转载 传统文本分类和基于深度学习文本分类
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大...
2019-04-08 13:12:20
10083
2
转载 自然语言处理入门(4)——中文分词原理及分词工具介绍
from:https://blog.youkuaiyun.com/flysky1991/article/details/73948971本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(C...
2019-03-29 15:35:23
1324
转载 主流深度学习框架对比
from:https://blog.youkuaiyun.com/zuochao_2013/article/details/56024172深度学习研究的热潮持续高涨,各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon,等等。然而TensorFlow却杀出重...
2019-03-21 14:17:27
1208
转载 词向量和语言模型
from:http://licstar.net/archives/328这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@...
2019-03-19 13:22:42
1437
转载 基于Text-CNN模型的中文文本分类实战
from:https://www.jianshu.com/p/f69e8a306862深度学习在文本分类中的鼻祖-TextCNN1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结。本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于Text-CNN模型在搜狗新闻数据集上二分类的Demo。文本分类是...
2019-03-19 09:31:49
3829
转载 中文文本分类对比(经典方法和CNN)
from:https://www.jianshu.com/p/dc00a5d597ed背景介绍笔者实验室项目正好需要用到文本分类,作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类:基于传统机器学习的文本分类 基于深度学习的文本分类facebook之前开源的fastText属于简化版的第二类,词向量取...
2019-03-19 09:30:00
2485
转载 使用word2vec训练中文词向量
训练过程模型:gensim工具包word2vec模型,安装使用简单,训练速度快 语料:百度百科500万词条+维基百科30万词条+1.1万条领域数据 分词:jieba分词,自定义词典加入行业词,去除停用词 硬件:8核16g虚拟机数据预处理维基百科数据量不够大,百度百科数据量较全面,内容上面百度百科大陆相关的信息比较全面,港澳台和国外相关信息维基百科的内容比较详细,因此训练时将两个语料...
2019-03-15 17:29:32
1833
转载 NLP文本处理流程
通常我们文本处理流程如下:1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词条内容处理成单行数据,word2vec训练原理是基于词共现来训练词之间的语义联系的。不同词条内容需分开训练 2 中文分词:中文NLP很重要的一步就是分词了,分词的好坏很大程度影响到后续的模型训练效果 3 特征处理:也叫词向量编码,将文本数据转换成计算机能识别的数据,便于计算,通常是转换成数...
2019-03-15 17:25:59
1633
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人