- 博客(10)
- 收藏
- 关注
原创 模型融合 --stacking
模型融合方法分为以下几种:1、平均法:分加权平均、简单平均;2、投票法:绝对多数、相对多数和加权平均;3、学习法:当训练数据较多时,通过另一个学习器来进行分类。bagging: 并行,通过平均能够降低误差(有放回抽取k个训练集,训练模型k个),最后投票,通过数据的不同训练得到不同的分类器效果,如果分类器本身性能稳定,则整合的意义不大。例子:随机森林,树模型。boosting: 串行,训练一系列弱分类器,利用模型之间的依赖,通过给错分样本更大的权重来提升性能,stacking(结合策略):通过一个
2021-07-19 10:15:13
532
原创 toad -评分卡模型
Toad简介一个可以用作数据探查、特征选择和评分卡模型建模的python工具包。参考:https://www.cnblogs.com/cgmcoding/p/14026520.htmlhttps://www.freesion.com/article/2550417274/1.EDA数据探查toad.detect() # 高阶版 describe功能以datafountain中非法集资案例中的数据为例,base_info.csvimport toadimport pandasbase =
2021-07-05 16:04:01
1965
原创 pandas在读excel时就设置列的类型
问题:-pandas在读excel时,如果某列是纯数字且以0开头,如011223,读数时默认为整型,将第一个0删去。解决方法:pd.read_excel(filename, converters = {columns_name: str})
2021-05-17 18:07:32
1216
原创 文本数据处理汇总
1.匹配中文曾经看到说\W+可以,但亲测无效。转向编码的形式:[\u4e00-\u9fa5]也不行,只能是:[\u4e00-\u9fcc]+2.不匹配某个字符串中间不包含 str1((?!pattern).)*str2开头不包含^((?!pattern).)*str结尾不包含str1.*[^?吗]$ 或者str1[^?吗]*$3.零宽断言1.正向肯定预查(?=pattern)非获取匹配,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不需要获取供以后使用。例如,“Windows
2021-01-13 17:11:09
225
原创 数值数据处理汇总(持续更新)
**一、结构化数据**1.遍历dataframefor index, row in df.iterrows(): print(row[0],row[1])2.处理空值全为数值型:df.isnull(s)字符串型:if type(s) == float
2021-01-07 17:50:21
196
原创 损失函数 -交叉熵损失函数
一、相关知识1)熵:即衡量信息不确定性的大小2)交叉熵:真实标签与预测标签之间的不同(越不同,包含的信息量越大,即熵越大)3)损失函数:Loss(y_pred,y_ture)二、交叉熵损失函数-交叉熵损失函数:评估label和predicts之间的差距(熵越小即两者越接近)计算公式:q——表示预测样本分布p——表示真实样本分布在具体分类中:y——表示样本的label,正类为1,负类为0p——表示样本预测为正的概率参考文献:1)https://zhuanlan.zhihu.
2020-05-29 16:18:52
524
翻译 Attention机制
参考:1)https://jalammar.github.io/illustrated-transformer/一、Attention机制的引入背景Recurrent神经网络的ht需要ht-1和t进行计算生成hidden,无法并行处理。当句子长度较长时,耗费的计算力太大,且例如RNN等模型会发生长程的梯度消失,造成长序列到定长向量转化而造成的信息损失的瓶颈。二、模型整体架构模型包含两个重要的组成部分:1)encoders(编码组件); 2)decoders (解码组件)编码组件和解码组件分别包含
2020-05-27 10:44:15
409
原创 FileNotFoundError: [WinError 3]系统找不到指定的路径
问题:FileNotFoundError: [WinError 3]系统找不到指定的路径。: “’./outputs/cner_output’”
2020-05-13 10:36:56
3770
翻译 checkpoint文件的作用
翻译自网址:https://blog.floydhub.com/checkpointing-tutorial-for-tensorflow-keras-and-pytorch/定义:在模型生成的过程中,用来记录关键点的文件,例如在游戏打boss前需要存游戏进度一样。checkpoint文件包含的内容:1)模型的结构(architecture),在模型重建时起到关键作用2)模型的权重(weight)3)训练的参数(loss,optimizer,epochs等)4)优化器的状态,允许在您停止的地方
2020-05-12 11:57:11
3331
原创 引入python模块的问题
错误类型:ImportError: attempted relative import with no known parent package(即python无法找到相应的包)文件的目录如下:|--transformer |--src |--transformer current.py configuration_bert.pyimport代码:from configuration_bert import BertConfig修改为:–&
2020-05-12 11:08:03
594
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人