- 博客(11)
- 问答 (2)
- 收藏
- 关注
原创 多分类对数损失(Multi-Class Log-Loss)代码
def multiclass_logloss(actual, predicted, eps=1e-15): """Logarithmic Loss Metric :param actual: 包含actual target classes的数组 :param predicted: 分类预测结果矩阵, 每个类别都有一个概率 """ # Convert 'actual' to a binary array if it's not already: if len.
2020-08-28 14:05:38
3059
原创 Bert 论文中文翻译
BERT:预训练的深度双向 Transformer 语言模型Jacob Devlin;Ming-Wei Chang;Kenton Lee;Kristina Toutanova Google AI Language {jacobdevlin,mingweichang,kentonl,kristout}@google.com摘要我们提出了一种新的称为 BERT 的语言表示模型,BERT 代...
2019-07-26 15:29:37
1128
原创 json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)解决办法
notepad++打开文件 -> 格式 ->以utf-8无bom模式编码 ->保存
2019-07-25 11:48:22
3944
原创 secureCRT中文乱码解决办法
Options ——>Session Options——>Appearance——>character encoding的值改为utf-8。
2019-06-24 10:17:45
1111
转载 XGBoost、LightGBM的详细对比介绍
本文按照这些方法出现的先后顺序叙述。GBDT梯度提升树实在提升树的基础上发展而来的一种使用范围更广的方法,当处理回归问题时,提升树可以看作是梯度提升树的特例(分类问题时是不是特例?)。 因为提升树在构建树每一步的过程中都是去拟合上一步获得模型在训练集上的残差。后面我们将会介绍,这个残存正好是损失函数的梯度,对应于GBDT每一步要拟合的对象。主要思想在目标函数所在的函数空间中做梯度下...
2019-05-29 10:06:46
2035
原创 2019中国高校计算机大赛——大数据挑战赛
记录比赛中收集到的算法和资料文本匹配(语义相似度/行为相关性)技术综述:https://blog.youkuaiyun.com/lipengcn/article/details/85313971
2019-05-23 16:06:39
2893
原创 python3报错‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128) 解决办法
python3在windows上运行没问题,上传至linux服务器报错 :UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-1: ordinal not in range(128)原因:默认编码为ascii,无法表示中文加入代码以下代码:默认编码改为utf-8,完美解决!import s...
2019-05-21 17:40:08
1844
原创 论文解读《Automatic Text Scoring Using Neural Networks》
论文使用用C&W Embedding及LSTM作为基础,提出了新的文本自动评分模型,取得了好的效果。 具体如下: 为什么要搞出一个SSWESAugmented C&W model?-C&W Embeddings 在NNLM之后,在CBOW和skip-gram之前,2008年Collobert和Weston 提出的C&...
2019-05-20 15:03:20
1720
原创 NLP文本评分、文章筛选
最近要做一个新闻质量判断的项目,记录一下过程和收集到的资料,先占个坑,内容先冗杂在一起,后期再拆分5.17Automatic Text Scoring Using Neural Networks(使用神经网络的自动文本评分):-论文原文地址:https://arxiv.org/abs/1606.04289-论文解读《Automatic Text Scoring Using Neur...
2019-05-17 11:29:38
5605
1
原创 手动实现简单的 文本聚类算法 词袋模型+consin相似度+UPGMA聚类
全手写文本聚类算法 词袋模型-->consin相似度-->UPGMA聚类punctunation = [",", ":", ".", "'", "?", "/", "-", "+", "&", "(", ")"]sent = ["I love sky, I love sea.", "i love sky, I love sea.", "I want to go to ...
2019-03-17 21:42:09
1180
空空如也
wmi 控件 无法连接到本地计算机,原因是“win32:文件名、目录名或卷法语表不正确”
2017-06-01
wmi 控件 无法连接到本地计算机,原因是“win32:文件名、目录名或卷法语表不正确”
2017-06-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人