- 博客(8)
- 收藏
- 关注
转载 自然语言处理——词向量词嵌入
1 传统方式的缺点 使用索引的方式无法表达词之间的相似性,n元模型在很多场合难以取得明显的进步和表现。one-hot存在维度方面的问题以及无法表示词和短语之间的相似性。 WordNet: WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。开发工作从1985年开始,从此以后该项目接受了超过300万美元的资助(主要来源于对...
2019-05-24 00:46:00
789
转载 GPU选型
1—基本概念显存带宽 是指显示芯片与显存之间的数据传输速率,它以字节/秒为单位。显存带宽是决定显卡性能和速度最重要的因素之一。2—常见GPU性能参数GPU型号单卡显存cuda 计算能力对比(官方)单精度性能 (FP32)cuda核数量显存带宽 GB/秒最大功耗W价格Tesla P48G6.15.52560192751.6WT...
2019-05-23 02:19:00
781
转载 自然语言处理—资源链接(持续更新)
1 — 语言处理综合工具包(暂未完善)工具包名支持语言受欢迎程度简介个人使用评价HanLPpyhanlp中文1.3W starHanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。NLTK多语言7.8K star...
2019-05-08 21:46:00
403
转载 数据预处理算法—优秀参考文章
文本处理文本去重算法 文本去重算法:Minhash/Simhash/Klongsent simhash海量文本去重的工程化转载于:https://www.cnblogs.com/xingzhelin/p/10834802.html...
2019-05-08 21:32:00
565
转载 python-字符编码数据类型转换
1 - 编码格式转换1.1 编码格式介绍字符集介绍ASCIIASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符ANSIANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x00~0x7f 范围的1 个字节来表示 1 个英文字符。超出此范围的使用0x80~0xFFFF来编码,即扩展的ASCII编码。不同的国家和地区...
2019-05-08 14:32:00
193
转载 python实用工具包
文本处理FlashText 大规模关键字搜索利器,据说多余500个关键字时性能会明显优于正则表达式,暂未评测!调试利器pysnooper 不需要使用print进行调试转载于:https://www.cnblogs.com/xingzhelin/p/10828996.html...
2019-05-07 23:52:00
118
转载 数据挖掘学习笔记——决策树的理解
1、决策树的决策步骤思考2、决策树预测的思考3、决策树节点数据结构构思4、决策树的Python代码实现(未完成)转载于:https://www.cnblogs.com/xingzhelin/p/9186109.html...
2018-06-15 10:02:00
168
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅