乐且有仪-优快云博客

转载如何用深度学习做好长文本分类与法律文书智能化处理[转]

在NLP领域中，文本分类舆情分析等任务相较于文本抽取，和摘要等任务更容易获得大量标注数据。因此在文本分类领域中深度学习相较于传统方法更容易获得比较好的效果。正是有了文本分类模型的快速演进，海量的法律文书可以通过智能化处理来极大地提高效率。我们今天就来分析一下当前state of art的文本分类模型以及他们在法律文书智能化中的应用。文本分类领域走过路过不可错过的深度学习模型主要有FastTex...

2018-10-12 11:25:47 2622 1

原创如何计算卷积层的参数个数

一般文献中卷积过程多是对一个通道的图像进行卷积，但实际中图篇是多通道的，卷积核个数也大于1。比如10个卷积核，得到10个feature map，那么输入图像为RGB三个通道呢，输出就为 30个feature map 吗，答案肯定不是的。输出的个数依然是卷积核的个数，仍然是10个featuremap，每一层输出feature map 个数就是该层卷积核的个数。实际上，卷积操作通过卷...

2018-08-16 22:53:49 27340

原创 pytorch中的embedding词向量的使用

Embedding词嵌入在 pytorch 中非常简单，只需要调用 torch.nn.Embedding(m, n) 就可以了，m 表示单词的总数目，n 表示词嵌入的维度，其实词嵌入就相当于是一个大矩阵，矩阵的每一行表示一个单词。emdedding初始化默认是随机初始化的import torchfrom torch import nnfrom torch.autogra...

2018-07-17 23:34:45 47503 4

原创 pytorch中Liner、RNN、LSTM、RNN模型、输入和输出构造参数小结

Embedding词嵌入在 pytorch 中非常简单，只需要调用 torch.nn.Embedding(m, n) 就可以了，m 表示单词的总数目，n 表示词嵌入的维度，其实词嵌入就相当于是一个大矩阵，矩阵的每一行表示一个单词。emdedding初始化默认是随机初始化的import torchfrom torch import nnfrom torch.autogra...

2018-07-17 23:25:50 27072 6

原创 pytorch中的cat、stack、tranpose、permute、unsqeeze

pytorch中提供了对tensor常用的变换操作。cat 连接代码如下：import torchtorch.manual_seed(1)x = torch.randn(2,3)y = torch.randn(1,3)print(x,y)结果：0.6614 0.2669 0.0617 0.6213 -0.4519 -0.1661[torch.FloatT...

2018-07-15 22:52:10 13407 1

原创 jupyter notebook 使用过程中python老是莫名崩溃的原因及对策

最近在使用 Python notebook时老是出现python崩溃的现象，如下图，诱发的原因是“KERNELBASE.dll”，异常代码报“40000015”。折腾半天，发现我启动notebook时是用自定义startup.bat方式方式启动的，bat文件的内容为start C:\Anaconda3\python.exe "C:/Anaconda3/Scripts/jupyter-noteboo...

2018-07-04 15:07:10 13690 6

原创没有安装vs，但安装visio时出现“安装程序找不到Visio.zh-cn\VisioMUI.xml”类似错误的解决方法

visio的使用广泛，安装时经常出现明明加载了iso安装文件，但依然找不到安装文档的错误。目前的网络解决方法主要三种：1. 和visual studio 版本冲突（如果安装了vs的话），找到vs的安装光盘，将WCU\WebDesignerCore\WebDesignerCore.EXE文件，解压该文件进行并将office.zh-cn 文件夹替换掉Visio中的office.zh-cn 文件夹。2....

2018-07-03 08:15:53 8389 2

原创深度学习为什么这么深

本来是阅读周志华在“2018京东人工智能创新峰会”的演讲和知乎上相关文章的一些心得和总结。1 深度学习的兴起深度学习是机器学习中使用深度神经网络的的子领域。机器学习是一门老手艺，神经网络更是热度几经起伏的传统技术。目前在文本、声音、图形（视频）处理领域应用越来越热，效果越来越好的深度学习技术，核心在于多层神经网络。有多深呢？在 2012 年深度学习刚刚开始受到大家重视的时候，H...

2018-06-14 15:34:27 1437

原创分布表示（distributional representation）与分布式表示（distributed representation）

分布表示（distributional representation）与分布式表示（distributed representation）说在前面：真不是绕口令。分布表示（distributional representation）分布表示（distributional representation）：是基于分布假设理论，利用共生矩阵来获取词的语义表示，可以看成是一类获取词...

2018-06-14 12:11:59 21065 2

原创财富增值感悟

没有稳定的收益，只有稳定的心态。当你的

2018-06-01 11:54:41 359

原创网格交易必须知道的一些常识

适用品种最好在etf基金上，而不是个股。因为个股可能退市，下跌无极限，而etf基金则不然。如果非要做个股，做大盘股或绩优股。等额买入，可以最大限度的降低成本。如某票你在10元买入1000元，下跌到5元时，再买入1000元，则每股成本是多少？ 0.75元？ no，是0.67元！！不要在期货市场做，原因期货市场单手成交额过大，无法等额买入。更重要的是，网格交易属于逆势交易，在有杠杆的市场逆势交易是...

2018-06-01 11:15:20 8264 1

原创周志华2016年计算机大会演讲笔记

鲁棒性、自适应: 去重鲁棒性，则所有的问题都近乎完美的解决了。alphGO：人类犯错：水平从九段降到八段，机器犯错：水平从九段降到业余。原因：静态系统数据分布、数据分离、数据属性、目标函数恒定面向大规模多源异构数据鲁棒性表达结构（化）与统计（随机）相结合模式识别跨领域跨模态迁移学习（张三的知识如何让李四获取）现在是大数据时代，但是大数据不等于大价值。中间还需要数据的分析与挖掘。而计算学习

2016-11-22 16:37:57 547

原创 Hash算法学习笔记

SimHashgoogle对于网页去重使用的是simhash，他们每天需要处理的文档在亿级别，大大超过了我们现在文档的水平。该章节参考大牛博客《Similarity estimation techniques from rounding algorithms》），其通过hash算法让文本变为一系列由0-1构成的哈希值，并通过单词重要性加权获得simhash值。 simhash算法，将句子转化为ha

2016-10-18 17:15:33 548