
自然语言处理
学习一些自然语言处理的基础知识应用到网络安全中
V丶Chao
记录自己的学习过程,时常反思,时常进步
展开
-
文本模糊测试的文章记录
20210109 -An Ensemble Approach to Large-Scale Fuzzy Name Matching这篇文章介绍了一种大数据场景下如果进行字符串,或者说命名的模糊匹配方案,该文章提出了一种集成的方法,从行文上来看,非常完整,技术没有完全看懂,留存。...原创 2021-01-09 15:53:09 · 163 阅读 · 0 评论 -
LSTM生成文本(字符级别)
20200817 -引言在网上看到过一些利用深度学习来生成文本的文章,不管生成宋词也好,生成小说也好,各种各样,都是利用深度学习的模型来生成新的东西。之前的时候,我也一直觉得,他们这种生成方式,应该就是记忆性的东西,他并没有真正的从语义的角度上理解这个文章。当然,我自己也是才疏学浅,本身就不是专门搞这种东西的人。本篇文章中,记录一下我在网上看到的一篇利用LSTM生成文本的文章。需要注意的几个点是1)训练过程中,输入的是什么2)根据输出,预测的又是什么3)最后输出的内容是否可读,又是否有意义,是否原创 2020-08-17 21:09:38 · 1603 阅读 · 0 评论 -
LSTM文本生成(单词级别)
20200818 -引言前面文章中,介绍了字符级别的文本生成《LSTM生成文本(字符级别),在字符级别的生成过程中,利用滑动窗口的形式来持续生成文本。本文中介绍看到的另外一篇基于单词的生成形式。LSTM文本生成本篇文章中,主要参考了kaggle上的一篇文章[1],在模型中,使用了embedding层,然后输入其实是句子。但是感觉他的代码部分并不是非常友好,也可能是我对模型的使用有些忘记了。数据预处理def generate_padded_sequences(input_sequences):原创 2020-08-18 11:33:43 · 1402 阅读 · 2 评论 -
charactor级别处理字符串及2vec
20200810 -引言本篇文章来记录一些自然语言中处理字符或者字符串的一些方法。(本人非专业人士,主要就是从网上顺着思路来弄一些东西,参考时请结合自己的实际情况)gram处理在一些其他的博客中,大多数都是针对句子或者文章进行分析,其分析的单位是一个单词,这也是word2vec的主要工作。但是,我这里的一个需求是,对DGA域名进行分析,这里面没有单词的概念。这里记录几个关于这部分内容的处理方式。也就是说,我处理的应该是字符级别的n-gram内容。定义要处理的内容是字符串的数组,每个元素都是"goo原创 2020-08-10 10:40:19 · 1150 阅读 · 0 评论 -
自然语言处理 - 两篇文章的阅读
2020/08/07 -这部分内容是我之前在简书的草稿,没有完整整理,后续将进行完整整理。2020/06/17 -这两天在学习word2vec模型原理的时候,看到了两篇文章,一篇是关于使用word2vec进行情感分类,另一篇是通过tf-idf这种方式运用LDA或者直接kmeans进行主题分类。从这两篇文章中,相对与自然语言处理的模型来说, 我感觉,我学到的是更多的分析的过程和可视化的内容,这里扯远了,本片文章就是要写这个自然语言处理的过程。我就感觉,看完这两个文章,我好像学到了非常多的东西,但是我原创 2020-08-07 17:15:57 · 767 阅读 · 0 评论