- 博客(12)
- 资源 (4)
- 收藏
- 关注

原创 Pytorch搭建深度模型
Pytorch搭建模型流程1. 引言2. Pytorch搭建深度框架流程2.1 导入相关包2.2 设置超参数2.3 导入数据集2.4 定义网络模型2.5 实例化网络并定义优化器2.6 定义训练网络train2.7 定义测试网络test2.8 开始训练并测试1. 引言Pytorch与Tensorflow是现今比较流行的两种深度学习计算框架。相较于Tensorflow,Pytorch具有更高的灵活性(动态),代码更简洁易懂。(当然,Tensorflow的新版本也已经引入了动态图)。Pytorch主要用于:
2020-07-07 16:34:22
385
原创 BM25算法详解
BM25(Best Matching)算法是当前信息检索领域主流的文本匹配算法,主要内容是计算query到文档集合的相似度得分。BM25可以视作Tf-IDF算法的优化。
2023-04-19 12:02:21
5202
原创 LSTM分类模型
LSTM分类模型本文主要固定一个文本分类的流程。分为三个部分:数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果,得到模型的输入样本。模型搭建和训练流程。程序架构如下:主要包括一个原始的分类文件(头条新闻)。一个预处理脚本prepare_data.py一个数据处理脚本data_loader.py一个训练过程脚本trainer.py一个模型文件lstm_model.py分类流程数据预处理将原始的文本进行预处理,原始文件形式如下:处理后文件如下,形式为
2022-03-14 23:08:30
12370
1
原创 Java 训练使用 XGBoost
Java 训练使用 XGBoost背景下载xgboost jar包地址:http://github.com/criteo-forks/xgboost-jars/releases/tag/导入jar包开发软件(Intellij) :File–>project structure–>Libraries–>"+" 导入刚下载的xgboost包。选择与操作系统相符的版本。(本文用的0.90–win64).数据准备数据集形式java版xgboost数据形式可以有两种。1
2021-09-14 19:19:17
3947
1
原创 Tensorflow实现CNN流程
引言Tensorflow是Google开发的大规模分布式深度学习框架,其采用数据流图(定义一个静态图,新版增加了动态图)的形式来进行数值计算。本文使用Tensorflow基于CNN完成MNIST数据集的分类任务。实现流程2.1 导入相关包import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data2.2 获取数据# 获取数据mnist = input_data.read_data_sets
2020-07-08 10:35:45
992
原创 Torchtext 使用方法
Torchtext 使用方法1. Torchtext 介绍众所周知,Pytorch是现今非常流形的深度学习框架。而Torchtext是一个非官方的、为Pytorch提供文本数据处理的库。在自然语言处理尤其是RNN、LSTM等模型的应用方面具有重要意义。虽然torchtext主要是为Pytorch提供服务的,但是也可以用于其他框架比如Tensorflow、Keras等。 本文主要内容有:获取文本数据使用torchtext建立语料库使用torchtext建立索引库(word2index; index
2020-07-07 17:21:02
3268
原创 gensim生成词向量并获取词向量矩阵
gensim生成词向量并获取词向量矩阵word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,但是调用gensim.models的word2vec模块使用skip-gram或CBOW完成词向量训练之后,如何获取词向量中的词汇表以及对应的词向量矩阵呢。本文以一个小例子进行演示。1. 导入相关包主要用到了jieba和gensim包,可以使用命令行pip3 install gensim或下载gensim包的方式,具体不述。import jiebafrom ge
2020-07-07 17:16:55
8975
10
原创 文本可视化(词云图)
文本可视化(词云图)(一)文本可视化种类(1)基于文本内容的可视化基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和 Document Cards 等。(2)基于文本关系的可视化基于文本关系的可视化研究文本内外关系,帮助人们理解文本内容和发现规律。常用的可视化形式有树状图、节点连接的网络图、力导向图、叠式图和 Word Tree 等。(3)基于多层面信息的可视化基于多层面信息的可视化主要研究如何结合信息的多个方面帮助用户从更深层次理解文本数据,发现其内在
2020-07-07 17:15:05
8458
1
原创 文本的向量表示
文本的向量表示1. 为什么需要文本的表示?文字是人类认知过程中产生的高层认知抽象实体,我们需要将其转换为数字向量或矩阵作为机器学习算法模型以及神经网络模型的标准输入输出。2. 词袋模型(Bag-of-words)Bag-of-words模型是信息检索领域常用的文档表示方法。在文本特征生成过程中,对于一个文档,词袋模型忽略其单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语
2020-07-07 17:14:29
4633
1
原创 中文分词:最大匹配算法
中文分词:最大匹配算法(一)引言分词是自然语言处理中非常常见的操作,也是必不可少的文本数据预处理步骤。各国语言的表达方式和书写方式截然不同,因此分词的方式和难度也不同。英文分词是最简单的,因为每个单词已经用空格自动分词了,比如"I like Chinese" 这个句子已经被分成了三个单词。当然,英文分词也是有难点的,比如单词大小写所代表的含义不同以及各种符号的用法,这里暂不讨论。中文是汉字为基本书写单位,词语甚至句子之间并没有明显的区分标记,并且不同的词组合容易产生歧义。比如:“结婚的和尚未结婚的”,计
2020-07-07 16:45:44
2340
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人