
自然语言处理
文章平均质量分 59
AI量化小木屋
前腾讯高级AI算法工程师,省级人工智能研究院主管工程师。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
supervisor安装及使用教程
在linux中,我们需要一个监控软件来监控我们的程序是否在正常运行,而常用的一般都是supervisor。原创 2024-01-26 15:59:28 · 613 阅读 · 1 评论 -
基于albert的汽车评论情感分析【含代码】
当准备好数据集后,开始初始化参数,然后进行训练前的基本工作。一般情况下,读者需要修改的参数为batch_size 和num_epochs ,其他参数无需修改。根据albert原始论文,学习率一般在e-5级别,因此可以保留默认参数(其实修改了也不会有很大优化)。在本实验中,我们对数据集进行了4:1的划分,构建训练集和验证集。如果是更细粒度的标签,比如电商中对于评论分析有一星到五星的标签,则根据标签修改字典即可。在这里设置GPU或CPU,如果你的机器存在多个GPU,则可以修改以下代码。原创 2024-01-05 12:00:13 · 1415 阅读 · 0 评论 -
【NLP】工业界常用的NLP数据增强方法都在这了,你都会了吗
EDA 使用传统的文本数据增强方法,可以在文本数据集小的情况下提升文本分类的性能。出自论文《EDA: Easy Data Augmentation Techniques for Boosting Performance onText Classification Tasks》原创 2024-01-04 23:20:34 · 492 阅读 · 0 评论 -
Pytorch中的ONNX部署,你真的全部都了解了吗?
pytorch中ONNX的部署,你懂吗原创 2024-01-04 23:12:54 · 2613 阅读 · 1 评论 -
几个实用网站
***NLP民工的乐园: 几乎最全的中文NLP资源库:****https://github.com/fighting41love/funNLP。github下载部分文件夹:https://minhaskamal.github.io/DownGit/#/home。论文短语:https://www.phrasebank.manchester.ac.uk/翻译:https://www.deepl.com/en/translator。学习资料:https://lilianweng.github.io/原创 2024-01-01 22:05:50 · 1255 阅读 · 1 评论 -
linux运维常用命令
获取占用CPU资源最多的10个进程,可以使用如下命令组合(常用)获取占用内存资源最多的10个进程,可以使用如下命令组合(常用)查看linux中cuda的版本。查看sftp的端口,并可以清除。查看linux下端口是否被占用。查看linux端口是否被占用。查看linux运行内存大小。查看磁盘占用(常用)原创 2024-01-01 22:03:56 · 371 阅读 · 0 评论 -
牛刀小试-基于LSTM的股票价格预测
股票价格预测,是量化中的一种常见方式。价格预测属于一种回归任务。一般情况我们是对收盘价进行预测。价格预测的周期可以是日、周或月。原创 2023-12-28 17:24:30 · 876 阅读 · 0 评论 -
将词向量model转变成可视化的txt文件
因为最近需要一个50-100d的中文词向量了,问朋友拿了一个60d的,但是给我的是一个model,没办法,项目中需要的是txt文件,不想改动太大,所以查看了很多其他的csdn看看怎么转于是乎,找到了下面最简单的方法model = Word2Vec.load(r’E:\data\hy\word2vec_model\Word60.model’) model.wv.save_word2vec_format(‘WordVec60d.txt’,binary = False) # 把词向量表转成可视化的txt就原创 2020-05-30 12:03:42 · 855 阅读 · 3 评论 -
贪心项目:搭建simple问答系统
本次项目的目标是搭建一个基于检索式的简单的问答系统。至于什么是检索式的问答系统请参考课程直播内容/PPT介绍。通过此项目,你将会有机会掌握以下几个知识点:字符串操作 2. 文本预处理技术(词过滤,标准化) 3. 文本的表示(tf-idf, word2vec) 4. 文本相似度计算 5. 文本高效检索此项目需要的数据:dev-v2.0.json: 这个数据包含了问题和答案的pair, 但是以...原创 2020-03-11 16:00:59 · 1236 阅读 · 1 评论 -
搭建分词工具(枚举和维特比两种方法)
Part 1: 搭建一个分词工具Part 1.1 基于枚举方法来搭建中文分词工具此项目需要的数据:综合类中文词库.xlsx: 包含了中文词,当做词典来用以变量的方式提供了部分unigram概率 word_prob举个例子: 给定词典=[我们 学习 人工 智能 人工智能 未来 是], 另外我们给定unigram概率:p(我们)=0.25, p(学习)=0.15, p(人工)=0.05, p...转载 2020-03-11 15:38:47 · 910 阅读 · 0 评论