- 博客(16)
- 资源 (2)
- 收藏
- 关注
原创 『Tricks』用Python批量获取地理位置的经纬度信息
利用Python来批量自动获取指定位置的经纬度信息,并且将之保存到csv文件中。
2021-07-15 15:06:10
5191
13
原创 『NN』神经网络中的优化(一):梯度下降、随机梯度下降与mini-batch梯度下降
一、梯度下降(Gradient Descent)二、随机梯度下降(Gradient Descent)三、Mini-batch梯度下降(Mini-batch Gradient Descent)
2021-05-08 21:06:39
1530
2
原创 『ML』利用SVD(奇异值分解)实现推荐系统及图像压缩——《机器学习实战》学习笔记(Ch14)
本节用Python实现奇异值分解SVD算法,重点介绍了它在推荐系统以及图像压缩方面的应用。主要参考《机器学习实战》—— Peter Harrington著。
2020-08-21 00:22:00
1151
原创 『ML』用Python实现聚类效果的评估(轮廓系数、互信息)
好的聚类:类内凝聚度高,类间分离度高。本文介绍两种聚类评估方法,并且用Python实现。
2020-04-19 08:53:42
7624
1
原创 『论文阅读』SIF:一种简单却难以打败的句子嵌入方法
SIF平滑逆频率论文阅读笔记。计算句子中单词向量的加权平均值,然后删除平均向量在其第一个主成分上的投影(“公共成分去除”)。
2020-04-08 15:30:28
5889
4
原创 『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记(Ch10)
本节用Python实现K-Means算法,对未标注的数据进行聚类。主要参考《机器学习实战》—— Peter Harrington著。
2020-03-31 23:59:30
2145
2
原创 『LDA主题模型』用Python实现主题模型LDA
用Python gensim包实现主题模型LDA。最后打印出文档-主题分布以及主题-词分布。
2020-03-26 09:56:29
8859
8
原创 『关键词挖掘』结合 LDA + Word2Vec + TextRank 实现关键词的挖掘
利用Python,结合LDA + Word2Vec + Pagerank 实现关键词的挖掘。先用 LDA 方法初步选择出主题及其词分布,接着将每个主题下的词表示为词向量,用相似性表示词与词之间的权重,最后用 TextRank 方法对于主题下的关键词进行二次过滤。
2020-03-25 22:55:23
11238
17
原创 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注
利用Python代码实现中文文本的自然语言处理,包括分词、去标点符号、去停用词、词性标注。在刚开始的每个模块,介绍它的实现。最后会将整个文本处理过程封装成 TextProcess 类。
2020-03-25 11:35:20
17044
8
原创 『Tricks』用Python读取Excel文件数据
利用Python来读取Excel的数据,将每一行的数据保存到dict字典中,然后将字典保存到list中,最后将某一列的内容保存到txt文件。
2020-03-24 18:21:38
566
原创 『词向量』用Word2Vec训练中文词向量(二)—— 采用维基百科语料库
本文是在『词向量』用Word2Vec训练中文词向量(一)—— 采用搜狗新闻数据集 的基础上,将搜狗与维基两个语料库合并,进而训练出较好的词向量模型。
2020-03-14 13:51:51
5083
25
原创 『词向量』用Word2Vec训练中文词向量(一)—— 采用搜狗新闻数据集
用搜狗新闻数据集来训练中文词向量(Word2Vec),自己做的时候踩了很多的坑,希望分享出来让大家少走弯路。
2020-03-12 22:24:46
19848
35
原创 『文献回顾』“文本自动摘要” 相关文献综述
文献回顾——『自动摘要』在大四毕设选题时,我选到了『在线评论信息的自动摘要技术研究』的题目。因此,我决定在此记录所读的每一篇文献的思路及方法,一方面用于理清每篇文章的思路,另一方面便于日后写论文中的文献综述部分。此后,随着研究的深入,我会将毕设所用的思路及代码实现进行分享。自动摘要概述目的:将大量的文本用简...
2020-03-07 21:25:37
1298
4
A Simple but Tough-to-Beat Baseline for Sentence Embeddings.pdf
2020-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人