让路
勤学苦练,不负韶华。
展开
-
《学术小白的实战之路》01 LDA-Word2Vec-TF-IDF组合特征的机器学习情感分类模型研究
书山有路勤为径,学海无涯苦作舟三更灯火五更鸡,正是男儿读书时一、传统的机器学习分类模型1.1 对文本的数据进行分词数据样式自定义分词词典、去除停用词,分词#--------------------------------------------------已经分好词就不需要这个----------------------------------------# -*- coding:utf-8 -*-import csvimport pandas as pdimport numpy a原创 2021-10-10 08:58:24 · 2222 阅读 · 0 评论 -
【学术小白的学习之路】基于情感词典的中文句子情感分析(代码词典获取在结尾)
本次代码通过分词、情感词典分析、程度词和否定词处理等步骤,构建了一个完整的情感分析流程。它能够从输入的文本中提取情感信息,并计算出正面和负面的情感得分,最终提供一个归一化的情感评分。通过这种方式,情感分析能够有效地捕捉文本中的情感表达,支持情感理解和决策。原创 2024-12-23 17:45:09 · 702 阅读 · 0 评论 -
《实战》基于电商领域的词性提取及其决策树模型建模
文本词性特征提取筛选,情感分析决策树建模。原创 2022-07-26 22:00:13 · 1511 阅读 · 0 评论 -
学术中常见流程图,理论图,结构图归纳总结-不定期更新
突发事件网络舆情主题转变路径及其风险评估。原创 2024-12-06 09:53:52 · 298 阅读 · 0 评论 -
学术中常见理论归纳总结-不定期更新
学术研究中常常用到的理论更新,用于文献阅读中记录没见过的理论原创 2024-11-30 22:20:36 · 249 阅读 · 0 评论 -
【QCA(定性比较分析)组态研究】01 基础入门
QCA数据需要进行一个校准。第一、不同的条件变量之间的单位不同,就会导致取值范围有很大的差异,所以需要一个单位转换,校准为0-1的数值。第二、要确定指标的好坏,到低多高才算高,多富才算富有,这样就没有一个统一的标准,需要告诉QCA模型,到低多高才算高。原创 2024-09-09 13:28:48 · 1917 阅读 · 0 评论 -
《学术小白学习之路15》英文文本的LDA主题建模与预测
预测新文档的主题分布:给出了一个新的文档new_doc,对其进行与之前相同的预处理步骤。然后,将预处理后的文档转换为词袋表示形式,并通过TF-IDF模型将其转换为TF-IDF表示。计算主题一致性和主题困惑度:接下来,代码通过迭代不同的主题数量,在每个主题数量下运行LDA(Latent Dirichlet Allocation)主题模型,并计算主题一致性和主题困惑度得分。打印每个主题的关键词:使用循环遍历每个主题的ID,通过lda_model.print_topic方法打印出每个主题的关键词。原创 2023-10-07 21:08:32 · 1212 阅读 · 0 评论 -
《学术小白学习之路14》主题建模——主题概率分布相似度计算
首先、probabilities_1是一个形状为(num_topics_1, num_words)的NumPy数组,其中num_topics_1是第一阶段的主题数量,num_words是词语数量。probabilities_2是一个形状为(num_topics_2, num_words)的NumPy数组,其中num_topics_2是第二阶段的主题数量,num_words是词语数量。1.文本聚类和主题建模:在文本聚类任务中,可以使用主题概念分布的相似度来度量文本之间的语义相似性,并将相似的文本聚类在一起。原创 2023-10-07 19:48:32 · 808 阅读 · 0 评论 -
《学术小白学习之路13》基于DTM和主题共现网络——实现主题时序演化网络分析(数据代码在结尾)
'无人机 无人机 虚拟现实 虚拟现实 无人机 虚拟现实 无人机 无人机 虚拟现实 虚拟现实 头戴式 无人机 虚拟现实 头戴式 无人机 无人机 无人机 虚拟现实 无人机 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 虚拟现实 无人机 无人机 无人机 虚拟现实 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 无人机 虚拟现实 无人机 无人机 虚拟现实 无人机 虚拟现实 虚拟现实 虚拟现实 虚拟现实 无人机 无人机 虚拟现实 无人机 ',原创 2023-09-28 14:19:15 · 1234 阅读 · 4 评论 -
《学术小白学习之路12》进阶-基于Python实现中文文本的DTM主题动态模型构建
其中logging用于查看执行日志,导入的gensim版本是gensim-3.8.3,根据自己系统要求以及pyhton版本选择合适的版本,强调一下最好使用3.8.3版本,不然会报错。处理后的数据保存在dictionary向量中,并将向量表达进行保存为news_dictionary文件词典,是每个词和对应ID的映射词典。通过上面的工作,我们已经将文档转换成了DTM模型所需要的词典以及语料库,下面把语料库、词典加载到模型中。主要注意的是本文用的是txt的数据集,而且每一个文档用换行的符号进行划分。原创 2023-09-26 16:21:36 · 1191 阅读 · 1 评论 -
《学术小白学习之路11》DTM主题动态模型原理与基础构建
作者在论文中提及,狄利克雷分布不适合时序模型,所改常用高斯噪声 演化的状态空间模型来获取生成的β。要求gensim在4.0以后的版本,因为其中的ldasemodel对版本的要求挺高。t-1和t时刻都有对应的主题模型,下一个阶段的模型的参数aβ都与上一时刻有关系。而BTM是为分析短文本而生,该模型的生成是基于整个的语料库生成词语概率。对英文数据进行简单的处理,分词,不同于中文的分词,英文的分词更加简单;下一个时刻的主题,是根据上一个时刻的主题平滑的演化而来。该模型的主题概率的生成是基于文档层面的。原创 2023-09-26 13:14:11 · 1629 阅读 · 1 评论 -
《学术小白学习之路10》论文常见方法:Doc2vec-句向量模型实现
将数据集中的摘要进行分词,获得一个list of list的数据格式,每个词的分开的形式。再定义停用词典,用于分词,还可以自己定义一个分词词典。其中需要将数据转为Doc所识别的格式。可以比较每个文档的相似度具体的值。用于文献的摘要的相似度的计算。导入gensim中的相应的包。用Dbow模式进行训练。原创 2023-09-25 20:45:54 · 264 阅读 · 0 评论 -
《学术小白的学习之路 09》基于困惑度和余弦相似度确定LDA最优主题数
from gensim import corpora, models def ldamodel(num_topics): cop = open(r'C:\Users\N\Desktop\senti_data (负) .csv',encoding='gb18030') train = [] for line in cop.readlines(): line = [word.strip() for word in line.split(' ')]原创 2021-09-18 17:13:57 · 4766 阅读 · 8 评论 -
《学术小白的学习之路 08》自然语言处理之 sklearn_LDA主题识别、pyLDAvis的主题可视化以及层次聚类
本文主要是学习参考杨秀璋老师的博客,笔记总结与记忆。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、LDA主题识别1.1 数据读取1.2 语料分词1.3 文本转为Tfidf矩阵1.4 LDA 模型1.4.1 模型构建1.4.2 模型主题参数1.5 pyLDAvis 可视化二、文本层次聚类2.1层次聚类2.2 文本的聚类2.2.1 筛选Top1002.2.2 分词处理2.2.3相关性计算2.2.4 相似度计算2.2.5 可视化书山有路勤为径,学海无涯苦作舟(行行原创 2021-09-13 11:20:20 · 1589 阅读 · 5 评论 -
《学术小白的学习之路 07》自然语言处理之 LDA主题模型 01
本文主要是学习参考杨秀璋老师的博客,笔记总结与记忆。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、LDA主题模型1.1简介1.2安装二、LDA主题识别2.1前期操作2.1.1生成TF-IDF文本权重矩阵2.1.2 调用LDA模型书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人原文链接一、LDA主题模型1.1简介LDA(文档主题生成模型)通常由包含词、主题和文档三层结构组成。LDA模型属于无监督学习,它是将一篇文档的每个词都以原创 2021-09-12 20:59:45 · 1348 阅读 · 2 评论 -
《学术小白的学习之路 06》自然语言处理之 数据预处理、Jieba分词和文本聚类
本文主要是学习参考杨秀璋老师的博客,笔记总结。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、回归书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人原文链接一、回归...原创 2021-09-12 10:30:20 · 700 阅读 · 0 评论 -
《学术小白的学习之路 01》情感分析01 之 Snownlp的豆瓣评论情感分析
本文主要是学习参考杨秀璋老师的博客原文链接文章目录书山有路勤为径,学海无涯苦作舟原文链接1.豆瓣数据抓取2.情感分析的预处理以及词云的显示2.1 情感分析的步骤:2.2词云的显示3.Snownlp情感分析书山有路勤为径,学海无涯苦作舟原文链接原文链接1.豆瓣数据抓取2.情感分析的预处理以及词云的显示2.1 情感分析的步骤:1)利用爬虫获取语料数据2)使用jieba工具对数据进行中文的分词和词性的标注3)定义情感词典,提取每一行的文本的情感词汇4)通过构建情感词构建情感词的矩阵,原创 2021-09-09 12:39:06 · 1674 阅读 · 0 评论 -
《学术小白的学习之路 02》情感分析02 之基于大连理工情感词典的情感分析和情绪计算
本文主要是学习参考杨秀璋老师的博客原文链接文章目录书山有路勤为径,学海无涯苦作舟原文链接1.大连理工情感词典书山有路勤为径,学海无涯苦作舟原文链接原文链接1.大连理工情感词典情感的研究:情感分析 以及 情感的分类情感分析的主要流程:1)获取语料数据2)对语料进行分词,标注词性3)定义情感词典提取文本的情感吃4)构建情感矩阵,计算情感分数5)结果的评估大致流程:目前中国成熟的情感词典:大连理工大学情感词汇本体库知网的HowNet情感词典TW大学中文情感极性情感词典原创 2021-09-10 11:08:50 · 4115 阅读 · 3 评论 -
《学术小白的学习之路 03》机器学习之回归分析 线性回归,逻辑回归,多项式回归。
本文主要是学习参考杨秀璋老师的博客,笔记总结。原文链接文章目录书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人一、回归1.1回归的定义1.2线性回归书山有路勤为径,学海无涯苦作舟(行行代码要手敲)零、吃水不忘挖井人原文链接一、回归1.1回归的定义回归(regression)最早是英国的生物统计学家高尔顿和其学生在研究父母与孩子的身高的时候,发现孩子的身高会接近父母的身高,但是不会超过。现在的回归:利用多个自变量预测因变量的结果的数学方法。在回归分析中,我们需要预原创 2021-09-11 15:58:30 · 279 阅读 · 0 评论