Wenliam-优快云博客

"paris", "tokyo", "beijing", "hong kong", "cna", "shanghai", "geneva", "washington", "jakarta", "tempo", "kompas", "antara", "suara", "cnn indonesia", "detik", "tirto.id", "bangkok", "the star", "the sun", "sin chew daily", "nanyang siang pau", "malaysiaki

2023-11-14 10:56:20 776

原创自设英文新闻停用词,缓慢增加

【代码】自设英文新闻停用词,缓慢增加。

2023-11-13 20:24:18 136

原创 VADER情感划分

读取包含清洗后文本的DataFrame，假设文本保存在 'cleaned_content' 列中。df = pd.read_excel('nltk分词处理结果第二次部分删除后.xlsx')# 将分类结果添加到DataFrame中的新列 'sentiment_category'df.to_excel('带有情感分类的文档.xlsx', index=False)# 下载NLTK的VADER情感分析器所需的资源。# 保存带有情感分类的数据到Excel文件。return '积极'return '消极'

2023-11-13 19:11:39 730

原创清洗文本高频词、情感分析、情感分类、主题建模挖掘主题

print("词频分析结果：", freq_dist.most_common(10))df = pd.read_excel('nltk分词处理结果第二次.xlsx')print("情感分析结果：", df['sentiment_score'])# 应用分类函数，创建新的列 'sentiment_category'# 下载NLTK的停用词、情感分析和词性标注所需的资源。return '积极'return '消极'return '中性'# 去除HTML标签。# 输出带有情感分类的数据。# 定义文本清洗函数。

2023-10-27 21:08:13 496

原创 NLTK进行文本清洗并进行词性标注

df['cleaned_content'].to_excel('清洗后的文本.xlsx', index=False)df = pd.read_excel('原始新闻合并.xlsx', usecols=['content'])print("清洗后的文本已保存到 '清洗后的文本.xlsx' 文件。# 下载NLTK的停用词和词性标注所需的资源。# 对每条新闻内容进行文本清洗和词性标注。# 将清洗后的文本保存到Excel文件。# 定义文本清洗和词性标注函数。# 输出清洗后的文本内容。# 读取Excel文件。

2023-10-27 19:51:21 229

原创提取英文新闻文本地名及统计出现的数量，制作词云图

location_data = pd.DataFrame(list(locations.items()), columns=['地名', '出现次数'])location_data.to_excel('地名出现次数.xlsx', index=False)df = pd.read_excel('原始新闻合并.xlsx') # 请替换为你的新闻文档路径。print("地名:", location, " 出现次数:", count)# 'GPE'表示地名，并且不是通用词汇。# 输出提取到的地名及其频次。

2023-10-24 20:39:45 112

原创散点图绘制

读取Excel文件，指定 'content' 列作为文本数据。file_path = 'nltk处理后新闻合并.xlsx'# 运行K均值聚类，设置n_clusters为2。# 清除NaN值，将它们替换为一个空字符串。# 使用TruncatedSVD进行降维。# 获取每个文本所属的聚类标签。# 创建TF-IDF向量化器。# 获取所有新闻文本内容。# 绘制K=2的散点图。

2023-10-24 14:02:41 71

原创 LDA主题挖掘

df = pd.read_excel('nltk处理后新闻合并.xlsx', header=0, names=['cleaned_text'])# 可以选择绘制主题分布图等其他操作。# 处理NaN值并将文本转换为词袋表示。# 固定LDA主题数量为5。# 读取新闻文本数据。

2023-10-24 11:48:52 83

原创主题模型挖掘。一级和二级

df = pd.read_excel('测试数据.xlsx', header=0, names=['content'])# 检查是否是NaN值，如果是，则返回一个空字符串。# 训练二级主题的LDA模型，假设二级主题数量为2。# 在每个主题下再进行一次LDA挖掘（二级主题）# 打印二级主题模型中每个主题的前5个词。# 打印主题模型中每个主题的前10个词。# 创建二级主题的词典和语料库。# 提取第i个主题下的文本。# 将文本转换为小写并去除停用词。# 训练LDA模型，主题数为3。# 将文本转换为小写。

2023-10-23 14:56:11 71

原创 k均值与轮廓法则

sheet_name = 'Sheet1' # 修改为实际的工作表名称。for k in range(2, 11): # 尝试不同的K值。file_path = '处理好后文本.xlsx'# 清除NaN值，将它们替换为一个空字符串。# 使用TruncatedSVD进行降维。# 使用轮廓系数选择最优的K值。# 获取每个文本所属的聚类标签。# 创建TF-IDF向量化器。# 合并所有新闻文本内容。# 读取Excel文件。

2023-10-22 15:47:51 81

原创单文档内容bert分词

读取Excel文件中的文本数据（假设在第一个sheet中），跳过第一行。print("分词结果已保存至 Tokenized_News.xlsx")original_texts = [] # 用于存储还原后的文本。# 将带有分词结果的DataFrame写入新的Excel文件。# 将标记的ID转换回原始单词形式。# 将分词结果合并为一个字符串。# 去除特殊字符和标点符号。# 对A列的文本进行BERT分词。# 将还原后的文本添加为新的列。# 将分词结果添加为新的列。# 加载BERT分词器。

2023-10-21 14:48:57 129

原创 nltk文本清洗，包括正则式删除情态动词、过去式等

df["merged_text"] = df["标题"].astype ( str ) + " " + df["内容"].astype ( str )# 过滤停用词、自定义关键词、数字、单个字母和两个字母。# 将词频字典按值（TF值）从大到小排列。# 保存DataFrame为CSV文件。# 下载NLTK的停用词和词形还原器。# 初始化词形还原器和停用词列表。# 合并所有文本为一个文本块。# 创建DataFrame。# 自定义要清洗的关键词。# 读取Excel文件。# 合并标题和内容列。# 计算词频（TF）

2023-09-06 22:13:01 124

原创 Python分单篇文章提取核心词汇

df_indonesia['合并文本'] = df_indonesia['标题'].astype(str) + ' ' + df_indonesia['内容'].astype(str)df_indonesia['Cleaned_Content'] = df_indonesia['合并文本'].apply(clean_text_with_bert)df_laos['合并文本'] = df_laos['标题'].astype(str) + ' ' + df_laos['内容'].astype(str)

2023-09-06 16:32:16 203

原创新闻热度趋势图

quarterly_counts = cleaned_data.groupby([cleaned_data['时间'].dt.year, cleaned_data['时间'].dt.quarter]).size()row['时间'] = pd.to_datetime(row['时间'], format='%d/%m/%Y') # 根据实际格式调整。cleaned_data['时间'] = pd.to_datetime(cleaned_data['时间'])# 按照年份和季度聚合，统计每个季度的新闻数量。

2023-09-06 15:37:08 136

原创 nltk文本清洗

data['word2vec_model_path'] = 'word2vec_model.bin' # 保存Word2Vec模型路径到数据中。tfidf_vectorizer = TfidfVectorizer(max_features=1000) # 选择前1000个最重要的词汇。data['tfidf_features'] = tfidf_df.values.tolist() # 将TF-IDF特征列表添加到数据中。# 将TF-IDF特征和Word2Vec模型整合到原始数据中。

2023-09-06 15:36:34 158

原创 Python提取高频词作为话题词

nlp.max_length = 1500000 # 设置一个更大的值，根据你的文本长度调整。sheet_name = 'Sheet1' # 修改为实际的工作表名称。word_count_weight = 0.3 # 高频词得分权重。tfidf_weight = 0.7 # TF-IDF权重。print("提取的综合得分高频关键词作为话题词：")# 选择综合得分最高的词作为话题词。# 加载spaCy的英语模型。# 获取词汇表和对应的词语。# 计算TF-IDF权重。# 综合得分并选择话题词。

2023-09-06 15:36:03 381

原创聚类分析肘部法则

sheet_name = 'Sheet1' # 修改为实际的工作表名称。# 循环计算不同K值下的误差平方和和下降速率。# 清除NaN值，将它们替换为一个空字符串。# 存储每个K值对应的误差平方和和下降速率。# 绘制Inertia图和下降速率。# 创建TF-IDF向量化器。# 合并所有新闻文本内容。# 读取Excel文件。

2023-09-06 15:35:25 148

原创聚类分析轮廊系数法

print(f"Run {run + 1}, K={k}, 平均轮廓系数: {silhouette_avg}")nlp.max_length = 1500000 # 设置一个更大的值，根据你的文本长度调整。sheet_name = 'Sheet1' # 修改为实际的工作表名称。# 循环计算不同K值下的平均轮廓系数。# 清除NaN值，将它们替换为一个空字符串。num_runs = 1 # 运行次数。# 存储每次运行不同K值下的轮廓系数。# 加载spaCy的英语模型。# 绘制不同运行的趋势图。

2023-09-06 15:34:52 62

原创话题传播网络

plt.title("话题传播网络")# 使用布局算法设置节点位置。

2023-09-06 15:34:19 43

原创 TF-IDF文本向量化

tfidf_vectorizer = TfidfVectorizer(max_features=1000) # 选择前1000个最重要的词汇。# 将TF-IDF矩阵转换为DataFrame。# 将TF-IDF特征保存到新的Excel文件。# 创建一个TF-IDF向量化器。# 将清洗后的文本进行向量化。# 读取处理后的数据。

2023-09-06 15:33:39 561

原创 Python制作无向量图

sheet_name = 'Sheet1' # 修改为实际的工作表名称。# 使用CountVectorizer提取词频。# 使用 NetworkX 导出 GML 文件。# 清除NaN值，将它们替换为一个空字符串。# 将所有文本内容合并为一个字符串。# 计算关键词的共现关系并添加边。# 读取Excel文件。

2023-09-06 15:33:06 224

原创 LDA主题挖掘

sheet_name = 'Sheet1' # 修改为实际的工作表名称。# 清除NaN值，将它们替换为一个空字符串。# 使用spaCy进行分词和关键词提取。# 加载spaCy的英语模型。# 打印每个主题的关键词。# 读取Excel文件。# 去除停用词和符号。# 创建词典和语料库。

2023-09-06 15:32:34 73

原创 bert分词器及文本还原

df['合并文本'] = df['标题'].astype(str) + ' ' + df['内容'].astype(str)print("合并分词结果后的数据已保存至 Merged_Tokenized_News.xlsx")original_texts = [] # 用于存储还原后的文本。# 将带有分词结果的DataFrame写入新的Excel文件。# 将分词结果合并为一个字符串。# 逆向分词还原并将结果添加为新的列。# 将还原后的文本添加为新的列。# 将分词结果添加为新的列。# 合并标题和内容到一列。

2023-09-05 14:31:54 329

原创 bert分词及词还原

df['合并文本'] = df['标题'].astype(str) + ' ' + df['内容'].astype(str)df = pd.read_excel(file_path, header=0) # 使用第一行作为列名。df.drop(columns=['合并文本'], inplace=True)original_texts = [] # 用于存储还原后的文本。# 将带有分词结果的DataFrame写入新的Excel文件。# 将还原后的文本添加为新的列。# 将分词结果添加为新的列。

2023-09-04 19:53:28 327

原创 Python制作gephi代码

edge_weight = 1 / cooccurrence_count if cooccurrence_count > 0 else 0 # 避免除以零。# 使用 Counter 计算共现频率。df = pd.read_excel("新闻情感分析结果.xlsx")# 计算节点之间的共现关系并添加边。# 读取Excel文件中的数据。# 保存图为GraphML文件。# 获取主题和关键词列表。

2023-09-01 21:06:59 207 1

原创 Python networkX共现图，通过LDA主题关键词共现

pos = nx.spring_layout(G, seed=42) # 设置节点的布局。df = pd.read_excel("新闻情感分析结果.xlsx")# 读取Excel文件中的数据。# 计算节点之间的共现关系。# 获取主题和关键词列表。# 计算圈（环）权重。

2023-09-01 11:31:01 707 1

原创 LDA主题关键词挖掘，关键词带权重版

topics = lda_model.print_topics(num_words=10) # 每个主题显示前10个相关词汇。df = pd.read_excel('新闻情感分析结果.xlsx')print("进程已结束，退出代码为 0")# 显示带有权重的主题及其相关的词汇。# 退出代码为 0 表示正常结束。

2023-08-31 16:51:08 469

原创计算LDA内部协方差

num_topics_range = range ( 1, 11 ) # 不同主题数量范围。df = pd.read_excel ( '新闻情感分析结果.xlsx' )plt.title ( '不同主题数量下的主题一致性比较' )plt.ylabel ( '主题一致性' )plt.xlabel ( '主题数量' )# 计算主题一致性并添加到列表中。# 运行代码一次，记录主题一致性结果。# 创建空列表来存储主题一致性。# 定义函数计算主题一致性。# 循环不同的主题数量。

2023-08-31 16:49:37 331

原创情感三元分析

sentiment_df.to_excel ( '老挝新闻情感分析结果.xlsx', index=False )print ( "情感分析完成，并已保存结果到印度尼西亚新闻情感分析结果.xlsx" )df = pd.read_excel ( '老挝新闻文本清洗.xlsx' )sentiment = -1 # 负面情感。sentiment = 1 # 正面情感。# 创建一个空的DataFrame来存储情感分析结果。# 获取情感分数（介于-1和1之间）# 保存情感分析结果到Excel文件。

2023-08-30 21:20:05 57

原创基于TEXTBLOB情感分析

print ( "情感分析完成，并已保存结果到 sentiment_analysis_results.xlsx" )# 创建一个空的DataFrame来存储情感分析结果。# 获取情感分数（介于-1和1之间）# 将结果添加到DataFrame中。# 使用TextBlob进行情感分析。# 根据情感分数判断情感类别。# 保存情感分析结果到Excel文件。# 读取已处理的新闻文本。

2023-08-30 19:12:28 284

原创基于bert分词处理及还原，没运行成功

tokens = [word for word in tokens if word not in stop_words] # 去除停用词。data['cleaned_content'] = data['内容'].apply(preprocess_text)text = re.sub(r'[^\w\s]', '', text) # 去除标点符号。sheet_name = 'Sheet1' # 修改为实际的工作表名称。data['内容'].fillna('', inplace=True)

2023-08-30 11:19:31 119

原创两个新闻源发布新闻时间折线图对比

indonesia_article_count = Bdata.groupby(indonesia_data['时间'].dt.to_period('Q')).size()laos_article_count = A_data.groupby(laos_data['时间'].dt.to_period('Q')).size()# 根据日期对文章数量进行分组统计，按季度采样。# 获取季度第一个月和最后一个月的日期。# 格式化季度显示为年份和季度的组合。# 在每个数据点上显示标签数量。

2023-08-29 17:26:30 117 1

原创 LDA主题挖掘并通过一致性分数和困惑度进行验证

titles = data['标题'].tolist()

2023-08-29 16:00:33 1359 1

原创 Coherence Score验证LDA主题分类水平

假设您有一个名为 "cleaned_title" 的列，包含了新闻标题。titles = data['内容'].tolist()# 计算 coherence score。# 下载停用词和分词器所需的数据。# 初始化分词器和停用词。# 读取Excel文件。# 训练 LDA 模型。# 分词并去除停用词。

2023-08-29 00:33:38 329 1

原创 LDA挖掘主题文本

假设您有一个名为 "cleaned_title" 的列，包含了新闻标题。num_topics = 10 # 指定主题数量。# 使用 KMeans 聚类为主题添加标签。# 使用 PCA 进行降维和可视化。# 使用 LDA 模型拟合数据。# 计算关键词的词向量表示。# 将标题转换为词频向量。# 获取每个主题的关键词。# 读取Excel文件。# 打印每个主题的标签。

2023-08-28 21:41:31 83 1

原创文本清洗，nltk

tokens = [word for word in tokens if word not in stop_words] # 去除停用词。data['cleaned_content'] = data['内容'].apply(preprocess_text)text = re.sub(r'[^\w\s]', '', text) # 去除标点符号。tokens = nltk.word_tokenize(text) # 分词。data['内容'].fillna('', inplace=True)

2023-08-27 20:13:44 52

原创文本清洗，nltk和bert相互打架记录

tokens = [word for word in tokens if word not in stop_words] # 去除停用词。data['cleaned_content'] = data['内容'].apply(preprocess_text)text = re.sub(r'[^\w\s]', '', text) # 去除标点符号。tokens = nltk.word_tokenize(text) # 分词。data['内容'].fillna('', inplace=True)

2023-08-27 20:12:19 121

原创文本处理，nltk清洗+bert分词

tokens = [word for word in tokens if word not in stop_words] # 去除停用词。data['cleaned_content'] = data['内容'].apply(preprocess_text)text = re.sub(r'[^\w\s]', '', text) # 去除标点符号。tokens = nltk.word_tokenize(text) # 分词。data['内容'].fillna('', inplace=True)

2023-08-27 16:01:00 152

原创基于BERT分词器对新闻文本进行分词

tokens = tokenizer.tokenize ( str ( text ) ) # 确保将文本转为字符串类型。df = pd.read_excel ( file_path, header=0 ) # 使用第一行作为列名。print ( "合并分词结果后的数据已保存至 Merged_Tokenized_News.xlsx" )# 将带有分词结果的DataFrame写入新的Excel文件。file_path = '目标文档.xlsx'# 将分词结果合并为一个字符串。# 将分词结果添加为新的列。

2023-08-27 13:08:41 158

层次聚类了解一下，感觉比LDA更靠谱

PYTHON自然语言处理中文版(OCR)

“蹭流量”下网络公共舆论形成机制研究-王戈

空空如也