
数据预处理
文章平均质量分 64
代码的建筑师
数字图像处理、机器学习、深度学习、数据库设计、汇编语言、数据分析、人工智能、主题聚类、模型运用与训练、数据可视化、自然语言处理、Python语言、云服务器使用、MySQL、自然语言理解、环境风险评估、数据驱动、图表绘制、强化学习、气候建模、计算机视觉、R语言、数据集整理、爬虫
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Google浏览器版本更新导致的更换驱动出现的问题(自用)
更新 ChromeDriver 以匹配 Google 浏览器版本:查看浏览器版本(方法一:设置 > 关于;方法二:输入 chrome://version/)。使用终端命令 where chromedriver 找到旧版路径并删除 chromedriver.exe。从 Chrome for Testing 下载新版本驱动。更新环境变量(可选,若原位置更新则无需更改)。运行 chromedriver --version 验证更新,若失败可运行 ipconfig /flushdns 清除缓存。原创 2025-02-20 12:03:12 · 503 阅读 · 0 评论 -
Embedding模型选取(自用)
本文介绍 embedding 模型选取要点,包括句子长度、向量维度、模型大小等四点要求,还提及内部实现过程与主题相关模型训练流程,并推荐在 Huggingface 上找模型排行榜以助选择。原创 2025-02-18 17:23:48 · 235 阅读 · 0 评论 -
BERTopic模型使用的注意事项(自用)
本文介绍了如何使用BERTopic进行文本主题建模和可视化。BERTopic结合了SentenceTransformer、UMAP和HDBSCAN等工具,能够高效地从文本数据中提取主题。通过visualize_topics()方法,可以直观地展示主题分布;visualize_hierarchy()方法则用于呈现主题的层次结构。此外,visualize_heatmap()和visualize_barchart()方法分别用于展示主题间的相似度和关键词权重。这些可视化工具帮助用户更好地理解和解释主题建模的结果。原创 2025-02-11 20:36:25 · 830 阅读 · 0 评论 -
BERTopic主题聚类模型的认识(自用)
本文探讨了基于BERTopic的主题建模技术及其多种实现方式。BERTopic结合了BERT嵌入和聚类算法,能够高效提取文本数据的主题。通过使用不同的嵌入模型(如SentenceTransformer、OpenAI模型)和调整降维(UMAP)及聚类(HDBSCAN)参数,可以灵活优化主题建模效果。此外,还介绍了利用TF-IDF向量进行主题建模的方法,以及如何通过自定义降维模型实现无降维的主题提取。这些方法为文本分析提供了多样化的工具,有助于深入挖掘文本数据的内在结构和主题信息。原创 2025-02-09 23:05:26 · 2519 阅读 · 0 评论 -
高维数据降维的三种方法(自用)
摘要:本文对比了PCA、t-SNE和UMAP三种降维方法。PCA是线性方法,时间复杂度为 O(n3),适合线性数据,能保留较多原始信息。t-SNE是非线性方法,时间复杂度为 O(nlogn),擅长保留局部结构,但不适合大规模数据且无法捕获全局结构。UMAP通过拓扑结构实现降维,时间复杂度为 O(n1.14),能同时保留全局和局部结构,适合复杂数据。实验表明,UMAP在处理复杂数据时表现最佳,其次是t-SNE和PCA原创 2025-02-09 13:36:03 · 593 阅读 · 0 评论