dundunmm-优快云博客

原创【每日一个知识点】锚点图（Anchor Diagram）

锚点图（Anchor Diagram）是一种数据可视化方法，用于展示特定的“锚点”（Anchor）在数据分析、深度学习、目标检测、图神经网络等领域的作用。在聚类（Clustering）任务中，锚点图用于展示数据点如何围绕聚类中心（Anchor Points）分布，常见于 K-Means、Self-CC 等聚类方法。锚点图展示初始聚类中心（Anchor Points）的位置，并在迭代过程中更新。在深度学习中，锚点图用于可视化高维特征空间中数据点的分布关系。数据点被分配到最近的锚点（聚类中心）。

2025-04-01 11:50:33 640

原创【论文阅读】Self-Correcting Clustering

目标分布的引入显著提升了深度聚类的效果。然而，大多数相关的深度聚类方法存在两个主要缺陷：(1) 依赖人工设计的目标分布函数，性能存在不确定性；(2) 聚类错误分配的累积。为了解决这些问题，本文提出了一种自校正聚类（Self-CC）框架。在 Self-CC 中，设计了一种鲁棒目标分布求解器（RTDS），用于自动预测目标分布并缓解错误分配的影响。具体而言，RTDS 通过建模聚类模块的训练损失分布，将根据聚类分配结果选出的高置信度样本划分为具有正确伪标签的已标记样本和可能错误分配的未标记样本。

2025-04-01 11:33:16 725 1

原创【数据集】人类细胞图谱（Human Cell Atlas, HCA）

人类细胞图谱（HCA）是一项全球性科学计划，旨在通过单细胞技术绘制人体所有细胞类型的综合参考图谱，从分子层面揭示健康与疾病的细胞基础。例如，在人类乳腺细胞图谱（HBCA）中，结合单细胞测序与空间蛋白组技术（PhenoCycler），解析了乳腺组织的细胞邻域和功能亚群。绘制了75种细胞状态，首次详细解析心脏传导系统细胞的分子特征及与神经胶质细胞的空间关系，为心律失常治疗提供新靶点。：结合单细胞测序与空间定位技术，揭示细胞间的物理接触与信号传递（如心脏传导系统细胞与神经胶质细胞的相互作用）。

2025-04-01 08:00:00 483

原创论文阅读：Dual Anchor Graph Fuzzy Clustering for Multiview Data

多视角锚图聚类近年来成为一个重要的研究领域，催生了多个高效的方法。然而，当前的多视角锚图聚类方法仍然面临三个主要挑战。首先，现实世界数据通常表现出不确定性和较差的可辨识性，导致直接从原始数据提取的锚图质量较低，影响聚类效果。其次，大多数现有方法假设视角之间存在公共信息，并主要利用这些信息进行聚类，从而忽略了视角特有的信息。第三，如何进一步探索和利用所学习的锚图以提升聚类性能仍然是一个开放性问题。为了解决这些问题，本文提出了一种新的双锚图模糊聚类方法。

2025-03-31 23:46:19 911 1

原创思维链（Chain of Thought, CoT）

思维链（Chain of Thought, CoT）是一种用于提升人工智能推理能力的方法，特别适用于需要多步推理的任务，如数学推理、常识推理和代码理解等。思维链是一种提升 AI 推理能力的有效方法，尤其适用于复杂任务，如数学推理、逻辑推理和代码分析。Auto-CoT 方法是指利用大量的标注数据，自动生成带有思维链推理过程的训练数据，使得模型在推理时能够更自然地展开逻辑步骤。在大语言模型（如 GPT、PaLM）中，思维链可以作为一种提示策略，通过示例引导模型进行分步推理。：如数学题、文本推理、科学推理等。

2025-03-31 20:24:07 239

原创置信网络（Belief Network）

置信网络是一种强大的概率模型，能够有效地表示和推理复杂的概率关系。每个节点都有一个CPT，用于表示该节点在给定**父节点（Parent Nodes）条件下的概率分布。例如：如果“肺癌”已经确定，X光检测结果就只依赖于肺癌，而不会受“吸烟”直接影响。，可以是离散的（如天气：晴天/雨天）或连续的（如温度：摄氏0-100°C）。：随着变量增多，计算联合概率的难度指数增长（NP难问题）。例如：某客户信用评分低，其贷款违约的概率可能更高。：在数据不足时，学习到的模型可能不准确。：从数据中估计条件概率表（CPT）。

2025-03-28 23:36:20 973

原创 AIGC（人工智能生成内容）

问题将得到更好解决。：游戏中的智能 NPC，提供真实的交互体验（如 AI 驱动的游戏角色）。：基于神经网络的 AI 作曲，如 OpenAI 的 Jukebox。：海报、LOGO、PPT 生成（如 Adobe Firefly）。：多模态 AI、Web3 结合、低门槛 AI 创作、工业领域应用。：AI 辅助教学（如 ChatGPT、New Bing）。：AI 主播、客服，降低人工成本（如百度 "度晓晓"）。：新闻、小说、广告文案自动生成（如 ChatGPT）。：AI 生成广告文案、图片、视频，提高投放效率。

2025-03-28 10:29:02 1002

原创多元数据（Multivariate Data）和多源数据（Multi-source Data）

多源数据是指数据来自多个不同的来源，可能是不同的数据库、传感器、文本、图像等。多元数据是指一个数据集中的每个样本都有多个变量，通常用于分析变量之间的关系。：客户数据包含年龄、职业、购买记录、索赔次数、车险保费等，这些变量构成一个。：信用评分数据集包含客户收入、还款历史、负债比率、信用卡消费额度等变量。通过数据融合，预测客户的健康风险、驾驶风险，从而个性化定价。：病人检查报告，包括身高、体重、血压、血糖等生理指标。：相关性分析、回归分析、主成分分析（PCA）。：决策树、随机森林、K-means 聚类等。

2025-03-27 23:52:53 663

原创多元数据（Multivariate Data）

例如，在保险行业的客户分析中，我们可能会收集客户的年龄、收入、购买记录、索赔次数等多个变量，这些数据构成了一个典型的。K-Means 聚类（K-Means Clustering）：用于将客户分为不同群体（高净值客户 vs 普通客户）。包括统计分析（PCA、因子分析）、机器学习（回归、聚类）和时间序列分析（ARIMA、LSTM）。线性回归（Linear Regression）：用于预测连续变量（如预测保险客户的年消费额）。：分析客户的年龄、职业、健康状况，评估其保险风险。

2025-03-27 23:51:10 649

原创 sample() 函数

sample()函数是 Pandas 中用于从 DataFrame 或 Series 中随机抽取样本的函数。你可以通过指定参数来控制抽样的方式。

2025-03-26 23:01:09 451

原创多智能体融合（Multi-Agent Fusion）

（Multi-Agent Fusion）是指在多智能体系统（MAS, Multi-Agent System）中，多个智能体（Agent）通过协作、竞争或共享信息，实现全局最优的智能决策和任务执行。：各智能体独立决策，适用于去中心化、自主决策的场景，如无人机集群、智能交通。：不同智能体可使用视觉、语音、文本等多模态数据，提高感知与决策能力。远程医疗中，智能体融合病理、基因、影像等多源数据，辅助疾病诊断。：智能体与人类协作，提高人机交互体验，如智能助手、辅助驾驶等。：增强多智能体的环境适应性，实现跨领域协作。

2025-03-26 22:49:35 1082

原创精准画像（Fine-Grained Profiling）

精准画像是一种基于大数据、人工智能和机器学习技术的个性化建模方法，通过整合多源数据，深度挖掘个体或群体的特征，从而精准刻画用户（如学生、客户、员工等）的行为模式、兴趣偏好、能力水平及发展趋势。：精准画像依赖于多模态数据，如行为数据（点击、浏览、购买、学习记录）、生理数据（健康状态、脑电信号）、社交数据（朋友圈、互动行为）等。：基于精准画像，可应用强化学习（RL）和因果推断（Causal Inference）技术，为个体提供个性化的学习路径、健康干预方案、智能推荐服务等，提升用户体验和决策效率。

2025-03-24 23:32:40 652

原创深度强化学习（Deep Reinforcement Learning, DRL）

深度强化学习（DRL）是强化学习（Reinforcement Learning, RL）与深度学习（Deep Learning）相结合的一种方法，能够在复杂环境中通过试错学习最优策略。它广泛应用于机器人控制、游戏 AI、个性化推荐、自主驾驶等领域。

2025-03-24 23:28:30 675

原创基于用户画像的推荐系统

推荐系统利用用户画像可以精准捕捉用户需求，提高推荐质量，解决数据稀疏、冷启动等问题。

2025-03-23 20:54:45 779

原创【论文阅读】Semantic Feature Graph Consistency with Contrastive Cluster Assignments for Multilingual Docum

多语言文档聚类（MDC）旨在基于主题类别对多语言文档进行无监督划分。然而，现有的MDC方法在实际任务中仍然存在诸多局限性。首先，大多数方法在同一特征空间内优化多个目标，从而导致学习一致共享语义与重构不一致的视图特定信息之间的冲突。其次，一些方法在融合阶段直接整合多语言文档的信息，从而忽略了不同语言特征之间的语义差异。为了解决上述问题，提出了一种新型多视图学习方法，称为，用于MDC任务。

2025-03-22 21:42:14 1141 1

原创社区检测（Community Detection）

社区检测（Community Detection）是复杂网络分析中的一个重要研究领域，旨在发现网络中具有紧密连接的节点群组（称为。：NetworkX（基础算法）、igraph（高效实现）、Gephi（可视化）、Stellargraph（GNN）。：Louvain（模块度优化）、Infomap（信息论方法）、Leiden算法（改进版Louvain）。：发现用户兴趣圈子或好友群组（如Facebook、Twitter中的社区）。：调整社区检测的粒度（例如发现大社区还是小社区）。：社区结构随时间变化的跟踪与分析。

2025-03-22 08:00:00 366

原创【论文阅读】Improving Image Contrastive Clustering Through Self-Learning Pairwise Constraints

本文提出了一种新型无监督对比聚类模型——基于自学习成对约束的图像对比聚类（ICC-SPC）。该模型通过将成对约束整合到对比聚类过程中，旨在增强图像数据的潜在表征学习并优化聚类效果。引入成对约束可有效降低对比学习中假阴性与假阳性的干扰，同时保持稳健的簇类区分能力。然而，在无监督场景下直接从无标签数据中获取先验成对约束极具挑战。为此，ICC-SPC设计了成对约束学习模块，通过挖掘潜在表征与聚类算法生成的伪标签之间的共识信息，自主推断数据样本间的成对约束关系。

2025-03-21 09:00:00 1042 1

原创边缘计算（Edge Computing）

边缘计算是一种将数据处理和计算能力从云端下沉到网络边缘（靠近数据源头）的技术架构，旨在减少延迟、节省带宽、提升实时性和隐私保护。边缘计算（Edge Computing）是一种分布式计算范式，它在数据源（如物联网设备、传感器、摄像头等）附近处理和分析数据，而不是将所有数据传输到远程云端进行计算。这样可以减少延迟、降低带宽消耗，并提高数据安全性和实时性。——在终端设备（如传感器、摄像头）或边缘节点（如基站、本地服务器）上完成数据采集、分析和决策，仅将必要结果上传至云端。

2025-03-21 08:00:00 1460

原创【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation

近年来，多行为推荐模型取得了显著成功。然而，许多模型未充分考虑不同行为之间的共性与差异性，以及目标行为的数据稀疏性问题。本文提出了一种基于对比聚类学习的全新多行为推荐模型（MBRCC）。具体而言，采用图卷积网络（GCN）分别获取用户和物品的嵌入表示。随后，设计了三种优化用户和物品嵌入的任务，包括行为级嵌入、实例级嵌入和聚类级嵌入。在行为级嵌入中，设计了一种自适应参数学习策略，以分析辅助行为对目标行为的影响，并通过对用户在各行为上的嵌入进行加权，获得最终的用户嵌入表示。

2025-03-20 12:58:43 1185 2

原创数字孪生（Digital Twin）

数字孪生（Digital Twin）是指创建物理实体或系统的虚拟模型，通过实时数据同步，使虚拟模型与物理对象保持一致，实现监测、分析和优化。它融合了物联网（IoT）、人工智能（AI）、数据分析和仿真技术，被广泛应用于制造、城市规划、交通、医疗等领域。数字孪生正从概念走向规模化应用，其价值在于打通物理与数字世界的闭环，推动各行业向智能化、可持续化转型。：动态、持续更新的实时镜像，能根据实际数据调整模型，支持长期监控与迭代优化。：创建心脏的数字孪生，模拟手术方案，降低风险。

2025-03-20 08:00:00 807

原创区块链（Blockchain）

保证数据的安全性和不可篡改性。区块链（Blockchain）是一种。

2025-03-19 23:33:13 710

原创文本纠错（Text Correction）

基于千亿参数模型（如GPT-4、ERNIE 3.0）的少样本/零样本纠错。：输入法纠错、OCR后处理、教育辅助（作文批改）、社交媒体内容清洗等。：联合优化检测与修正（如GECToR、LaserTagger）：包含错误的原始文本（如“我明天要去北京，希望天汽好。：修正后的规范文本（如“我明天要去北京，希望天气好。：避免过度修改正确内容（如“特朗普”误改为“川普”）。：结合语音、图像（OCR文本）等多模态信息提升鲁棒性。：修正需考虑长距离语义一致性（如代词指代）。：同音异字（如“天气”误写为“天汽”）

2025-03-19 08:00:00 1025

原创联邦学习（Federated Learning）

联邦学习（Federated Learning, FL）是一种分布式机器学习技术，它允许多个参与方（如设备、机构或企业）在。（提升跨域泛化能力），推动AI在隐私保护下的协同发展。的方式，保护数据隐私的同时，实现跨数据源的联合建模。：联邦学习将进一步结合。（去中心化模型管理）、

2025-03-18 23:15:38 1053

原创【人工智能】具身智能（Embodied Intelligence）

具身智能代表了AI从“计算智能”向“交互智能”的范式转变，其发展需跨学科协作（AI、机器人学、神经科学）和政策引导。具身智能的发展正在推动人工智能向更高级、更自主的方向发展，结合深度学习、强化学习与机器人技术，使 AI 更接近人类的智能模式。智能体（agent）不仅依赖计算和算法，还需要通过感知（如视觉、触觉）和行动（如机器人操作）与现实世界交互，实现自主学习和适应。：源自哲学（如梅洛庞蒂的“身体是拥有世界的方式”）、认知科学和神经科学，挑战传统AI的“符号主义”和“连接主义”范式。

2025-03-18 07:30:00 414

原创【论文阅读】Deep Multiview Clustering by Pseudo-Label GuidedContrastive Learning and Dual Correlation Lea

深度多视图聚类（Deep Multiview Clustering, MVC）旨在通过人工设计的深度网络，学习并利用多视图间的丰富关联以提升聚类性能。对比学习准确性不足：当前深度对比MVC方法通常仅将跨视图的同一实例样本对作为正例，其余样本作为负例，这种策略易导致对比学习（Contrastive Learning, CL）产生误差；双重关联缺失：现有方法多仅关注跨视图特征或簇单一层面的关联，而未能充分挖掘两者的双重相关性。针对上述问题，本文提出一种基于伪标签引导对比学习与双重关联学习。

2025-03-17 23:41:19 999 1

原创中国科技论文统计与引文分析数据库（CSTPCD）

每年根据期刊的学术影响力（如影响因子、总被引频次）进行增补或剔除。例如，2023年新增《分子影像学杂志》等期刊，剔除《癌症进展》等期刊。：期刊可通过CSTPCD的指标（如核心影响因子）优化办刊策略。：CSTPCD数据被编入《中国科技统计年鉴》，广泛应用于国家科技统计、高校科研评估及职称评审。（又称“中国科技论文统计源期刊”），是国内自然科学与工程技术领域的重要核心期刊类别之一。（含1998种中文期刊、167种英文期刊及407种社会科学期刊）。：以自然科学、工程技术为主，2023年收录期刊总数达。

2025-03-17 07:30:00 345

原创【论文阅读】Cross-View Fusion for Multi-View Clustering

多视图聚类近年来备受关注，因其能够利用多视图的一致性与互补性信息提升聚类性能。然而，如何有效融合多视图信息并平衡其一致性与互补性，是多视图聚类面临的共性挑战。现有方法多聚焦于加权求和融合或拼接融合，但这些方式难以充分融合潜在信息，且未考虑多视图一致性与互补性的平衡。为此，本文提出一种跨视图融合多视图聚类方法（CFMVC）。具体而言，CFMVC结合深度神经网络与图卷积网络实现跨视图信息融合，充分融合多视图的特征信息与结构信息。为平衡多视图的一致性与互补性，CFMVC通过增强同类样本间的相关性以。

2025-03-16 21:30:54 865 1

原创【人工智能】人工智能安全（AI Security）

人工智能安全是指保障人工智能系统免受各种攻击、滥用和错误操作的措施与技术。随着人工智能的广泛应用，AI的安全性问题变得越来越重要。AI安全不仅关注系统本身的稳定性与安全性，还涉及到如何确保AI的决策和行为是可预测、可靠、符合伦理标准的。AI安全涵盖多个领域，包括防止恶意攻击、确保数据隐私、实现透明与可解释性、以及避免AI模型的滥用。

2025-03-16 14:19:22 616

原创对比学习（Contrastive Learning）

对比学习（Contrastive Learning）是一种（Self-Supervised Learning）方法，其核心思想是通过的方式学习数据的潜在表示。它广泛用于无标签数据的特征提取，特别是在等任务中。对比学习通过，然后在嵌入空间（Embedding Space）中优化样本表示，使正样本更接近，负样本更远离。对比学习常使用对比损失函数（Contrastive Loss）来优化模型，使得相似样本的表示更加接近，不相似样本的表示更远。

2025-03-15 23:00:53 836

原创论文阅读：Deep multi-view clustering with diverse and discriminative feature learning

多视图聚类（MVC）在无监督学习中受到了广泛关注。然而，现有方法通常面临以下两个关键限制：(1) 许多方法依赖于融合所有视图的特征来识别聚类模式，这不可避免地降低了学习到的表示的区分性；(2) 现有方法主要关注挖掘不同视图之间的共同语义特征，而忽略了对表示多样性的促进。结果，它们未能充分利用视图间的互补信息，可能限制了表示学习的有效性。为了解决这些挑战，提出了一种新颖的、多样且可区分的特征学习框架——无融合的深度多视图聚类（DDMVC）。

2025-03-15 22:53:43 767 1

原创知识图谱与知识库

知识库通常聚焦于信息的存储和检索，内容较为静态，适用于存储大量的文本、规则和解决方案。知识图谱通过图结构表现实体及其关系，支持更丰富的语义推理与动态更新，适用于处理复杂的关系和推理任务。可以理解为，知识图谱是知识库的一种进化和扩展形式，它不仅关注知识的存储，还强调知识之间的语义关联和推理能力。

2025-03-15 07:00:00 579

原创【论文阅读】scCAT: Single-cell Combined graph Attentional clustering for scRNA-seq analysis

单细胞RNA测序（scRNA-seq）的出现彻底改变了单细胞水平的基因表达研究，使得能够研究细胞异质性并识别稀有细胞群体。深度聚类对于分析scRNA-seq数据集至关重要，它通过将细胞划分为子群体。然而，基因表达中的固有稀疏性和变异性对聚类准确性提出了挑战。为了解决这些问题，本文提出了一种新的无监督深度聚类方法——单细胞组合图注意力聚类（scCAT）。该方法设计了一个双分支联合降维（JDR）模块来学习基因表达。该策略在捕捉复杂的非线性关系的同时，保留了关键的方差，有效应对了单细胞数据的高维挑战。

2025-03-14 19:12:46 1085 1

原创知识图谱（Knowledge Graph, KG）

知识图谱（Knowledge Graph, KG）是一种通过图的结构来表示和存储知识的模型，其核心特征是使用节点和边来表示实体及其之间的关系，利用图结构的特性进行推理和查询。知识图谱不仅仅是一个数据存储工具，它还可以通过推理和计算发现数据之间隐含的关系，支持更高级的智能应用。

2025-03-14 15:23:26 854

原创【机器学习】迁移学习（Transfer Learning）

迁移学习（Transfer Learning）作为一种机器学习方法，主要通过将源域中学到的知识迁移到目标域，解决目标域中数据不足或标注困难的问题，尤其在无监督学习如聚类任务中具有显著优势。迁移学习的关键思想包括领域适应、知识共享和避免负迁移。它通过不同方式将源域的学习成果迁移至目标域，从而提高目标域学习效果。

2025-03-13 19:49:44 967

原创【数据挖掘】KL散度（Kullback-Leibler Divergence, KLD）

KL 散度是一种衡量两个概率分布相似度的重要工具，在机器学习、深度学习、NLP 和数据压缩等多个领域有广泛应用。它是非对称的，且可以用交叉熵来表示，在变分推断、信息论和深度学习模型优化中至关重要。是衡量两个概率分布 P 和 Q之间差异的一种非对称度量。它用于描述当使用分布 Q 逼近真实分布 P 时，信息丢失的程度。因此，最小化 KL 散度等价于最小化交叉熵。

2025-03-12 22:24:54 622

原创【论文阅读】scSFCL:Deep clustering of scRNA-seq data with subspace feature confidence learning

单细胞RNA测序（scRNA-seq）技术的快速发展催生了多种单细胞聚类方法。这些方法结合统计学和生物信息学，揭示细胞间基因表达的差异及细胞类型的多样性。然而，由于scRNA-seq数据具有高维度、稀疏性和噪声等特点，对单细胞数据的深入探索仍然面临诸多挑战。区分性属性信息往往难以被充分利用，而传统聚类方法可能无法准确捕捉细胞类型的多样性。因此，本文提出了一种基于子空间特征置信度学习的scRNA-seq深度聚类方法（scSFCL）。

2025-03-12 21:52:23 1497 1

原创协同聚类（Co-clustering）：概念、算法与应用解析

与传统聚类方法（如 K-means）仅针对样本（行）或特征（列）进行独立聚类不同，协同聚类旨在发现。例如，在生物信息学中，协同聚类可用于发现某些基因在特定实验条件下具有相似的表达模式，从而揭示潜在的生物学机制。随着计算能力的提升和深度学习的融合，协同聚类的应用前景将更加广阔。：如用户-物品评分数据，协同聚类可提高模式发现能力。协同聚类是一种强大的数据分析方法，能够同时发现。：算法的效果依赖于适当的超参数选择。：数据中的异常值可能影响聚类质量。，即数据矩阵中的局部相关模式。，是一种同时对数据矩阵的。

2025-03-11 09:00:00 1373

空空如也

空空如也