time3
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
56、学习感觉运动系统的组合层次结构
本文提出一种基于组合层次结构的感觉运动系统计算模型,用于机器人和人类运动建模。该模型通过构建运动系统与环境的组合层次结构(如CHARMS),实现高效的正向与逆向运动学求解,具有高泛化能力、低空间复杂度、对奇点免疫等优势。模型从感觉运动数据中学习结构并链接节点,无需先验运动学知识,适用于高自由度系统如类人机器人Nao。实验表明其误差随数据量增加而收敛,且在真实动作序列中表现出良好的可扩展性。未来工作将引入动力学因素,并结合智能优化策略提升性能。原创 2025-10-21 09:32:39 · 28 阅读 · 0 评论 -
55、多类学习与传感器运动系统的组合层次学习
本文提出了一种结合多类学习与传感器运动系统的组合层次学习方法。在多类学习方面,通过引入不同先验分布(如狄利克雷、杰弗里斯和均匀先验)并结合EM算法进行参数估计,有效处理了不确定标注下的分类问题。实验结果表明,该方法在多类AUC和分类错误率上优于基线方法和多项式逻辑回归(MLR),尤其在高不确定性环境下表现出更强的鲁棒性。在传感器运动系统学习方面,受人类大脑深度架构启发,构建了基于AND-OR图的组合层次表示模型,实现了对机器人正向/逆向运动学的有效建模,并在模拟环境和Nao机器人上验证了其有效性。整体方法展原创 2025-10-20 15:21:19 · 25 阅读 · 0 评论 -
54、机器学习中的偏好学习与多类别不确定标注学习
本文探讨了机器学习中的两种重要方法:偏好学习与多类别不确定标注学习。偏好学习通过人类提供的相对偏好信息优化策略,降低对专家演示的依赖,具有反馈简单、超参数少的优势,并可与主动学习结合减少反馈需求。多类别不确定标注学习则针对众包环境下标注者提供的噪声标签和不确定性问题,提出基于贝叶斯框架的模型,利用最大后验估计和EM算法联合估计真实标签、分类器及标注者可靠性。文中详细分析了三种处理不确定性的先验分布——均匀分布、基于历史数据和自适应先验,并比较其优缺点。最后,文章探讨了两种方法的结合应用,如在医疗诊断和自动驾原创 2025-10-19 13:01:47 · 34 阅读 · 0 评论 -
53、基于偏好反馈学习的策略迭代算法
本文提出一种基于偏好反馈的策略迭代算法,用于解决传统强化学习中难以定义数值奖励的问题。该方法通过成对轨迹比较获取非数值反馈,适用于非专家用户提供偏好信息的场景。算法在山地车、倒立摆和机械臂三个基准任务上进行了评估,结果表明其虽收敛较慢,但参数调整简便,具有良好的应用潜力。未来工作将聚焦于提升收敛速度、处理部分序偏好及拓展实际应用场景。原创 2025-10-18 10:14:37 · 29 阅读 · 0 评论 -
52、本体数据库系统与触发器
本文探讨了基于触发器的本体数据库系统,介绍其在语义网本体与大规模数据管理中的应用。系统通过分解存储模型生成数据库模式,并利用触发器实现子类关系、域范围限制等逻辑推理,提升查询性能与数据一致性。相比视图方法,触发器在数据加载时完成前向传播,显著加快查询响应。文章分析了技术优势、操作步骤、应用场景如玻璃识别与神经电磁本体,并讨论了大型本体处理、数据维护与性能优化等挑战及应对策略,展示了该方法在生物医学、电子商务和智能交通等领域的拓展潜力。原创 2025-10-17 09:49:26 · 31 阅读 · 0 评论 -
51、视频自动标签校正与本体数据库系统技术解析
本文深入解析了视频自动标签校正技术与本体数据库系统的核心方法与应用。在视频标签校正方面,介绍了基于BOW和FP子向量的特征处理、非对称相似度度量及结合统计测试的标签传播算法,并通过实验验证了LCM+SLIM+标签信息在30个邻居下的最优性能。在本体数据库系统方面,探讨了利用触发器嵌入本体知识的方法,提升了查询效率,并展示了其在玻璃识别和神经科学中的应用潜力。最后提出了未来研究方向,包括引入视频时序特征、优化大规模本体处理及实现实时数据集成。原创 2025-10-16 10:51:43 · 18 阅读 · 0 评论 -
50、动态贝叶斯网络结构学习与视频自动标签校正技术解析
本文探讨了动态贝叶斯网络(DBN)结构学习与视频自动标签校正两项关键技术。在DBN领域,DMMHC算法在结构学习中表现出优于GS等传统方法的性能,具备更高的准确性和可扩展性,并提出了结合时间约束、禁忌搜索及与其他算法融合的优化方向。在视频标签校正方面,系统通过BOW与频繁模式挖掘(如SLIM)提取高区分性特征,结合k近邻与标签传播实现标签优化,同时提出在特征融合、降维、自适应阈值和语义信息引入等方面的改进路径。研究展示了两类技术在各自领域的有效性,并展望了未来结合动态建模与多媒体分析的潜在应用。原创 2025-10-15 14:11:25 · 21 阅读 · 0 评论 -
49、动态贝叶斯网络结构学习的局部搜索算法:Dynamic MMHC
本文提出了一种用于动态贝叶斯网络(DBN)结构学习的局部搜索算法——Dynamic MMHC,该算法通过改进静态MMHC算法,结合DMMPC邻域识别与对称校正机制,有效处理时间维度约束下的高维数据建模问题。算法分为初始模型G0和过渡模型G→的构建,利用局部信息指导全局贪心搜索,在保证准确性的同时显著提升可扩展性。实验结果表明,DMMHC在合成与真实数据集上均优于传统基于得分的方法,在边重合率和运行效率方面表现优越,适用于语音识别、目标跟踪等复杂序列建模任务。原创 2025-10-14 13:46:21 · 48 阅读 · 0 评论 -
48、负类标签缺失情况下的分类器评估
本文探讨了在负类标签缺失或存在系统性偏差的情况下,常用分类器评估指标AUROC和AUPR的表现。通过在27个真实数据集及一个合成数据集中注入三种类型偏差(完全随机偏差BCAR、随机偏差BAR、非随机偏差BNAR),分析了C4.5、朴素贝叶斯、K近邻、SVM和MLP等分类器在不同偏差水平下的性能变化。实验结果表明,不同类型和程度的标签偏差会显著影响评估指标的可靠性:C4.5倾向于高估AUROC而低估AUPR,NB则相反。研究强调结合多种评估指标以识别潜在数据偏差,并提出了一种可用于检测和分析标签错误问题的通用原创 2025-10-13 13:19:53 · 22 阅读 · 0 评论 -
47、小说写作与分类器评估的计算特性探索
本文探讨了叙事结构的有序可视化在小说写作中的应用,以及分类器评估中数据偏差的影响。通过层次聚类等可视化技术,可有效识别文本中的异常章节并优化创作流程;在生物信息学案例中,分析了蛋白质相互作用分类器因系统性误标记导致性能评估偏差的问题。文章结合TooManyCooks和The Writer’s Desk项目实例,揭示了可视化工具对创作与审稿的支持作用,并指出在存在系统偏差的情况下,传统评估指标如AUROC和AUPR可能高估模型性能。最后强调需深入理解数据偏差类型,以提升分类器评估的准确性与可靠性。原创 2025-10-12 11:38:19 · 30 阅读 · 0 评论 -
46、电信客户流失预防与小说创作计算特性研究
本文探讨了电信客户流失预防与小说创作计算特性两个领域的研究。在电信领域,通过实际测量网络质量构建解释性模型,揭示客户流失原因,并推动以客户为中心的网络管理;在小说创作领域,利用数据挖掘与可视化技术分析叙事风格与结构,辅助创作优化与市场定位。研究还比较了两者的共性,提出多维度可视化、实时反馈及跨领域应用的未来方向,展现了数据驱动方法在不同行业中的广泛应用潜力。原创 2025-10-11 12:15:12 · 18 阅读 · 0 评论 -
45、电信客户流失预防:被遗忘的网络
本文探讨了电信客户流失预防中被忽视的物理网络因素,提出一个以实际网络质量参数为核心的解释模型。研究基于15万后付费用户数据,融合CRM与网络数据库,构建包含合同、使用行为与网络质量的多维特征集。通过逻辑回归与决策树方法开发评分模型,并采用CoC指标评估性能。结果表明,虽然纯网络模型预测性能略低于营销活动模型,但其具备重要解释价值,能为技术部门提供明确优化方向。研究推动网络管理从‘以网络为中心’向‘以客户为中心’转变,显著提升客户满意度并降低流失风险。文章还分析了关键网络参数如配置错误、通话中断、2G/3G使原创 2025-10-10 10:19:26 · 26 阅读 · 0 评论 -
44、高斯地形共聚类模型与电信客户流失预防研究
本文研究了高斯地形共聚类模型(GBGTM)在连续数据表投影中的应用,展示了其在聚类与映射性能上优于传统生成地形映射(GTM)的优势。同时,将该模型思想应用于电信客户流失预防,提出一种基于网络优化的主动预防方法,通过构建解释性流失模型识别关键网络因素,并进行针对性优化,显著降低客户流失率。研究涵盖算法设计、实验验证及实际应用,推动了数据分析与电信运营的深度融合。原创 2025-10-09 09:09:53 · 16 阅读 · 0 评论 -
43、跨领域叙事构思与高斯地形协同聚类模型探索
本文探讨了跨领域叙事构思与高斯地形协同聚类模型的理论基础与应用前景。在叙事构思方面,利用高b-项潜力术语生成创意句子组合,并计划通过语义分析和启发式规则优化实现更长链条的叙事构建;在数据建模方面,提出结合潜在块混合模型(LBM)与生成地形映射(GTM)的协同聚类方法,用于处理具有块结构的连续数据,已在生物信息学中初步测试。未来将拓展至金融、市场营销等领域,同时通过众包验证与专家合作推动文化价值作品生成与跨学科知识发现。原创 2025-10-08 10:26:17 · 20 阅读 · 0 评论 -
42、通过跨上下文链接发现实现叙事构思
本文提出一种基于带状矩阵的跨上下文链接发现方法,用于支持创造性叙事构思。通过将文档-术语二进制矩阵转换为带状结构,并设计启发式方法对术语的桥接潜力进行评分,有效识别连接不同领域(如‘假设’句子与伊索寓言道德)的桥接术语。实验表明,该方法能发现具有语义关联的术语,进而生成连贯且富有创意的跨领域句子组合,为知识发现、信息整合与创意写作提供了新思路。原创 2025-10-07 09:38:18 · 18 阅读 · 0 评论 -
41、青光眼进展建模与跨语境叙事构思的创新探索
本文探讨了两项跨学科创新研究:利用细胞自动机结合遗传算法对青光眼视网膜神经节细胞损失进行建模,提升了疾病进展模拟的准确性;以及基于带状矩阵的跨语境叙事构思方法,通过识别不同领域间的桥接术语实现创意文本生成。研究展示了医学与计算创意领域的深度融合潜力,并展望了规则优化、三态模型、自动化生成等未来方向。原创 2025-10-06 12:16:00 · 19 阅读 · 0 评论 -
40、生物数据探索性分析与青光眼进展建模
本文介绍了两种在生物数据分析中的创新方法:基于概率密度函数的探索性数据分析方法EDAPFuN和利用细胞自动机(CA)对青光眼进展进行建模的技术。EDAPFuN通过分析高维空间中数据的分布模式,揭示聚类与稀疏性,并识别异常孤立基因;而CA模型结合遗传算法,模拟视网膜神经节细胞的死亡过程,预测青光眼的进展。两者在生物信息学中具有重要应用价值,未来可拓展至临床诊断与个性化医疗领域。原创 2025-10-05 12:30:04 · 16 阅读 · 0 评论 -
39、霍夫丁流分类器修正与高维数据探索性分析
本文探讨了霍夫丁流分类器的修正方法及其在真实与人工数据集上的性能表现,结果显示修正后的VFDT在减少错误决策、加快收敛速度、缩小模型规模和提升置信度可解释性方面均有显著优势。同时,介绍了一种基于邻居数量概率密度函数的高维数据探索性分析算法EDAPFuN,该方法能有效识别数据中的聚类结构、中心性与连续性特征,并可用于异常检测、数据降维和聚类优化等拓展场景。两种方法分别在流分类与高维数据分析领域展现出重要应用价值。原创 2025-10-04 11:58:30 · 18 阅读 · 0 评论 -
38、修正流挖掘中霍夫丁不等式的使用及相关研究
本文针对流分类算法中霍夫丁不等式的错误使用问题进行了系统修正,指出传统方法在前提条件和决策边界上的缺陷,并提出correctedVFDT方法。该方法通过重新定义决策边界和引入满足霍夫丁不等式条件的质量增益作为分裂函数,确保了分裂决策的可靠性与可解释性。同时,文章探讨了涉及交互对象的活动学习模型的局限性及非参数方法的应用前景,并展示了correctedVFDT在误差率、决策速度和准确性方面的优势。实际应用涵盖视频监控与金融交易监测,未来研究方向包括非参数方法深化、霍夫丁不等式相关优化及流分类算法的广泛扩展。原创 2025-10-03 15:44:37 · 25 阅读 · 0 评论 -
37、基于LEMAIO框架的多对象交互活动建模与分析
本文介绍了LEMAIO框架在多对象交互活动建模与分析中的应用。该框架通过多层次学习机制,从单对象活动、关系、关系变化到原子活动和复杂活动,实现了对交互行为的全面建模。基于海上船只会合与避碰场景的实验表明,LEMAIO不仅在活动分类中取得F-度量0.84的优异性能,还支持活动生成与多对象跟踪,展现出优于传统方法的灵活性与实用性。文章详细阐述了其学习流程、生成机制及技术优势,并展望了未来在非传统关系建模与多领域应用中的潜力。原创 2025-10-02 12:37:04 · 16 阅读 · 0 评论 -
36、1d-SAX与LEMAIO:时间序列处理与活动建模的创新方法
本文介绍了两种创新的数据分析方法:1d-SAX和LEMAIO。1d-SAX是一种新颖的时间序列符号表示方法,通过量化线性回归的平均值和斜率信息,在减少近似误差的同时提升拟合精度,并结合非对称查询有效降低计算成本;LEMAIO是一个多层框架,用于从传感器数据中学习涉及多个交互对象的复杂活动模型,通过四个抽象级别实现活动识别、跟踪与生成。实验表明,两种方法在分类、检索及实际应用如海上导航中均表现出优越性能,为时间序列分析与活动建模提供了新的解决方案。原创 2025-10-01 14:51:32 · 20 阅读 · 0 评论 -
35、维基百科类别网络与时间序列的符号化表示研究
本文研究了维基百科页面-类别网络的结构特征及其演化规律,发现非孤立类别、集群数量等在阈值影响下遵循幂律分布,并观察到最大集群随阈值变化的扩散现象。同时,介绍了一种改进的时间序列符号化方法1d-SAX,该方法在SAX基础上引入趋势信息,通过线性回归的斜率与均值联合量化,显著提升了高压缩率下的拟合优度、检索与分类性能。文章还探讨了参数选择、数据预处理等实际应用因素,并提出了未来在多领域应用拓展、技术融合及跨语言网络分析等方面的研究方向。原创 2025-09-30 14:05:20 · 33 阅读 · 0 评论 -
34、维基百科类别网络的聚类结构分析
本文研究了维基百科类别网络的聚类结构,提出了一种基于阈值过滤的t-组件框架,用于识别大规模类别网络中的连接良好组件。通过对2010至2012年英文维基百科数据的分析,发现网络具有显著的幂律行为和大类别扩散现象,揭示了类别集群在不同阈值下的结构演化规律。研究表明,随着网络规模增长,孤立类别数量保持稳定,而最大集群在特定阈值下会分裂为更具体的子集群,反映出分类系统的优化过程。t-组件框架具备良好的可扩展性和灵活性,但也面临计算复杂度高和语义理解不足的挑战。未来研究方向包括融合语义信息、拓展至其他社交网络以及开展原创 2025-09-29 10:50:26 · 38 阅读 · 0 评论 -
33、VBPCA与k-NN在Reddit数据集上的对比及维基百科类别网络结构分析
本文对比了k近邻(k-NN)与变分贝叶斯主成分分析(VBPCA)在小型和大型Reddit数据集上的性能表现,探讨了不同稀疏度下两种算法的分类误差与预测准确性,特别是对反对票和赞成票的估计能力。同时,文章还分析了维基百科类别网络的结构特性,研究了基于阈值过滤的连通分量变化规律及其语义扩散现象。结果表明,在极高稀疏度场景下VBPCA优于k-NN,而k-NN在中等稀疏条件下具有更快的运行速度。此外,提出了改进距离度量、参数初始化及集群动态分析等未来优化方向。原创 2025-09-28 09:21:01 · 33 阅读 · 0 评论 -
32、Web3D签名头像索引与Reddit投票数据集分析
本文研究了Web3D签名头像索引与Reddit投票数据集的分析方法。在Web3D签名头像索引方面,提出基于SML树和LCS算法的匹配方法,并与隐马尔可夫模型(HMM)对比,结果显示LCS在处理协同发音手势时精度更高且执行时间更短。对于Reddit投票数据集,采用k-NN和VBPCA两种方法进行分类预测,k-NN在标准场景下表现良好,而VBPCA对高维稀疏数据更具鲁棒性。文章还分析了两种方法的优缺点,并提出了未来研究方向,如推广至非标准3D场景、消除词典依赖、探索深度学习算法及融合多源信息等,为相关领域的技术原创 2025-09-27 12:24:15 · 23 阅读 · 0 评论 -
31、迈向Web3D手语化身索引
本文提出了一种基于内容的Web3D手语化身索引与检索框架,旨在解决聋人信息获取障碍。系统通过提取和规范化3D手语动作,利用动态规划和最长公共子序列(LCS)算法实现自动识别,并采用手语标记语言(SML)进行高效索引。支持文本和3D场景两种查询方式,实验结果显示在单字、双词和三词场景中识别准确率分别达96.5%、92%和90.5%。该技术在教育、媒体传播及虚拟现实等领域具有广泛应用前景。原创 2025-09-26 09:36:04 · 28 阅读 · 0 评论 -
30、多样性驱动的扩展搜索技术在数据挖掘中的应用
本文探讨了多样性驱动的扩展搜索技术在数据挖掘中的应用,重点分析了Top-k扩展、多样化Top-k扩展和无通信扩展三种方法的原理与实现。通过引入多样性约束,有效避免搜索过程陷入局部最优,提升算法性能。文章结合集合覆盖问题进行实例分析,并通过实验评估不同技术的效果,最后提出了未来研究方向,包括多样性保证、参数优化及跨算法应用等。原创 2025-09-25 09:09:01 · 16 阅读 · 0 评论 -
29、计算机性能预测与数据挖掘中的多样化策略
本文探讨了计算机性能预测中的非线性建模方法与数据挖掘中的多样性驱动扩展策略。在计算机性能预测方面,非线性模型能更有效地捕捉硬件动态特性,优于传统线性模型;未来可探索更优的线性和非线性模型以提升预测精度。在数据挖掘领域,通过扩展贪心启发式算法,利用并行资源探索更多解路径,有助于克服局部最优限制,提高模型质量。文章分析了扩展策略在集合覆盖等问题中的应用及其面临的计算开销、通信成本和参数选择等挑战,并提出未来研究方向,包括优化资源消耗、降低通信代价、智能参数调整及跨领域应用。整体旨在推动高性能计算与智能数据挖掘技原创 2025-09-24 11:19:24 · 12 阅读 · 0 评论 -
28、计算机性能预测中非线性建模的重要性
本文探讨了线性和非线性模型在计算机性能预测中的应用与比较,重点分析了多元线性回归(MLR)和基于延迟坐标嵌入的Lorenz类比法(LMA)在不同程序、采样率和预测horizon下的表现。研究表明,非线性模型在处理具有周期性或简单结构的代码(如row major和col major)以及长预测horizon时显著优于线性模型,尤其在低采样率下优势更加明显。尽管MLR模型简单高效,但在捕捉复杂动态方面存在局限。文章还提供了模型选择的实际建议,并指出了未来在模型优化、实验稳定性和实时预测方向的研究潜力。原创 2025-09-23 14:41:05 · 18 阅读 · 0 评论 -
27、时间序列分类与计算机性能预测的前沿探索
本文探讨了时间序列分类与计算机性能预测的前沿方法。在时间序列分类方面,提出基于判别特征加权的局部度量学习策略,通过TrainIntraMatch和TrainInterMatch算法构建判别匹配矩阵,并在多个合成与真实数据集上验证其优越性。在计算机性能预测方面,对比线性与非线性建模方法,利用硬件性能监视器数据构建多元线性回归与Lorenz类比模型,揭示非线性动态建模在捕捉复杂系统行为中的潜力。文章进一步比较两类任务的方法流程、评估方式与应用场景,分析实际应用价值及面临的挑战,并展望未来在算法优化、混合建模、跨原创 2025-09-22 12:43:29 · 20 阅读 · 0 评论 -
26、用于时间序列分类的多时间匹配学习
本文提出了一种用于时间序列分类的多时间匹配学习方法,通过引入基于方差/协方差判别准则的匹配机制,有效捕捉类别内的共同特征和类别间的最大差异特征。该方法首先定义了时间序列的类内和类间方差,并设计两阶段算法学习具有判别性的匹配矩阵:先最小化类内方差以发现类别内共享结构,再最大化类间方差以增强类别区分度。随后,利用学习到的匹配矩阵构建局部加权距离,结合k-最近邻进行分类。实验结果表明,该方法在合成和真实数据集上均优于传统DTW及其变体,尤其适用于具有复杂结构和多样化全局行为的时间序列分类任务。原创 2025-09-21 10:34:16 · 19 阅读 · 0 评论 -
25、OrderSpan:挖掘闭合部分有序模式
OrderSpan是一种用于挖掘闭合部分有序模式(po-patterns)的高效算法,能够直接在序列数据库中进行模式提取,支持包含重复项和项集的复杂序列。相比传统方法,OrderSpan采用两阶段模式增长策略,结合前缀与后缀属性,在挖掘过程中实时进行闭合性检查,避免了后处理开销,显著减少了结果集规模而不损失信息。实验表明,该算法在BreastCancer和Fresqueau等真实数据集上表现优异,尤其在生物信息学和环境监测等领域具有重要应用价值。未来将聚焦于算法优化、模式推广及可视化分析的进一步拓展。原创 2025-09-20 14:28:17 · 21 阅读 · 0 评论 -
24、主动学习与部分有序模式挖掘研究
本文探讨了主动学习与部分有序模式挖掘两个数据挖掘领域的重要研究方向。在主动学习方面,通过负二项式回归分析发现其性能增益多出现在早期预算阶段,且受输入类型和任务复杂度显著影响,连续输入更有利于性能提升,而逻辑回归在SE方法中表现优于SVM;QBC方法则显示出对分类器不敏感的特性。实验表明仅有约11%(SE)和6%(QBC)的实验出现性能增益,揭示主动学习效果的局限性与条件依赖性。在部分有序模式挖掘方面,提出了新型算法OrderSpan,能直接从序列数据库中挖掘封闭部分有序模式,利用有向无环图综合多个顺序模式,原创 2025-09-19 09:04:19 · 16 阅读 · 0 评论 -
23、主动学习何时有效?
本文通过全面的模拟研究探讨了主动学习在不同场景下的有效性及其性能增益。研究系统地分析了分类任务复杂度、分类器类型、初始标记数据量、贝叶斯错误率和输入维度等因素对主动学习性能的影响,并提出了一种基于得分差异比较的新评估方法,有效解决了传统评估中因自相关性和基准变异性带来的问题。结果表明,主动学习在复杂任务、高维数据及信息稀缺条件下更具优势,且其效果依赖于分类器的选择与任务特性。最后,文章展望了主动学习未来的发展方向,包括算法优化、跨领域应用以及与其他机器学习技术的融合。原创 2025-09-18 16:09:18 · 13 阅读 · 0 评论 -
22、时间序列建模的高斯混合模型
本文探讨了高斯混合模型在时间序列建模中的应用,重点介绍了其在短期到中期预测与缺失值插补中的实现方法。通过划分过去与未来变量,利用条件期望进行向量级预测,并引入全局均值与协方差约束以符合时间序列的统计特性,有效降低过拟合风险。实验表明,在存在缺失数据或多分量的挑战场景下,约束模型显著提升预测准确性。同时分析了AIC与BIC在模型选择中的表现差异,指出AIC更适合有约束模型的分量选择。最后总结了模型优势、约束重要性及未来研究方向,为时间序列建模提供了系统性的方法参考。原创 2025-09-17 14:48:16 · 37 阅读 · 0 评论 -
21、交互式发现有趣子组集与时间序列的高斯混合模型
本文探讨了数据挖掘中的两个重要方向:交互式发现有趣子组集与时间序列的高斯混合模型。在交互式子组发现中,通过模拟用户反馈、引入背景知识BK和多样化波束搜索,有效减少了不期望子组的重复发现,并显著降低用户工作量;实验结果显示该方法在多个数据集上均能高效运行。对于时间序列建模,采用延迟嵌入结合高斯混合模型,利用EM算法进行参数估计,并通过AIC/BIC准则选择最优组件数量,提升了预测与插值能力。文章还分析了两种方法的挑战与未来发展方向,包括用户兴趣建模、模式可视化以及多时间序列扩展等。原创 2025-09-16 09:41:11 · 15 阅读 · 0 评论 -
20、交互式发现有趣子组集合
本文提出了一种交互式多样化子组发现(IDSD)算法,通过引入用户反馈机制,有效解决了传统子组发现方法中存在的结果冗余和缺乏趣味性的问题。该方法在DSSD基础上,利用描述相似性和覆盖相似性度量将用户对子组的偏好推广至整个候选集,动态调整搜索方向,从而引导算法发现更新颖、可操作的模式。通过体育分析案例研究和定量评估验证了IDSD在减少冗余、提升结果趣味性以及降低用户干预成本方面的优势,展示了人机协作在探索性数据分析中的巨大潜力。原创 2025-09-15 14:35:23 · 16 阅读 · 0 评论 -
19、决策树中预测确定性的估计方法与评估
本文提出了一种用于估计决策树预测确定性的新方法(Clus-TPCE),通过为每个可能的标签构建多棵决策树并组合其预测结果,结合拉普拉斯平滑与剪枝策略,提升预测的可靠性与排名能力。实验在48个UCI数据集上进行,结果显示该方法在排名和可靠性估计方面显著优于原始决策树和集成方法,在概率估计上也表现良好。尽管存在计算成本高、仅支持单实例预测的局限性,但其与现有方法互补,适用于需要高可信度排序和可靠性评估的应用场景。未来研究方向包括批量处理扩展和不同剪枝策略的影响分析。原创 2025-09-14 09:35:43 · 16 阅读 · 0 评论 -
18、点过程行为聚类与决策树预测确定性估计
本文探讨了点过程行为聚类与决策树预测确定性估计两种方法。在点过程聚类中,通过平均轮廓曲线和AUC区分噪声与组件候选者,并使用ARI和AMI评估聚类质量,实验表明该方法在较长序列和高复制概率下表现优异。在决策树预测确定性估计方面,提出一种新方法:将待预测实例以不同标签插入训练集并构建多棵决策树,通过比较预测结果一致性来评估确定性。实验结果显示,该方法在概率估计、排序能力和可靠性估计上均优于标准决策树,且与集成方法相当,尤其适用于识别难以分类的不确定实例。原创 2025-09-13 13:46:26 · 20 阅读 · 0 评论 -
17、并行点过程中的模式挖掘与行为聚类
本文介绍了在并行点过程中进行模式挖掘与行为聚类的两种关键技术。一方面,提出了一种高效识别频繁模式的算法,通过点过程过滤和条件存储库显著提升了搜索效率;另一方面,设计了一种基于动态窗口、尖峰轮廓提取与加权归一化的行为聚类方法,结合DBSCAN等算法有效区分同步活动组与随机噪声。这些方法在神经生物学和数据挖掘领域具有重要应用价值,未来可进一步优化以应对大规模数据与多集合识别挑战。原创 2025-09-12 09:37:58 · 19 阅读 · 0 评论
分享