肥宅快乐水901
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
27、目标检测与空间关联模式挖掘技术解析
本文深入解析了目标检测与空间关联模式挖掘技术的发展现状与应用前景。目标检测部分重点介绍了YOLOv3模型及其改进版本在车辆检测和分类中的应用,并与其他模型如SSD进行对比评估。同时,文章探讨了多目标跟踪技术的发展及常用数据集。在空间关联模式挖掘方面,分析了传统方法的局限性,并提出了一种基于Spark的并行挖掘方法,展示了其在处理大规模空间数据时的性能优势。文章还总结了这两项技术在智能交通、公共卫生和城市规划等领域的应用潜力与未来研究方向。原创 2025-09-07 00:35:08 · 100 阅读 · 0 评论 -
26、重型车辆分类与方向跟踪的深度学习方法
本文探讨了基于深度学习的重型车辆分类和方向跟踪方法。重点分析了YOLOv3和SSD两种检测算法的性能,比较了其在不同场景下的分类准确性和内存需求。同时,结合SORT和Deep SORT多目标跟踪算法,实现了车辆方向的高效跟踪,并讨论了实际应用中的挑战和未来改进方向。研究结果表明,YOLOv3在分类性能和稳定性上优于SSD,而Deep SORT在跟踪中能有效减少ID切换并应对遮挡问题,为交通管理和物流运输提供了技术支持。原创 2025-09-06 13:14:45 · 49 阅读 · 0 评论 -
25、跨癌症基因组分析与重型车辆分类的深度学习应用
本博客探讨了深度学习在两个不同领域的应用:跨癌症基因组分析和重型车辆分类。在癌症研究方面,通过使用基因表达数据和机器学习模型(如多层感知器),实现了癌症的泛癌症诊断,并比较了基于不同基因集合的模型性能。在交通领域,利用深度学习模型 YOLOv3 和 SSD 对重型车辆进行识别和分类,并提出了一种基于视频分析的车辆行驶方向识别方法。博客总结了两个领域的研究成果,并展望了未来的发展方向,包括优化模型性能和整合多源数据以提升应用效果。原创 2025-09-05 10:25:57 · 68 阅读 · 0 评论 -
24、大数据时代下跨癌症基因组分析的癌症分类研究
在大数据时代背景下,跨癌症基因组分析为癌症分类和诊断提供了新的研究方向。本研究利用TCGA数据库中的RNA测序数据,结合无监督学习和监督学习方法,探索基因表达数据在癌症组织起源和状态识别中的潜力。通过特征选择、主成分分析(PCA)、t-SNE可视化、高斯混合模型(GMM)聚类以及多层感知器(MLP)分类,研究发现仅一小部分基因即可实现对多种癌症及健康组织的准确区分。研究结果表明,机器学习方法在跨癌症基因组分析中具有较高的可行性和应用价值,为癌症的早期诊断与个性化治疗提供了理论支持和技术路径。原创 2025-09-04 10:30:05 · 58 阅读 · 0 评论 -
23、大数据时代的临床试验数据管理
本文探讨了大数据时代下的临床试验数据管理方法,重点介绍了通过语义数据模型来组织、规范化和分析临床试验信息的过程。文章涵盖了数据提取、名称规范化、语义丰富化、结果关联、模型构建以及应用开发等关键步骤,并通过实际案例展示了该方法在处理来自 ClinicalTrials.gov 的试验数据时的有效性。同时,文章还讨论了数据标准化、多领域合作和可视化在临床试验数据管理中的重要性,并对未来的研究方向提出了展望。原创 2025-09-03 16:15:55 · 47 阅读 · 0 评论 -
22、大数据时代的临床试验数据管理
本文探讨了大数据时代下临床试验数据管理的挑战与解决方案,重点介绍了临床试验的协作与管理体系、大数据环境下信息管理的困难,以及通过语义数据模型和相关技术实现数据标准化、整合与分析的方法。文章还回顾了相关工作,详细描述了语义数据模型的构建步骤、元素和应用案例,并讨论了应用程序的功能、评估与未来发展趋势。原创 2025-09-02 09:13:29 · 70 阅读 · 0 评论 -
21、化学XAI助力发现可能的化合物空间与临床试验数据管理
本博文介绍了化学XAI系统在发现潜在化合物空间中的应用,以及其在生物活性预测和可解释性方面的优势。同时,讨论了临床试验数据管理在大数据时代的重要性,并探讨了两者结合的潜在应用及未来发展方向。原创 2025-09-01 15:55:44 · 42 阅读 · 0 评论 -
20、动态UTeSp模型与化学XAI系统:信息驱动的创新解决方案
本文介绍了两种信息驱动的创新解决方案:动态UTeSp模型和化学XAI系统。动态UTeSp模型通过用户级注意力机制和空间信息的有效利用,解决了连续兴趣点推荐中的数据稀疏性和个性化需求问题。而化学XAI系统则通过基于相似性和生物测定存在比率的方法,高效、准确地从大量化合物中发现具有生物活性的候选物。两者分别在位置推荐和化学化合物研发领域展现了卓越的性能和应用潜力,未来有望在更多领域拓展和交叉应用。原创 2025-08-31 12:25:03 · 80 阅读 · 0 评论 -
19、UTeSp模型:多交互协同影响下的POI推荐
本文提出了一种基于用户、时间与空间多交互协同影响的POI推荐模型UTeSp。该模型通过层次聚类方法实现个性化的时间动态划分,并结合幂律分布对用户空间行为进行建模。UTeSp综合考虑用户兴趣偏好、时间划分和空间信息的影响,利用位置偏序和时间偏序两种优化目标进行模型推导和学习,从而提升连续POI推荐的准确性和个性化程度。实验结果表明,UTeSp在真实数据集上显著优于现有主流模型,并验证了动态时间划分、空间信息及用户社交影响对推荐性能的积极提升作用。原创 2025-08-30 15:34:06 · 56 阅读 · 0 评论 -
18、商业问题假设验证与连续 POI 推荐模型研究
本博文探讨了商业问题假设验证与连续POI推荐模型的研究。首先,通过分析银行客户流失数据集,使用XGBoost分类器和SHAP解释模型验证了客户流失相关问题假设。其次,针对连续POI推荐问题,提出了UTeSp模型,结合用户兴趣偏好、时间动态划分和可解释学习方法,有效提升了推荐准确性和可解释性。研究展示了在实际业务场景中的应用潜力,同时指出了当前局限性,并提出了未来改进方向。原创 2025-08-29 14:01:42 · 65 阅读 · 0 评论 -
17、利用机器学习验证面向目标的业务问题假设
本文介绍了一种名为Metis的方法,用于支持面向目标的业务问题假设和验证。该方法结合了机器学习和本体建模,通过四个步骤将业务目标与数据分析相结合,帮助组织更好地理解数据并做出明智的决策。文章还通过银行客户流失的案例研究展示了Metis方法的实际应用及其效果。原创 2025-08-28 15:51:47 · 60 阅读 · 0 评论 -
16、异构缺失数据插补的集成学习方法
本文介绍了一种基于集成学习的异构缺失数据插补框架,结合随机森林、Jaccard指数和贝叶斯概率方法,能够有效处理标记和未标记数据集中的连续、离散、分类和二进制数据类型的缺失值问题。该框架在多个数据集和评估指标(如RMSE、R²和误分类误差)上均表现出优于传统统计方法和基于模型方法(如GLRM、PCA)的性能。实验结果表明,该方法无需对分类数据进行额外转换,具有良好的可扩展性和应用前景。原创 2025-08-27 13:07:50 · 45 阅读 · 0 评论 -
15、异构缺失数据插补的集成学习方法
本文提出了一种基于集成学习的异构缺失数据插补框架,结合了自适应随机森林、Jaccard指数和贝叶斯概率方法,有效处理连续、离散、分类和二进制数据中的缺失值问题。该框架无需对数据分布做假设,适用于线性和非线性数据集,并在多个数据集上验证了其优越性能。原创 2025-08-26 13:56:32 · 36 阅读 · 0 评论 -
14、动态 OD 客流矩阵估计的数据驱动方法
本文介绍了一种数据驱动的方法KGmet,用于预测城市地铁系统中的动态OD(Origin-Destination)客流矩阵。该方法结合KNN和GPR模型,利用智能卡交易数据和天气数据,对固定乘客和随机乘客的目的地分布进行估计。实验结果表明,该方法在准确率和误差指标上优于传统方法,为地铁系统的交通规划和运营管理提供了有力支持。原创 2025-08-25 14:50:23 · 184 阅读 · 0 评论 -
13、基于流计算的窗口式多布谷鸟过滤器及城市地铁动态OD客流矩阵估计方法
本文介绍了两种创新方法的研究与应用。一是基于流计算的窗口式多布谷鸟过滤器(MCF),通过理论分析与实验验证了其误报率、检查时间受布谷鸟过滤器数量、窗口大小等因素的影响,适用于网络流量监测与数据去重等场景。二是城市地铁动态OD客流矩阵估计方法,结合AFC数据与天气数据,通过乘客分类和KNN-GPR混合模型预测,实现了85%的准确率,为地铁运营管理提供了有效支持。文章还探讨了两种方法的未来发展趋势,包括性能优化、多源数据融合及实时预测等方向。原创 2025-08-24 14:11:51 · 50 阅读 · 0 评论 -
12、基于窗口的多布谷鸟过滤器在流计算中的应用
本文提出了一种基于经典布谷鸟过滤器的多布谷鸟过滤器(MCF),用于高效处理动态数据流中的多维元素成员查询问题。MCF结合滑动窗口机制,将成员查询分解为多个单数据流查询,支持动态删除操作,并在较低误报率下实现了较高的空间效率和查询性能。文章详细介绍了MCF的结构、检查算法、性能分析以及在网络流量监控、数据去重和实时数据分析等领域的应用,展示了其在大数据流计算场景中的广泛前景。原创 2025-08-23 14:18:26 · 31 阅读 · 0 评论 -
11、基于深度学习的流浪猫识别网络应用
本文介绍了基于深度学习的流浪猫识别网络应用的构建过程,涵盖数据预处理、模型选择与比较、结果分析及应用部署。通过使用ResNet50作为特征提取器和Mask R-CNN作为框架,结合ImageNet预训练模型,实现了对不同地区流浪猫的高效识别。该应用部署于Nectar研究云,支持多种关键场景,为生态研究和动物保护提供了技术支持。原创 2025-08-22 15:08:11 · 65 阅读 · 0 评论 -
10、可扩展参考基因组组装与野生猫识别的深度学习应用
本文探讨了两个前沿技术应用:可扩展参考基因组组装和基于深度学习的野生猫识别。在基因组组装方面,研究了高效的泛基因组压缩和存储方法,分析了压缩比率、索引工具扩展性及集群配置优化的挑战与解决方案。针对澳大利亚野猫对本土物种的威胁,提出了使用深度学习模型(如Mask R-CNN)实现野猫自动识别的方法,取得了较高的准确率。总结指出,这些技术在生物信息学和生态保护领域具有重要意义,并展望了未来的优化方向。原创 2025-08-21 11:36:25 · 39 阅读 · 0 评论 -
9、可扩展参考基因组组装:分布式并行处理方案
本文介绍了基于分布式并行计算的可扩展参考基因组组装方案。重点探讨了基因组分析工具(如GATK、ADAM、Halvade和Seal)在大规模数据处理中的应用,以及如何利用Apache Spark和Hadoop实现高效的泛基因组索引、读取比对、变异调用和归一化流程。实验表明,该分布式方案在处理大规模泛基因组数据时具有良好的可扩展性和显著的性能优势。原创 2025-08-20 10:56:31 · 96 阅读 · 0 评论 -
8、社交媒体假新闻分类与基因组组装研究
本博客探讨了社交媒体假新闻分类与基因组组装的相关研究。在社交媒体假新闻分类部分,使用TextBlob和NLTK库对推文进行情感分析,验证了情感极性与新闻真实性的关系,并分析了语言特征在分类中的作用。研究发现,假新闻倾向于消极情感,尤其是政治新闻,而真实新闻则更偏向积极情感。此外,Bi-LSTM模型在混合数据集上表现良好,但在分离数据集上效果较差,表明主题相关性对分类性能的重要性。在基因组组装部分,介绍了PanGenSpark分布式管道,用于高效压缩和索引泛基因组数据,并展示了其在不同规模数据上的性能表现,证原创 2025-08-19 14:13:52 · 37 阅读 · 0 评论 -
7、社交媒体虚假新闻分类:基于情感分析的探索
本博文探讨了基于情感分析的社交媒体虚假新闻分类方法。通过使用Twitter的FakeNewsNet和CredBank数据集,结合朴素贝叶斯、决策树和Bi-LSTM等机器学习与深度学习技术,研究旨在区分真假新闻并分析其情感倾向。研究结果表明,决策树在分类任务中表现优于朴素贝叶斯,而Bi-LSTM在处理大规模数据时展现出优势。未来研究方向包括改进模型、融合多源信息以及开发实时虚假新闻监测系统,以减少虚假新闻对社会的危害。原创 2025-08-18 12:45:11 · 62 阅读 · 0 评论 -
6、大型基础设施上大数据应用部署方法
本文介绍了一种在大型基础设施上部署大数据应用(BDAs)的四步性能管理方法。该方法包括对BDAs进行分析、探索替代存储和处理环境、预测性能以及优化性能。通过构建BDAs模型并结合云计算、集群计算和众包计算等不同环境的特性,实现对性能行为的建模和优化。同时,文章还详细讨论了如何通过工作负载近似、汇总或改变计算系统来降低或适应执行成本,以实现最优性能。原创 2025-08-17 09:50:27 · 30 阅读 · 0 评论 -
5、金融预测与大数据应用:现状、挑战与未来方向
本文围绕金融预测和大数据应用的两个重要议题展开讨论,重点分析了使用GA/SVR、SVR、KRR和BERT模型预测道琼斯工业平均指数(DJIA)的表现,并探讨了大数据应用在大规模基础设施上的部署策略。通过对比不同模型的预测效果,指出了其局限性与改进方向,同时提出了未来在金融市场预测和大数据应用部署方面的研究方向和实施计划。研究旨在提升预测准确性,优化系统性能,并降低运行成本,为金融决策和科学研究提供有力支持。原创 2025-08-16 11:02:50 · 64 阅读 · 0 评论 -
4、利用混合遗传算法/支持向量回归和BERT结合新闻头条与历史数据预测道琼斯工业平均指数
本文提出了一种结合混合遗传算法/支持向量回归(GA/SVR)与BERT的新模型,用于预测道琼斯工业平均指数(DJIA)的每日收盘价。通过利用纽约时报的头条新闻数据,使用BERT进行情绪分析,并结合历史DJIA数据训练预测模型。实验结果显示,该模型在预测准确性方面表现出色,为金融领域的市场预测提供了新的方法。原创 2025-08-15 11:27:30 · 42 阅读 · 0 评论 -
3、基于机器学习的Spark应用性能预测模型
本文探讨了基于机器学习的Spark应用性能预测模型,旨在通过提取Spark应用的原生特征和选择合适的机器学习算法,准确预测Spark应用的执行时间。实验表明,包含应用特征的模型能够显著提高预测准确性,而提升算法在预测性能和训练复杂度之间取得了较好的平衡。研究还提出了特征选择、算法优化和实验设计的实际建议,并展望了未来的研究方向,包括特征工程优化、算法融合和实时预测。原创 2025-08-14 15:07:49 · 58 阅读 · 0 评论 -
2、基于熵的大数据高效清理方法
本文介绍了一种基于熵的大数据高效清理方法,适用于分层数据库(HDB)结构。通过分析无效数据记录的风险驱动因素,利用熵动态确定最优的数据清理层级,从而实现数据降维和高效处理。文章详细阐述了HDB架构、熵的定义与计算、停止规则以及在汽车零部件和医疗数据中的实际应用效果,展示了该方法在减少冗余信息、保留重要数据方面的显著优势。原创 2025-08-13 13:04:50 · 40 阅读 · 0 评论 -
1、BigData 2020:大数据领域的盛会与创新探索
BigData 2020 是2020年国际大数据会议,作为服务会议联盟(SCF 2020)的重要成员之一,聚焦大数据架构、建模及大数据即服务等领域的创新研究。会议以虚拟形式举办,共收录18篇论文,涵盖数据清理、Spark应用性能预测、结合新闻标题与历史数据的道琼斯工业平均指数预测等多个前沿研究方向。同时,SCF 2020联合其他9个相关会议,推动人工智能、区块链、云计算、物联网等技术在服务领域的智能化发展。本次会议为大数据行业的持续创新提供了重要平台。原创 2025-08-12 13:27:41 · 51 阅读 · 0 评论
分享