- 博客(199)
- 资源 (5)
- 收藏
- 关注
原创 如何解决三个算法模型全部扑街的问题
基于领域知识添加特征:如凝血动态指标(INR变化率)、患者病史组合特征(HGB+PT时序变化)对SHAP值高的特征(HGB/PT)进行分段处理(如HGB<7g/dL作为二值特征)自动生成特征:多项式特征(HGB², PT×TT)、统计特征(滑动窗口均值/方差)检查样本量(n)与特征数(p)的比例,若n < 10p需优先扩充数据。数据增强:通过SMOTE(分类问题)或添加噪声(回归问题)生成合成样本。引入交互项(如HGB×PT)或临床决策规则(如ISTH评分)数据分布异常(如非线性关系、离群值)
2025-04-05 01:03:09
544
原创 用600样本训练的XGBoost模型,可以达到 R²: 0.9429
【代码】用600样本训练的XGBoost模型,可以达到 R²: 0.9429。
2025-04-05 00:42:20
29
原创 XGBoost的预测结果评估,R²多少才合理?
建议直接运行代码并根据实际输出调整参数。若需复现特定R²值,可控制数据生成噪声或添加人工规律。,即数据线性相关性高且噪声较小。理论上,XGBoost在此数据上的R²应接近。在本地环境中执行完整代码,观察输出结果(需安装。(数据来源:Kaggle回归竞赛基准测试)(理想线性模型R²=1)。生成数据时,默认参数为。
2025-04-05 00:32:42
315
原创 是不是特征越多,XGBoost的预测效果越好?
特征数量并不是越多越好。关键在于特征的质量和相关性。通过特征选择和优化,可以找到最佳的特征组合,从而提高模型的预测性能和泛化能力。
2025-04-05 00:03:12
81
原创 解决数据不平衡问题,通过增加合成样本,尤其是那些在原始数据中可能较少见的样本,SVR 模型间接帮助提高了最终模型的性能
随机森林结合SMOTE过采样后F1-score提升至0.9248,表明这种方法在处理不平衡数据集时非常有效。通过SMOTE生成合成样本,随机森林能够更好地学习少数类的特征,从而提高模型的精确率和召回率。这种方法在神经外科手术等医疗领域具有重要的临床应用价值。
2025-04-04 23:54:16
369
原创 AUC、MSE和R²是机器学习中不同任务场景下的核心评估指标
AUC、MSE和R²是机器学习中不同任务场景下的核心评估指标,其区别主要体现在等方面。
2025-04-04 22:48:55
392
原创 通过患者血液诊断指标和临床数据预测输血量
在医学领域,通过患者血液诊断指标和临床数据预测输血量时,常用的算法选择需结合数据特征和预测目标(分类或回归)。
2025-04-04 20:51:33
206
原创 血量预测:从模型构建、推荐方案和医学分析三个维度分析
类别型变量(科室、临床诊断、申请类型)采用目标编码(Target Encoding):对HGB/PLT等实验室指标采用中位数填充,对类别型特征(科室、诊断)用众数填充。:采用分层5折交叉验证,评估指标用加权F1-score(应对血型不均衡):科室与HGB的组合特征(如外科+HGB<70的特殊标记)构建异常值检测模块(如HGB<30g/L时触发人工审核)开发医疗专用特征编码器(处理科室/诊断编码的领域知识)带注意力机制的LSTM(适合处理诊断文本的序列特征):开展多中心临床验证(建议纳入至少5家三甲医院)
2025-04-04 19:15:23
287
原创 LightGBM 和 XGBoost 两种机器学习算法的区别
GOSS 用于对数据进行采样,它会保留具有较大梯度的样本,因为这些样本对模型的训练影响更大,同时对梯度较小的样本进行下采样,从而在保证模型精度的同时提高训练速度。例如,在处理包含数百万条记录和数千个特征的数据集时,LightGBM 可以在较短的时间内完成训练,而 XGBoost 可能需要更长的时间。例如,在互联网行业处理海量的用户行为数据(如点击预测、广告推荐等)时,LightGBM 能够快速地训练出模型,并且在稀疏特征(如用户 - 商品交互特征)较多的情况下,仍然能够保持较好的性能。
2025-04-04 19:13:29
544
原创 细胞数字化生产管理系统核心技术解析与产品亮点
例如,在“前院后厂”模式下,临床端(前院)与制备端(后厂)通过平台无缝衔接,实时共享患者采集数据、细胞制备状态及质量控制参数,显著提升跨区域协作效率。此外,系统支持研究者发起的临床试验(IIT模式),灵活配置个性化治疗方案,并通过多中心数据整合功能,助力临床试验优化与快速决策。,系统深度整合药品生产质控法规(如《细胞治疗产品生产质量管理指南》)、GMP规范、行业标准等核心要求,构建动态更新的知识库,可实时为研发、生产、质控等环节提供。,实现人员、物料、设备、工艺、环境数据的。
2025-04-03 13:54:18
277
原创 如何自己开发一套腾讯会议?
Go语言(Golang),因其高效的并发处理能力和简洁的语法,适合开发高性能、低延迟的视频会议系统。通过以上技术选型和代码实现,可以构建一个高性能、低延迟的视频会议系统,满足远程协作和在线教育的需求。:基于WebRTC和Janus Gateway的开源视频会议系统,支持高清音视频、屏幕共享等功能。:基于WebRTC和Go语言的高性能在线会议系统,支持H264、VP8、VP9等多种视频编码器。:高性能的WebRTC媒体服务器,支持分布式部署和多种视频编码。:利用Go语言的并发特性,优化数据处理流程。
2025-04-02 21:55:28
208
原创 Value must be either numerical or a string containing a wildcard
表明文件中可能存在筛选条件或某些格式问题,导致。进入Excel中,把筛选条件去掉,就可以了。
2025-04-02 16:58:31
159
原创 XGBoost解决多分类问题的目标函数softmax
是 XGBoost 中用于多分类问题的目标函数。它通过 softmax 函数将样本分到不同的类别中。:对于每个样本,模型会输出一个向量,其中每个元素表示该样本属于某个类别的原始预测值。原始预测值通过 softmax 函数转换为概率分布,确保所有类别的概率之和为 1。:可以使用准确率(accuracy)、F1 分数等评估多分类模型的性能。适用于多分类问题,其中目标变量有多个互斥的类别。:选择概率最大的类别作为最终预测结果。:目标变量应编码为从 0 开始的整数。每个样本属于且仅属于一个类别。
2025-04-02 15:08:18
263
原创 XGBoost 中解决回归问题的2个目标函数
它通过最小化伽马分布的负对数似然来优化模型,特别适用于保险索赔严重性、医疗费用等场景。通过选择合适的目标函数,可以更好地优化模型的性能,使其在特定数据集上表现更佳。是最常见的回归目标函数,通过最小化预测值和真实值之间的平方误差来优化模型。**:适用于目标变量可能呈现伽马分布的场景,例如保险索赔严重性、医疗费用等。适用于大多数回归任务,特别是在数据中没有太多异常值的情况下。它通过最小化预测值和真实值之间的伽马分布的负对数似然来优化模型。**:适用于大多数回归任务,特别是在数据中没有太多异常值的情况下。
2025-04-02 15:04:28
423
原创 基于 XGBoost 的回归任务,使用房价数据集进行训练和测试
基于 XGBoost 的回归任务,使用了波士顿房价数据集进行训练和测试。代码结构清晰,功能完整,适合初学者学习如何使用 XGBoost 进行回归任务。
2025-04-02 14:09:17
134
原创 SHAP:模型可解释性的核心工具
SHAP是一款专注于模型可解释性的开源工具。它通过计算Shapley值来衡量每个特征对模型预测结果的影响,从而揭示模型内部的决策逻辑。SHAP支持多种类型的机器学习模型,包括线性回归、决策树、神经网络等,适用于分类和回归任务。作为一款现代化的工具,SHAP不仅提供了强大的解释能力,还注重易用性和灵活性。其模块化的设计使得开发者可以根据具体需求自由组合功能模块,从而实现高效分析。SHAP作为一款专注于模型可解释性的工具,凭借其强大的功能和灵活的设计,正在改变传统的机器学习分析方式。
2025-04-01 00:21:27
780
原创 XGBoost回归模型设计与实现:医疗诊断中的糖尿病风险预测
我们面临的是一个医疗诊断问题,目标是基于患者的体检数据(如血糖、血压、BMI、年龄等)预测糖尿病风险。:预测血糖水平(连续值):判断患者是否患有糖尿病(二分类)
2025-04-01 00:05:33
140
原创 XGBoost的目标函数
贪心算法是一种在每一步选择当前最优解的算法,而不考虑全局最优解。其特点包括:局部最优:每一步只关注当前最优解。不可回溯:一旦做出选择,就不会回头重新选择。高效性:通过逐步优化,快速找到局部最优解。在XGBoost中,贪心算法用于每一步选择当前最优的树结构和叶子节点预测值,从而逐步优化目标函数。
2025-03-31 23:37:23
116
原创 XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升的机器学习算法
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升的机器学习算法,其核心思想是通过逐步构建一个加法模型,最终由多棵回归树组成。
2025-03-31 23:26:45
263
原创 GBDT的梯度提升流程
通过 (T) 次迭代,最终得到一个强学习器 FT(x),它是多个基学习器的加权和。GBDT 的优点在于其强大的拟合能力和对各种损失函数的适应性,因此在实际应用中被广泛使用。梯度提升(Gradient Boosting Decision Tree, GBDT)是一种基于梯度下降思想的集成学习算法,其。GBDT 的核心思想是通过逐步拟合残差来优化模型。计算当前模型的残差(负梯度)。更新模型,逐步逼近真实值。用基学习器拟合残差。
2025-03-31 22:12:30
253
原创 对数据集中的某个分类列(target_type)进行编码,将其转换为整数形式,并将编码后的结果存储到一个新的列(品种_encoded)
对数据集中的某个分类列()进行编码,将其转换为整数形式,并将编码后的结果存储到一个新的列(品种_encoded)中。使用创建一个标签编码器实例le_type。是一种常用的工具,用于将分类数据(如字符串或类别标签)转换为整数形式。使用方法对列进行编码。会:学习分类值的映射关系(例如,将每个唯一值映射到一个整数)。将学习到的映射关系应用于数据,生成编码后的整数数组。将编码后的结果存储到列中,以便后续使用。
2025-03-31 20:25:09
269
原创 分箱(Binning)是一种数据预处理技术,用于将连续的数值型数据划分为离散的区间(或类别)
分箱是一种重要的数据预处理技术,用于将连续数据转换为离散数据。分箱(Binning)是一种数据预处理技术,用于将连续的数值型数据划分为离散的区间(或类别)。例如,将 100 个数据点划分为 4 个区间,每个区间包含 25 个数据点。通过分箱,可以将连续值转换为离散值,从而简化数据、减少噪声或提取特征。:在机器学习中,分箱可以将连续特征转换为离散特征,提高模型性能。:适用于偏态分布的数据,可以避免某些区间数据点过多或过少。:将复杂的连续数据简化为离散区间,便于分析。:通过分箱可以平滑数据,减少异常值的影响。
2025-03-31 20:08:17
342
原创 AI在生物制药方向的一些前沿需求
等新型传感器设备,探讨多模态间的数据相关性,利用脑电数据研究大脑的功能网络,分析不同大脑区域的脑电信号之间的同步性,以研究手术如何影响大脑网络的连接性。治疗痉挛性偏瘫患者术前术后的脑电波数据对比,旨在产生重大技术突破,提高手术疗效,降低手术风险,改善患者肢体功能,促进康复机制的理解和个性化康复方案的制定,逐步建立和完善痉挛性偏瘫的。、模型设计出来后,大致统一不同人年龄段和性别的骨间距和骨头的大小,将设计出的医疗器械模型自动识别匹配的年龄段和性别,并输出各个的匹配度,方便确认模型的外形和尺寸是否合适。
2025-03-31 09:52:39
513
原创 软件工程师的AI转型建议
开发类似"Python大脑"(代码生成)、"智能文档助手"(文档处理)、"AI智能客服"等工具(参考星火APP案例)。前端(VUE3)构建交互界面,后端(Python)集成大模型API(如ChatGPT、DeepSeek)。技术适配: 开发面向垂直领域的代码生成工具(如数据分析、报表自动化),结合VUE3搭建低代码平台。利用Python开发工业场景的AI插件(如仿真、数据分析),VUE3构建可视化配置界面。技术适配: 构建数据清洗、标注工具(Python自动化脚本),VUE3实现权限管理界面。
2025-03-31 00:05:13
988
原创 集成学习的一些概念
基学习器:集成学习中单个学习器的基本单元。并行(Bagging):基学习器独立生成,可以并行化处理,适合减少方差。串行(Boosting):基学习器按顺序生成,依赖于前面学习器的结果,适合减少偏差。并行和串行的选择取决于具体问题的需求和数据特性。如果需要快速训练且数据噪声较大,可以优先考虑并行方法(如随机森林)。如果需要更高的准确性且计算资源允许,可以优先考虑串行方法(如 XGBoost)。基学习器(Base Learner)是集成学习中的基本单元,指的是构成集成模型的单个学习器。这些。
2025-03-30 23:16:34
290
原创 回归问题(Regression Problem)是什么?
总之,回归问题是机器学习中的一个重要任务,广泛应用于金融、气象、医疗、商业等领域。回归问题(Regression Problem)是机器学习中的一种常见任务,其目标是预测一个连续值输出。常用的评价指标包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等,用于衡量预测值与真实值之间的差异。输出:一个连续的数值(例如预测明天的气温、某房子的价格等)。回归问题的输出是一个连续的数值,例如房价、温度、销售额等。:根据房屋的面积、位置、房间数量等特征,预测房屋的价格。
2025-03-30 22:42:13
256
原创 信息熵是信息论中的一个核心概念,用来衡量随机变量的不确定性
统计意义上,信息熵反映了随机变量的平均不确定性,熵值越大,不确定性越高;例如,熵值为 (H(X)) 的随机变量,理论上可以用 (H(X)) 比特的平均长度进行无损编码。它假设在满足某些约束条件的情况下,选择熵最大的概率分布,因为这种分布最“均匀”,不确定性最高。它表示在不知道随机变量具体取值的情况下,我们对它可能取值的“平均不确定性”。信息熵衡量了随机变量的不确定性。在信息论中,熵增意味着系统中的不确定性增加,或者信息量的平均值增加。如果事件的概率越接近 0(几乎不可能发生的事件),其对熵的贡献越大。
2025-03-30 21:46:04
321
原创 XGBoost基本原理分析
原理核心:梯度提升+正则化决策树,通过贪心分裂和二阶导数优化实现高效建模。适用场景:结构化数据、非线性关系、高维稀疏特征、中小到大规模数据。实际应用:从金融风控到医疗诊断,XGBoost因其高效性、灵活性和精度成为工业界和竞赛中的首选工具之一。
2025-03-30 18:38:29
690
原创 XGBoost 机器学习算法-基本情况介绍
解决的问题:结构化数据的高效建模,平衡精度与复杂度。参数调优:依赖实验方法,非统计分析。数据需求:灵活适应小到大数据,但需结合问题复杂度调整策略。
2025-03-30 18:28:57
231
原创 在 Vue3 中,router.push 实现编程式导航
在 Vue3 中,是 Vue Router 提供的一个核心方法,用于实现编程式导航。以下是关于。
2025-03-29 23:33:26
238
原创 FastAPI+VUE3的开发脚手架中,通过router.push实现路由自动跳转和用户点击跳转
用户点击跳转:在用户交互(如点击按钮)时触发。自动跳转:在特定逻辑条件下(如API请求成功或失败)自动触发。
2025-03-29 23:27:33
156
原创 在Vue3中,布局组件和页面组件的区别和联系
与特定的路由对应,当用户访问不同的URL时,相应的页面组件会被渲染展示。布局组件为页面组件提供展示的框架和环境,页面组件则填充布局组件中的具体内容,共同构成完整的用户界面。:两者都遵循Vue3的组件化思想,即将复杂的页面分解为多个独立的、可维护的模块。:一般管理的是与布局相关的数据,如导航菜单的状态、布局的样式配置等。:一般作为路由的父组件,通过路由嵌套的方式包含页面组件。在路由配置中,布局组件可以作为外壳,为多个页面组件提供统一的布局。它不涉及具体的业务逻辑,而是为页面组件提供展示的容器和布局规则。
2025-03-29 23:22:56
283
原创 在 Vue.js 中,router-link 是 Vue Router 提供的一个核心组件,用于实现页面之间的导航
在 Vue.js 中,是 Vue Router 提供的一个核心组件,用于实现页面之间的导航。它的主要作用是通过动态生成<a>标签(默认情况下)或自定义标签来实现路由跳转。以下是。
2025-03-29 23:17:54
253
原创 基于 FastAPI 和 Vue3 的生产管理系统代码示例,包含动态路由、状态管理和工艺流程的逻辑
通过以上步骤,你可以基于FastAPI和Vue3开发一个完整的生产管理系统,支持动态路由、步骤化导航和工艺流程管理。根据后端返回的状态动态更新UI,例如显示当前步骤、禁用或启用按钮等。使用Vue3的响应式状态管理(如Pinia)来跟踪当前流程状态。定义工艺流程的每个步骤,例如订单创建、审核、提交等。使用数据库存储流程状态,例如订单的状态、当前步骤等。定义角色和权限模型,控制用户对不同接口和资源的访问。在路由守卫中检查用户权限,限制访问未授权的页面。提供API接口供前端调用,更新和查询流程状态。
2025-03-29 22:55:54
690
原创 路由跳转流程图详细分析
这个流程图清晰地展示了路由跳转的完整流程,包括触发、守卫、初始化和最终跳转的逻辑。通过这些步骤,确保用户在访问路由时符合权限要求,并正确处理未找到的路由。如果不是固定路由,继续判断是否是权限路由(需要登录权限的路由)。如果无权限,返回 403 页面(无权限)。如果未初始化权限路由,初始化权限路由。如果未初始化固定路由,初始化固定路由。如果未初始化权限路由,初始化权限路由。如果不是权限路由,直接跳转。如果不是权限路由,直接跳转。如果路由存在,执行路由跳转。如果是固定路由,直接跳转。
2025-03-29 22:44:42
345
小鱼易连与263、Zoom、华为方案整体对比分析-20180919 - 副本.docx
2020-02-23
小鱼易连-公司及产品介绍-简版.pdf
2020-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人