
机器学习
文章平均质量分 93
YBK233
在积累中输出,在输出中沉淀
展开
-
中文分词&词云图
sentence = """风暴降生丹妮莉丝·坦格利安一世、不焚者、弥林女王、安达尔人、洛伊拿人和先民的女王、草海上的卡丽熙、奴隶解放者和火龙之母、维斯特洛的统治者暨全境守护者、阿斯塔波的解放者、弥莎和龙石岛公主"""jieba.add_word("坦格利安")jieba.load_userdict() 通过此函数加载公司内或行业内的专用词典,用于丰富默认词典。原创 2024-06-20 14:46:57 · 1479 阅读 · 1 评论 -
参数搜索&&流形学习
网格搜索(grid search)是一种用来选择模型超参数的方法。它通过遍历超参数的所有可能组合来寻找最优的超参数。通常,网格搜索和交叉验证结合使用,以便在选择超参数时考虑模型的泛化能力。如图,每个格子都是一组参数,使用交叉验证测试参数效果。但是效率低下。HalvingGridSearchCV使用连续减半搜索策略来评估指定的参数值。搜索开始时,使用少量资源(默认为样本数量)评估所有候选参数组合,并在后续的迭代中逐步增加资源量,同时仅选择表现最佳的候选参数组合进行进一步的评估。工作流程。原创 2024-06-18 10:28:58 · 1188 阅读 · 0 评论 -
半监督学习
半监督学习(Semi-Supervised Learning,SSL)是机器学习领域中的一个重要分支,它结合了监督学习和无监督学习的思想,用于处理标签数据稀缺而无标签数据丰富的场景。Self Training自训练Label Propagation标签传播Label Spreading标签扩散Self Training自训练是一种简单的半监督学习方法,它首先使用已标记的数据训练一个监督学习模型。然后,该模型用于预测未标记数据的标签。原创 2024-06-17 17:20:35 · 997 阅读 · 1 评论 -
类别不平衡
研究算法时均认为数据是对称分布的,即正负样本数据相当。现实数据中少数类占比20%,甚至10%都不到,容易对模型算法产生影响。sampling_strategy: default= "auto" 过采样策略,可以为0.5,即调整样本比例为0.5倍;minority:只过采样类别比例最少的样本,多分类时用;not_minority出了最少、最多的样本,其他类别过采样,过采样到和最多类别的样本数量一样多;not_majority:除了最多的样本,其他都进行过采样;all:所有都过采样;原创 2024-06-15 21:59:24 · 984 阅读 · 0 评论 -
集成学习 Ensemble Learning
集成学习(ensemble learning)本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。机器学习可用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等。思想:通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器。如果个体学习器预测准确率很差,使用集成学习后会导致好的结果更好,同时也会导致差的更差。所有需要提高个体学习器性能,在集成学习算法的思路是好(的学习器)而不同(不同的学习器)。原创 2024-06-15 11:45:24 · 1178 阅读 · 0 评论 -
关联规则延伸之协同过滤
基于物品的协同过滤(item collaborating filter,简称item CF)算法给用户推荐那些和他们之前喜欢的物品相似的物品;如购买该商品的用户还购买来其他商品基于物品的协同过滤和基于用户的协同过滤原理相似,只是在计算邻居时采用物品本身,而不是从用户的角度,即基于用户对物品的偏好找到相似的物品,然后根据用户的历史偏好,推荐相似的物品给用户。原创 2024-06-11 17:05:59 · 1019 阅读 · 0 评论 -
关联规则及Apriori算法
第一次遍历,对所有单项的支持度进行计数,并确定频繁项;在后续的每次遍历中,利用上次遍历所得频繁项集作为种子项集,产生新的频繁项集-候选项集,并对候选项集的支持度进行计数,在本次遍历结束时统计满足最小支持度的候选项集,本次遍历对应的频繁项集就算是确定了,这些频繁项集又成为下一次遍历的种子;例如:在7条记录中,购买牛肉的记录有4条,在4条记录中又有3条记录显示购买了鸡肉,即R:牛肉→鸡肉的置信度为3/4,表示来在购买牛肉的顾客当中有3/4的人买了鸡肉,反映了可预测的程度,即顾客买了牛肉的话有多大可能性买鸡肉;原创 2024-06-11 15:40:51 · 979 阅读 · 0 评论 -
决策树Decision Tree
决策树说一种常用的机器学习算法,它可以用于分类和回归问题。它通过一系列的判断条件对数据进行分类,最终形成一个树形结构。易于理解,模型简单,不需要对数据预处理,可以处理连续、离散数据,对缺失值和异常值有很好的容错性;只能建立二叉树;对连续性属性处理方式同C4.5,只不过用GINI系数作为划分属性依据;可用于分类、预测,可以使用均方误差代替基尼系数作为损失函数的计算基础,此时CART用于回归;原创 2024-06-05 10:40:46 · 904 阅读 · 0 评论 -
Pipeline管道
pipelines直译为管道,类似于流水线的意思,可以将数据预处理和建模流程封装起来。在数据处理过程中,很多步骤都是重复或者类似的,比如数据处理,特征选择,标准化,分类等,pipeline就可以实现以下几点好处1、简化代码:直接将步骤封装成完整的工作流,避免代码重复2、更少出bug,流程规范话,避免在建模和部署过程中漏掉某个步骤3、更易于生产/复制:直接调用fit和predict来对管道中所有的算法模型进行一次性进行训练和预测。原创 2024-06-03 11:00:03 · 930 阅读 · 0 评论 -
Python实现K近邻算法小案例
算法思想 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性 算法流程 1. 准备数据,对数据进行预处理 2. 选用合适的数据结构存储训练数据和测试元组 3. 设定参数,如k 4.维护一个大小为k的的按距离由大到小的优先级队列,用于存储最近邻训练元组。随机从训练元组中选取k个元组作为初始的最...原创 2018-08-03 14:21:36 · 1065 阅读 · 1 评论