Python
文章平均质量分 92
借&过
什么都不会的菜鸟一枚
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习Python(四)
项目实践之文本分类实例采用20Newgroups的数据。数据集分为两部分,一部分用来训练模型,一部分是用来评估算法的新数据。这里采用20news-bydate数据集进行项目研究,这个数据集是按照日期进行排序的,并去掉了部分重复数据和header。 使用scikit-learn的loadfiles导入文档数据。利用机器学习对文本进行分类,与对数值特征进行分类最大的区别是,对文本进行分类时要先提取文本特征,提取到的文本特征属性是巨大的,有时会超过万个的特征属性。rom sklearn.featu.原创 2020-07-28 17:07:24 · 654 阅读 · 0 评论 -
机器学习Pyhton(三)
四、优化模型1.集成算法袋装(Bagging)算法 1)袋装决策树(Bagged Decision Trees) 2)随机森林(Randon Forest) 3)极端随机树(Extra Trees)提升(Boosting)算法 1)AdaBoost 2)随机梯度提升(Stochastic Gradient Boosting)投票(Voting)算法2.算法调参网格搜索优化参数 ...原创 2020-07-28 16:19:40 · 1468 阅读 · 0 评论 -
机器学习Python(二)
三、选择模型1.评估算法 要知道算法模型对未知的数据表现如何,最好的评估办法是,利用已经明确知道结果的数据运行生成的算法模型进行验证。必须使用与训练数据集完全不同的评估数据集来评价算法。分离训练数据集和评估数据集:将评估数据集和训练数据集完全分开,用训练数据集训练算法生成模型,采用评估数据集来评估算法模型。通常会将67%的数据作为训练集,将33%的数据作为评估数据集。(由于执行效率比较高,所以通常会用于算法的执行效率比较低或者有大量数据的时候) #分离训练数据集和评估数据集,评估逻辑回..原创 2020-07-24 23:19:18 · 481 阅读 · 0 评论 -
机器学习Python实践(一)
最近学习机器学习,用博客来记录一些笔记。如果涉及侵权联系删除。一、数据理解1.数据导入(CSV文件)使用标准Python类库导入数据#使用标准Python类库导入CSV文件from csv import readerimport numpy as npfilaname = 'pima_data.csv'with open(filaname,'rt') as raw_data: readers = reader(raw_data,delimiter=',') x = l原创 2020-07-23 17:53:31 · 706 阅读 · 0 评论
分享