
python数据挖掘入门
buside
这个作者很懒,什么都没留下…
展开
-
用scikit-learn估计器分类
2.1、scikit-learn估计器主要用于分类任务,主要包括以下两个参数:fit():训练算法,设置内部参数。该函数接受训练集及其类别的两个参数。predict():参数为测试集。预测测试集类别,并返回一个包含测试集各条数据类别的数组。2.1.1 近邻算法近邻算法可能是标准数据挖掘算法中最为直观的一种。为了对新个体进行分类,查找训练集,找到与新个体最相似的那些个体,查看这些...原创 2019-01-08 16:36:57 · 606 阅读 · 0 评论 -
用决策树预测获胜球队
3.1 加载数据集这里用到的数据集是NBA 2015-2016赛季所有场次的历史数据,数据集可以从http://www.basketball-reference.com/leagues/NBA_2016_games.html上下载,整理好的数据集放到网盘:https://pan.baidu.com/s/1jn09FumgOnBIoXxAYIbCPgimport pandas as pd...原创 2019-01-09 13:50:40 · 3229 阅读 · 3 评论 -
用亲和性分析方法推荐电影
4.1 选择参数 挖掘亲和性分析所用的关联规则之前,用Apriori算法生成频繁集。然后通过检测频繁集中前提和结论的组合,生成关联规则。第一个阶段,需要为Apriori算法指定一个项集要成为频繁项集所需的最小支持度。任何小于最小支持度的项集将不再考虑。如果最小支持度值过小,Apriori算法要检测大量的项集,会拖慢运行速度,最小支持度过大的话,则只有很少的频繁集。找出频繁集后,在...原创 2019-01-09 13:58:44 · 962 阅读 · 0 评论 -
pandas学习
duplicated()检测重复行,返回布尔型的Series对象unique()获取唯一值values_counts()计算每个值出现的次数mean()计算均值idmax()最大值的索引值map()根据对应关系映射axis=1或‘columns’,对列进行操作,就是对每一行的所有列进行操作。axis=0或'index',对行进行操作,就是对每一列的所有行进行操作。d...原创 2019-05-15 08:28:32 · 180 阅读 · 0 评论 -
Player Wage Prediction
练习网址:https://www.kaggle.com/chirag02/fifa19-player-wage-prediction/notebook代码练习:# -*- coding: UTF-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as s...翻译 2019-05-13 11:02:54 · 293 阅读 · 0 评论