
数据挖掘实验
柳家山头号矿工
如果你喜欢数学,那我们就是朋友!!!
展开
-
人工神经网络_图像加载(数据挖掘入门与实践-实验10)
文章目录数据集代码数据集链接:https://pan.baidu.com/s/1JyRWXLK3GQDh63RRS_mq6Q提取码:6w65代码#加载图片数据包import osimport pickledata_folder = "cifar-10-batches-py"batch1_filename = os.path.join(data_folder, "data_batch_1")#数据集加载函数def unpickle(filename): with open(fi原创 2022-03-28 19:31:26 · 1372 阅读 · 0 评论 -
人工神经网络_验证码破译(数据挖掘入门与实践-实验9)
文章目录一、待优化二、代码单字母预测1、验证码图像生成2、字符串切割3、数据集创建4、多条数据集创建5、数据集调整6、数据集分割 & 单字母预测模型训练7、神经网路评估单词预测1、预测函数创建2、测试集导入 & 测试开始3、优化: 词典查询一、待优化1、字符串切割步骤中segment_image函数只能沿着x, y轴切割,导致预测结果对shear值十分敏感,可另寻切割函数以提高预测正确率二、代码单字母预测1、验证码图像生成import numpy as npfrom PIL i原创 2022-03-27 14:01:57 · 752 阅读 · 0 评论 -
PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)
##############################数据处理#数据导入 $$ 数据转换import osimport numpy as npimport pandas as pdfrom collections import defaultdictdef convert_number(): try: return float(x) except ValueError: return np.nanconverters=defaultdi原创 2022-03-25 09:12:04 · 199 阅读 · 0 评论 -
scikit-learning_特征分析(数据挖掘入门与实践-实验7)
#数据导入import osimport pandas as pdadult_filename="adult.data"adult = pd.read_csv(adult_filename, header=None, names=["Age", "Work-Class", "fnlwgt", "Education", "Education-Num", "Marital-Status", "Occupation", "Relationship", "Race", "Sex", "Capital原创 2022-03-24 10:46:49 · 353 阅读 · 0 评论 -
电影推荐_亲和性分析_规则提取(数据挖掘入门与实践-实验6)
#数据导入import osimport pandas as pdall_ratings=pd.read_csv("ml-100k/u.data", delimiter="\t", header=None, names=["UserID", "MovieID", "Rating", "Datetime"])all_ratings["Datatime"]=pd.to_datetime(all_ratings["Datetime"], unit='s')all_ratings=all_ratings原创 2022-03-23 11:02:33 · 500 阅读 · 0 评论 -
比赛结果预测_决策树_随机森林(通用 数据挖掘入门与实践-实验5)
#数据导入import pandas as pddata_filename="datasets.csv"dataset=pd.read_csv(data_filename)#dataset.loc[:5]#数据清洗dataset=pd.read_csv(data_filename, parse_dates=["Date"])#dataset.loc[:5]#方法1:上场比赛情况特征提取,并用其进行预测#主队获胜情况提取from collections import default原创 2022-03-22 17:06:56 · 1169 阅读 · 0 评论 -
鸢尾花分类_K近邻(分类通用 数据挖掘入门与实践-实验4)
文章目录效果代码效果代码from sklearn.datasets import load_irisimport numpy as np#获取数据集dataset=load_iris()X=dataset.dataY=dataset.target#数据转换X=np.array(X,dtype='float')Y=np.array(Y,dtype='int')#方法1from sklearn.model_selection import train_test_splitfr原创 2022-03-21 19:54:39 · 150 阅读 · 0 评论 -
Ionosphere_Nearest_Neighbors_0(K近邻 数据挖掘入门与实践-实验3)
文章目录结果代码结果代码#库导入import numpy as npimport csvimport osfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import cross_val_score#数据导入 && 规范化data_folder="D:/P原创 2022-03-21 10:06:23 · 115 阅读 · 0 评论 -
OneR算法_0(python数据挖掘入门与实践-实验2)
文章目录结果代码结果代码from sklearn.datasets import load_irisimport numpy as npfrom collections import defaultdictfrom operator import itemgetterfrom sklearn.model_selection import train_test_split#接收数据集,对应类别,特征索引,具体特征值#返回特征索引具体特征值对分类最好的类别,以及分类错误的数量def t原创 2022-03-20 14:47:00 · 713 阅读 · 0 评论 -
数据挖掘-亲和性分析函数(通用)
#库导入import numpy as npfrom collections import defaultdictfrom operator import itemgetterdef Affinity_Analysis(dataset,features,nums_feature);if __name__ == "__main__": #数据导入(0、1矩阵,一行表示单一消费者的消费情况,一列表示单一商品售卖情况) dataset_filename="数据包路径" X=np原创 2022-03-19 14:19:31 · 360 阅读 · 0 评论 -
亲和性分析_0(python数据挖掘入门与实践-实验1)
文章目录解析思路效果代码解析支持度:事件发生的总次数置信度:一定条件下,事件发生的概率思路第一步:导入数据,并交由变量X维护创建特征数组获取特征数量第二步:创建字典valid_rules:(a,b):num_i的含义表示买商品 a 之后,又买了商品 b 的消费者数量invalid_rules:(a,b):num_i的含义表示买商品 a 之后,没有买了商品 b 的消费者数量nums_occurances:(a):num_i的含义表示买商品 a 的消费者数量第三步:遍历 X原创 2022-03-19 13:11:40 · 1000 阅读 · 0 评论