数据挖掘实验
柳家山头号矿工
如果你喜欢数学,那我们就是朋友!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人工神经网络_图像加载(数据挖掘入门与实践-实验10)
文章目录数据集代码 数据集 链接:https://pan.baidu.com/s/1JyRWXLK3GQDh63RRS_mq6Q 提取码:6w65 代码 #加载图片数据包 import os import pickle data_folder = "cifar-10-batches-py" batch1_filename = os.path.join(data_folder, "data_batch_1") #数据集加载函数 def unpickle(filename): with open(fi原创 2022-03-28 19:31:26 · 1405 阅读 · 0 评论 -
人工神经网络_验证码破译(数据挖掘入门与实践-实验9)
文章目录一、待优化二、代码单字母预测1、验证码图像生成2、字符串切割3、数据集创建4、多条数据集创建5、数据集调整6、数据集分割 & 单字母预测模型训练7、神经网路评估单词预测1、预测函数创建2、测试集导入 & 测试开始3、优化: 词典查询 一、待优化 1、字符串切割步骤中segment_image函数只能沿着x, y轴切割,导致预测结果对shear值十分敏感,可另寻切割函数以提高预测正确率 二、代码 单字母预测 1、验证码图像生成 import numpy as np from PIL i原创 2022-03-27 14:01:57 · 798 阅读 · 0 评论 -
PCA主成分分析_特征创建(数据挖掘入门与实践-实验8)
##############################数据处理 #数据导入 $$ 数据转换 import os import numpy as np import pandas as pd from collections import defaultdict def convert_number(): try: return float(x) except ValueError: return np.nan converters=defaultdi原创 2022-03-25 09:12:04 · 227 阅读 · 0 评论 -
scikit-learning_特征分析(数据挖掘入门与实践-实验7)
#数据导入 import os import pandas as pd adult_filename="adult.data" adult = pd.read_csv(adult_filename, header=None, names=["Age", "Work-Class", "fnlwgt", "Education", "Education-Num", "Marital-Status", "Occupation", "Relationship", "Race", "Sex", "Capital原创 2022-03-24 10:46:49 · 385 阅读 · 0 评论 -
电影推荐_亲和性分析_规则提取(数据挖掘入门与实践-实验6)
#数据导入 import os import pandas as pd all_ratings=pd.read_csv("ml-100k/u.data", delimiter="\t", header=None, names=["UserID", "MovieID", "Rating", "Datetime"]) all_ratings["Datatime"]=pd.to_datetime(all_ratings["Datetime"], unit='s') all_ratings=all_ratings原创 2022-03-23 11:02:33 · 530 阅读 · 0 评论 -
比赛结果预测_决策树_随机森林(通用 数据挖掘入门与实践-实验5)
#数据导入 import pandas as pd data_filename="datasets.csv" dataset=pd.read_csv(data_filename) #dataset.loc[:5] #数据清洗 dataset=pd.read_csv(data_filename, parse_dates=["Date"]) #dataset.loc[:5] #方法1:上场比赛情况特征提取,并用其进行预测 #主队获胜情况提取 from collections import default原创 2022-03-22 17:06:56 · 1251 阅读 · 0 评论 -
鸢尾花分类_K近邻(分类通用 数据挖掘入门与实践-实验4)
文章目录效果代码 效果 代码 from sklearn.datasets import load_iris import numpy as np #获取数据集 dataset=load_iris() X=dataset.data Y=dataset.target #数据转换 X=np.array(X,dtype='float') Y=np.array(Y,dtype='int') #方法1 from sklearn.model_selection import train_test_split fr原创 2022-03-21 19:54:39 · 178 阅读 · 0 评论 -
Ionosphere_Nearest_Neighbors_0(K近邻 数据挖掘入门与实践-实验3)
文章目录结果代码 结果 代码 #库导入 import numpy as np import csv import os from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import cross_val_score #数据导入 && 规范化 data_folder="D:/P原创 2022-03-21 10:06:23 · 135 阅读 · 0 评论 -
OneR算法_0(python数据挖掘入门与实践-实验2)
文章目录结果代码 结果 代码 from sklearn.datasets import load_iris import numpy as np from collections import defaultdict from operator import itemgetter from sklearn.model_selection import train_test_split #接收数据集,对应类别,特征索引,具体特征值 #返回特征索引具体特征值对分类最好的类别,以及分类错误的数量 def t原创 2022-03-20 14:47:00 · 738 阅读 · 0 评论 -
数据挖掘-亲和性分析函数(通用)
#库导入 import numpy as np from collections import defaultdict from operator import itemgetter def Affinity_Analysis(dataset,features,nums_feature); if __name__ == "__main__": #数据导入(0、1矩阵,一行表示单一消费者的消费情况,一列表示单一商品售卖情况) dataset_filename="数据包路径" X=np原创 2022-03-19 14:19:31 · 399 阅读 · 0 评论 -
亲和性分析_0(python数据挖掘入门与实践-实验1)
文章目录解析思路效果代码 解析 支持度:事件发生的总次数 置信度:一定条件下,事件发生的概率 思路 第一步: 导入数据,并交由变量X维护 创建特征数组 获取特征数量 第二步: 创建字典 valid_rules:(a,b):num_i的含义 表示买商品 a 之后,又买了商品 b 的消费者数量 invalid_rules:(a,b):num_i的含义 表示买商品 a 之后,没有买了商品 b 的消费者数量 nums_occurances:(a):num_i的含义 表示买商品 a 的消费者数量 第三步: 遍历 X原创 2022-03-19 13:11:40 · 1037 阅读 · 0 评论
分享