
机器学习
传道解惑也
大作业,毕设辅导
1. python系列: 基础知识、数据分析、爬虫等等。
2. 机器学习系列: 十大黄金算法,如: 决策树、SVM、各种集成算法等等。
3. NLP系列: 情感分析、实体识别、语义召回、机器阅读理解、大模型微调等等。
展开
-
sklearn实现多种机器学习中的集成算法。 包括Adaboost,随机森林,梯度提升回归等算法
求各位进来的老铁帮个忙。。帮我把最后自己写的那个提升算法完善一下。。测试集该怎么测试准确率??? 求大佬补充from sklearn.datasets import load_iris# 用决策树作为基础模型from sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_t...原创 2018-12-12 22:33:19 · 1193 阅读 · 0 评论 -
【问题7】:《人脸识别实战》--采用的是SVM,数据集小,直接用sklearn做的
本次我们实战人脸识别。。采用的数据集下载:点我下载数据集第一步:先导入我们本次实验所需要的全部模型import timeimport loggingfrom sklearn.datasets import fetch_olivetti_facesimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.model...原创 2019-03-30 11:52:09 · 615 阅读 · 0 评论 -
【问题5】:《估算收入阶层》采用美国人口普查的数据--用了贝叶斯和随机森林,难点在数据读取
背景介绍: 本节将根据14个属性建立分类器评估一个收入阶层,高于‘50k’的为一个阶层,低于‘50k’的为一个阶层。主要是数据的读取有点难,数据放在txt文件中,并且标签是字符串。。我最后的准确率并不是很高,大家可以调调参,或者对数据在进行处理。。数据下载地址:https://archive.ics.uci.edu/ml/datasets/Census+Income...原创 2019-03-04 14:09:00 · 2305 阅读 · 0 评论 -
【问题6】:《汽车数据分析》--采用随机森林算法并画出最终的验证曲线和学习曲线
背景介绍: 我们采用的数据是:根据汽车的多种细节,如:车门数量,后备箱大小,维修成本等,来确定汽车质量。 最后的分类目的是把车辆的质量分为4中类型,不达标,达标,良好,优秀。点击:数据集下载第一步:读取数据 我们的数据存放在一个txt文件中。def read_data(path): data = [] with open(path) ...原创 2019-03-05 11:14:11 · 2412 阅读 · 1 评论 -
机器学习中当样本不均衡时(数据出现严重倾斜),我们怎么处理呢? 给出两种方法
主要讲以下两种方法:方法一:当数据出现严重倾斜的时候,我们可以采取降采样的方式方法二:在训练模型中添加参数class_weight='balanced'下面给个实际的例子:第一步:读数据 (我们把数据放在了txt中)def read_data(path): data = [] with open(path) as f: lines = f....原创 2019-03-04 23:18:35 · 2775 阅读 · 0 评论 -
【问题4】:kaggle练习题《自行车租赁业务预测》--带数据分析,用了随机森林,支持向量机,岭回归等
数据来源:https://www.kaggle.com/c/bike-sharing-demand第一步:读取数据 并对数据进行分析import numpy as npimport pandas as pddf_train = pd.read_csv('data/kaggle_bike_competition_train.csv')print(df_train.head()...原创 2019-02-14 16:47:54 · 2201 阅读 · 3 评论 -
【问题3】:Kaggle练习题《房价预测》----分别采用的岭回归,随机森林,bagging模型,AdaBoost,XgBoost等。
第一步:导入基本的模块, 并且加载数据。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# index_col=0 将第0列作为行索引train_df = pd.read_csv('data/home_price/train.csv', index_col=0)test_df = pd.re...原创 2019-02-13 22:38:11 · 3206 阅读 · 4 评论 -
【问题2】:电影评论分类(二分类)-----使用 keras工具用两层神经网络进行预测分析
1:本次实验的数据集是keras自带的数据集,这个数据集第一次导入的时候,会很慢。因为需要从外网下载数据。 如果下载中遇到困难,评论留邮箱,发数据。。 只需将我传给的数据放在keras的datasets文件夹底下,就OK了。。 2:我们首先看一下数据集,这个数据集50000条。 训练集25000,测试集25000。 每一条数据都已经将单词转换为对应的数字。 我们还需要将每条...原创 2018-12-21 23:40:56 · 1626 阅读 · 0 评论 -
【问题1】:银行卡欺诈问题-----用逻辑回归预测分析
下面就是相关数据,这是一个脱敏数据,经过了一定的处理,我们不需要分析情况处理相关特征。 如果需要做实验,评论留邮箱,发数据。下面是代码部分,具体每一步的作用,代码中已经进行了详细的阐述。import pandas as pdimport numpy as npfrom sklearn.linear_model import LogisticRegressionfrom skle...原创 2018-12-21 18:37:51 · 1235 阅读 · 4 评论 -
理解kaggle比赛大杀器xgboost
通俗理解kaggle比赛大杀器xgboost 说...转载 2019-05-13 17:23:08 · 672 阅读 · 0 评论