
机器学习
文章平均质量分 54
强仔fight
使我有洛阳二顷田,焉能配六国相印
展开
-
命名实体识别学习记录
命名实体识别学习记录原创 2022-06-16 15:11:55 · 206 阅读 · 0 评论 -
NLP自然语言处理丶笔记
语料库:knowledge base文本处理流程:pipeline原始文本 --》 (raw data) 网页文本,新闻,报告分词 --》 (segmentation)清洗 --》 (cleaning) 无用的标签,停用词,特殊符号标准化 --》 英文特征提取 --》 tf-idf,word2vec建模 --》 (modeling) 相似度算法,分类算法评估五大模块:①Word segmentation ② spell correction③ stop原创 2020-11-05 16:16:26 · 995 阅读 · 0 评论 -
文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec
TF-IDF模型中tf为词频 idf为逆文档频率#引入包import numpy as npimport pandas as pd#定义数据和预处理docA= "The cat sat on my bed"docB= "The dog sat on my knees"#词袋bowA = docA.split(" ") bowB = docB.split(" ") wordSet = set(bowA).union(set(bowB)) #构建词库,统计#进行次数统计原创 2020-06-19 21:35:15 · 1786 阅读 · 0 评论 -
机器学习实战笔记
数据预处理常做的操作:–数据映射—>data[col_name == 原值 ,col_name]=映射值–获取列名列表—>col_names = data.columns.tolist()–预览数据情况—>data.head() 默认访问前5行–去掉一些无关列—>todrop=[’’,’’] data.drop(todrop,axis=1)–同等重...原创 2020-02-24 16:58:33 · 744 阅读 · 0 评论 -
欺诈检测案例AND泰坦尼克号获救案例
#绘制类别比例图count_classes = pd.value_counts(data['Class'], sort=True).sort_index()count_classes.plot(kind="bar")plt.title("Fraud class histogram")plt.xlabel("Class")plt.ylabel("Frequency")...原创 2020-02-12 19:23:39 · 168 阅读 · 0 评论 -
常用机器学习/深度学习内部函数/激活函数调用实现总结
1.K-Means 算法from sklearn.cluster import KMeans #导入K均值聚类算法#调用算法kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数,一般等于CPU数较好kmodel.fit(data) #训练模型kmodel.cluster_centers_ #查看聚类中心km...原创 2019-10-17 16:17:21 · 492 阅读 · 0 评论 -
※机器学习数据集构造/划分/流程处理/评估常用代码总结
数据集划分:纯随机抽样方法from sklearn.model_selection import train_test_splittrain_set, test_set = train_test_split(data, test_size= , random_state= )分层抽样from sklearn.model_selection import StratifiedShuffl...原创 2019-10-16 17:15:50 · 585 阅读 · 0 评论 -
机器学习之时间序列
arima创建时间序列timestampperiodintervaldate_range 可以指定开始时间与周期 H D Mrng = pd.date_range('2016/07/01', periods=10, freq='D') #起始时间 周期 time = pd.Series(np.random.randn(20), index=pd.date_range(dt.dat...原创 2019-09-27 20:18:39 · 1079 阅读 · 0 评论 -
百面机器学习总结
一 特征工程1 特征归一化为什么对数值类型特征做归一化: 使不同指标之间具有可比性,将所有特征统一到一个大致相同的数值区间内。常用方法:①线性函数归一化:使结果映射到【0,1】的范围,对原始数据等比缩放X_norm = (X-X_max)/(X_max-X_min)②零-均值归一化:将原始数据映射到均值为0,标准差为1的分布上z=(X-u)/theta(通过梯度下降法求解的模型...原创 2019-08-22 18:15:03 · 589 阅读 · 4 评论 -
※大模型介绍/机器学习函数调用/绘图/读取文件/分析常用代码总结
面向AI编程原创 2019-08-21 17:50:20 · 4697 阅读 · 1 评论 -
机器学习-降维
数据降维的主要方法:投影和流形学习投影:高维空间的所有训练实例实际上(或近似于)受一个低得多的低维子空间所影响投影并不是降维的最佳方法。许多情况下,许多情况下,子空间可能会弯曲或转动,比如著名的瑞士卷玩具数据集简单地进行平面投影会直接将瑞士卷的不同层压扁在一起。d维流形就是n维空间的一部分,局部类似于一个d维超平面。在瑞士卷的例子中,d=2,n=3:它局部类似于一个2D平面,但是在第...原创 2019-06-02 22:38:06 · 327 阅读 · 0 评论 -
用户流失预警案例
1.数据预处理from future import divisionimport pandas as pdimport numpy as npchurn_df = pd.read_csv(‘churn.csv’)col_names = churn_df.columns.tolist()print(“Column names:”,col_names) #打印列名to_show = ...原创 2019-05-17 21:56:28 · 1156 阅读 · 0 评论 -
机器学习2梯度下降求解逻辑回归
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt #准备工作,导入包import ospath = ‘data’ +os.sep+‘LogReg_data.txt’pdData = pd.read_csv(path,header=None,names=[‘E1’,‘E2’,‘Admitted’]...原创 2019-05-05 23:32:04 · 369 阅读 · 0 评论 -
机器学习3决策树算法及其可视化
决策树:从根节点开始一步步走到叶子节点所有的数据最终都会落到叶子节点,既可以做分类也可以做回归叶子节点:最终的决策结果增加节点:相当于在数据中切一刀训练阶段:从给定的数据集构造出一棵树测试阶段:根据构造出来的树模型从上到下走一遍就好了熵:随机变量不确定性的度量 混乱程度栗子:A【1,1,1,1,2】B【1,1,2,2,3】显然A集合熵值要低,A里面只有两种类别信息增益:特征X使...原创 2019-05-06 19:15:37 · 914 阅读 · 0 评论 -
机器学习4集成算法与随机森林
随机森林随机:数据采样随机,特征选择随机森林:很多个决策树并行放在一起原创 2019-05-07 23:16:31 · 328 阅读 · 0 评论 -
机器学习基本概念
监督学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合和数量也可能是事先未知的通过一系列的观察,度量建立数据中的编号或进行聚类第一步:描述预先定义的数据类或概念集的分类器第二步:使用模型,对将来的或未知的对象进行分类...原创 2019-05-19 22:27:30 · 239 阅读 · 0 评论 -
机器学习5贝叶斯分类方法
一种统计分类方法: 通过概率进行预测,即预测一个给定元组 属于一个特定类的概率原创 2019-05-20 16:14:13 · 495 阅读 · 0 评论 -
机器学习6SVM-支持向量机
二分类问题其他分类算法:原创 2019-05-20 16:41:39 · 261 阅读 · 0 评论 -
机器学习7模型的评估与选择
评估分类法:提高分类法的准确性:分类器评估度量:原创 2019-05-20 16:58:43 · 272 阅读 · 0 评论 -
机器学习8聚类算法+KNN
聚类概念无监督问题(无标签)k-means算法聚类:相似的东西分到一组难点:评估,调参指定一个K值,要得到簇的个数质心:均值,向量各维取平均值距离的度量:常用欧几里得距离和余弦相似度工作流程:...原创 2019-05-24 22:15:36 · 658 阅读 · 0 评论 -
机器学习1线性回归算法
概述:对于X1,X2特征值作关于Y的拟合曲线Y=参数0 + X1 * 参数1 + X2 * 参数2原创 2019-04-27 19:30:34 · 798 阅读 · 0 评论