
笔记
文章平均质量分 81
YK_Forever
这个作者很懒,什么都没留下…
展开
-
KNN&Ensemble Learning
KNN要求三个事情:1.一组数据记录 2.计算两个记录之间的距离矩阵 3.检索的最近的K个邻居对未知记录进行分类:1.计算到其他training record的距离 2.识别k个最近的邻居 3.用服从多数原则决定分类决定分类两种方式:1.服从多数 2.根据距离权衡投票weight factor, w = 1/d weight factor, w = 1-d d越小,w占比越大k的选取:1.太小,容易过拟合,有noise point 2.太大,容易有其他类,欠拟合属性有...原创 2021-08-11 18:29:26 · 295 阅读 · 0 评论 -
基于多层感知机的神经网络ANN
学习目标了解人工神经网络的基本原理 通过合适的例子讨论多层感知机的运作 讨论利用反向传播bp的方法推导权值更新公式课堂笔记神经网络概念神经网络(artificial neural network)是与人类大脑思考相似的算法,可用来解决监督式的分类(classification)问题和连续数预测(numeric prediction),非监督式的聚簇问题(clustering)。具体有以下几种分类:Multi Layer Perceptron (MLP) used for...原创 2021-08-09 17:00:59 · 614 阅读 · 0 评论 -
预处理2-POS Tagging
Word Classes 同一词类是指“behave”相似的词:出现在相同的场景中 在句中执行相似的功能 经历类似的转换 9大传统词类有:Noun, verb, adjective, preposition介词, adverb, article冠词, interjection感叹词, pronoun代词, conjunction连接词POS Tagging定义:利用语料库中的规则对单词进行词性标记。应用 对词性进行分类会出现以下问题: 1.同...原创 2021-07-30 22:03:18 · 637 阅读 · 0 评论 -
预处理1-Tokens and N-grams
Basic unit of languageAlphabet (symbol) Word (Token) 符号 Phrase (Utterance) 表达 Discourse (Document) 论述 Collection of Discourses (Corpus) 语料 Collection of Corpus (Corpora) 语料库Some basics on Wordswords约等于words:有些单词是必须连在一起才是这个意思。例如:New Ze...原创 2021-07-30 20:03:57 · 251 阅读 · 0 评论 -
贝叶斯,决策树
学习目标掌握分类问题里最普遍算法:Naïve Bayes Nearest Neighbour Decision Trees Neural Networks(之后)课堂笔记朴素贝叶斯 朴素--假设条件独立,而不是独立,即。 贝叶斯即P(B)称为先验概率,是凭经验得出的概率,例如中老年得高血压的概率为x%。先验概率可以直接用来预测,但是没有把特殊情况考虑进去,例如经常运动的中老年人得高血压的概率就低,因此需要算出后验概率来进行预测。P(A|B)也是题中根据样本数...原创 2021-07-29 20:23:51 · 1507 阅读 · 0 评论 -
数据挖掘基础部分
学习目标Knowledge Discovery 的框架 分类的评估方法 数据预处理的方法课堂笔记A Framework for Knowledge Discovery 概述:Data Mining是Knowledge Discovery一个更大的迭代过程的一部分。 KD的主要过程包括: 定义问题:识别你的KD项目的研究目标。 数据收集:包括数据清洗和预处理。 数据挖掘:建立适合的数据模型。 验证模型:涉及到一些统计分析(准确度计算)。...原创 2021-07-29 15:54:45 · 267 阅读 · 0 评论 -
DataMining数据预处理
读文件import pandas as pd>>> from io import StringIO>>> csv_data = \... '''A,B,C,D... 1.0,2.0,3.0,4.0... 5.0,6.0,,8.0... 10.0,11.0,12.0,'''>>> df = pd.read_csv(StringIO(csv_data))>>> print (df)A B C D0 1.0 2原创 2021-07-29 11:05:01 · 237 阅读 · 0 评论 -
N-gram和tag
N-gram给段落划词。2-gram是两个为一组# 从文件夹里读所有文件import globpath = "text/"string=''for files in glob.glob(path +"*.txt"): infile = open(files) a = infile.readlines() for k in range (0,len(a)): newString=a[k].replace('\n',' ') string原创 2021-07-28 23:09:07 · 141 阅读 · 0 评论 -
决策树、贝叶斯编程
数据准备--训练集测试集import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_split, cross_val_scorefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.naive_bayes import GaussianNB, Multinom原创 2021-07-28 22:53:35 · 365 阅读 · 0 评论