
Datawhale
越来越胖的GuanRunwei
前WEB开发码农,.NET发烧友,前NLP菜鸡,利物浦大学在读博士
展开
-
详解支持向量机SVM——以最通俗易懂的方式
引言支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。——来自百度百科SVM与“三八线”不少人包括我自己在初识SVM时会感觉到高深难懂。这几天在网上看到有大佬用“三八线”引入SVM这个概念就觉得挺巧妙的。回忆下小时候原创 2020-08-25 20:09:51 · 5036 阅读 · 0 评论 -
Datawhale_day2决策树
介绍决策树是一种常见的分类模型,在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先看男方是否有房产,如果有房产再看是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。决策树的主要优点:具有很好的解释性,模型可以生成可以理解的规则。 可以发现特征的重要程度。 模型的计算复杂度较低。决策树的主要缺点:模型容易过拟合,需要采用减枝技术处理。 不能很好利用连原创 2020-08-24 10:47:48 · 248 阅读 · 0 评论 -
Datawhale_day1逻辑回归
引言逻辑回归属于有监督机器学习。我们习惯将这类预测未来的问题称作回归问题,机器学习中按照目的不同可以分为两大类:回归和分类。那么逻辑回归既是用来完成分类任务的为什么名字中还有“回归”呢?大概是使用回归的思想去完成分类任务吧。、一个例子代码:import numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.linear_model import LogisticRegressio原创 2020-08-20 15:40:32 · 273 阅读 · 0 评论 -
Datawhale_day6
划水打卡,以防忘记,回头再补原创 2020-08-03 21:05:35 · 240 阅读 · 0 评论 -
Daywhale_day5
分词:import jiebaimport jieba.analyseimport jieba.posseg as psegimport codecs, sysdef cut_words(sentence): # print sentence return " ".join(jieba.cut(sentence)).encode('utf-8')f = codecs.open('wiki.zh.jian.text', 'r', encoding="utf8")tar原创 2020-07-29 15:43:26 · 203 阅读 · 0 评论 -
Datawhale_day4
import pandas as pdimport fasttextimport osfrom sklearn.metrics import f1_score# 转换为fasttext需要的形式data_set = os.path.join(os.getcwd(), "数据集\\train_set.csv\\train_set.csv")train_df = pd.read_csv(data_set, sep='\t', nrows=15000)train_df['label_ft'] =.原创 2020-07-27 15:12:20 · 196 阅读 · 0 评论 -
Datawhale_day3
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.linear_model import RidgeClassifierfrom sklearn.metrics import f1_scoreimport osimport pandas as pddata_set = os.path.join(os.getcwd(), "数据集\\train_set.csv\\tra.原创 2020-07-25 16:18:39 · 180 阅读 · 0 评论 -
Datawhale_day2
本章作业假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成? 统计每类新闻中出现次数对多的字符————————————————————————————————————————————题1 代码:import pandas as pdimport osdata_set = os.path.join(os.getcwd(), "数据集\\train_set.csv\\train_set.csv")print(data_set)train原创 2020-07-23 20:49:30 · 179 阅读 · 0 评论 -
Datawhale_day1
赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。 赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据 完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票原创 2020-07-21 15:43:14 · 193 阅读 · 0 评论