
Datawhale
只爱写代码
这个作者很懒,什么都没留下…
展开
-
机器学习算法(三): 基于支持向量机的分类预测
1算法实战## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn import svm##Demo演示LogisticRegression分类## 构造数据集x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]]原创 2020-08-28 07:35:34 · 301 阅读 · 0 评论 -
机器学习算法(二):基于决策数的分类预测
1.决策树决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。决策树的主要优点:具有很好的解释性,模型可以生成可以理解的规则。可以发现特征的重要程度。模型的计算复杂度较低。决策树的主要缺点:模型容易过拟合,需要采用减枝技术处理。不能很好利用连续型特征。预测能力有限,无法达到其他强监督模型效果。方差较高,数据分布的轻微改变很容易造成树结构完全不同。2.算法实战## 基础函数库import numpy as np ## 导入画图库import原创 2020-08-21 22:45:01 · 347 阅读 · 0 评论 -
机器学习算法(一): 基于逻辑回归的分类预测
Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于二分类问题,利用了Logistic函数(或称为Sigmoid函数),函数形式为:logi(z)=11+e−zlog_i(z) = \frac{1}{1+e^{-z}}logi(z)=1+e−z1Step1:库函数导入## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑原创 2020-08-19 22:46:14 · 278 阅读 · 0 评论 -
自然语言处理实践Task5
import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')# set seed seed = 666random.seed(seed)np.random.seed(seed)torch.cuda.manual_seed(seed)torch.man原创 2020-07-29 23:37:11 · 300 阅读 · 0 评论 -
自然语言处理实践Task4
FastTextFastText通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。FastText是一个三层的神经网络,输入层、隐藏层和输出层。# coding: utf-8from __future__ import unicode_literalsfrom keras.models import Sequentialfrom keras.layers import Embeddingfrom keras.layers原创 2020-07-27 21:32:05 · 211 阅读 · 0 评论 -
自然语言处理实践Task3
One-hot这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引,然后根据索引进行赋值。One-hot表示方法的例子如下:句子1:我 爱 北 京 天 安 门句子2:我 喜 欢 上 海首先对所有句子的字进行索引,即将每个字确定一个编号:{‘我’: 1, ‘爱’: 2, ‘北’: 3, ‘京’: 4, ‘天’: 5,‘安’: 6, ‘门’: 7, ‘喜’: 8, ‘欢’: 9, ‘上’: 10, ‘海’: 11}在这里共包括原创 2020-07-26 00:25:42 · 192 阅读 · 0 评论 -
自然语言处理实践Task2
一、读取训练数据# sep设置分割符# nrows设置读取的行数train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=100)train_df.head()第一列label为新闻的类别,第二列text为新闻的字符。二、数据分析计算句子的长度train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))train_df['text原创 2020-07-22 23:49:02 · 220 阅读 · 0 评论 -
自然语言处理实践Task1
一、数据集结构:共14个分类:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}二、评测标准:F1=2∗(precision+recall)(precision∗recall)F_1=2* \frac{(precision+recall)}{(precision∗recall)}F1=2∗原创 2020-07-21 22:37:05 · 200 阅读 · 0 评论