- 博客(11)
- 收藏
- 关注
原创 天津大学815信号与系统考研资料分享
天津大学815信号与系统考研资料相关电子版资料和讲解视频分享,有需要的可以拿去使用哦!复制这段内容后打开百度网盘手机App,操作更方便哦链接:https://pan.baidu.com/s/1Z6FfzW44skEvZNfgn7ZTjA提取码:dg0W...
2020-09-19 22:23:05
986
10
原创 LeetCode之动态规划
一、最长字符串(5)题目: 给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。**四种解法:**暴力解法、动态规划解法、中心扩散法、Manacher 算法(了解思想即可)。代码如下:public class Solution { public String longestPalindrome(String s) { // 特判 int len = s.length(); if (len < 2) .
2020-08-23 20:04:09
202
原创 基于决策树的分类预测
一、决策树概述(一)、基本介绍决策树(Decision Tree)算法是一种基本的分类与回归方法,决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。结构:一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;根结点包含样本全集;决策树叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中。从根结点到每个叶结点的路径对应了一
2020-08-22 21:02:48
2335
原创 NLP入门之新闻文本分类竞赛——BERT
一、Transformer模型整体框架二、Encoder层1、首先,self-attention会计算出三个新的向量,在论文中,向量的维度是512维,我们把这三个向量分别称为Query:要去查询的、Key:等着被查的、Value:实际的特征信息,这三个向量是用embedding向量与一个矩阵相乘得到的结果,这个矩阵是随机初始化的,维度为(64,512)注意第二个维度需要和embedding的维度一样,其值在BP的过程中会一直进行更新,得到的这三个向量的维度是64低于embedding维度的。2、计
2020-08-04 17:40:13
1077
原创 NLP入门之新闻文本分类竞赛——文本分类模型
一、Word2Vecword2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此, word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法。word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:**Skip-grams (SG):**预测上下文;**Continuous Bag of Words (CBOW):**给定上下文来预
2020-07-31 18:04:41
1786
原创 NLP入门之新闻文本分类竞赛——FastText
1、FastText简介:fastText 文本分类算法是有Facebook AI Research 提出的一种简单的模型。通过Embeddding层将单词映射到稠密空间,然后将句子中的所有单词在Embeddding空间进行平均,进而完成分类操作。实验表明一般情况下,FastText 算法能获得和深度模型相同的精度,但是计算时间却要远远小于深度学习模型。fastText 可以作为一个文本分类的 baseline 模型。2、FastText优点fastText是一个快速文本分类算法,与基于神经网络的分类
2020-07-27 20:18:15
650
原创 NLP入门之新闻文本分类竞赛——task3
NLP入门之新闻文本分类竞赛——task3一 文本数字化——向量空间模型1.什么是One-Hot编码? One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。#### One-Hot表示方法示例如下""" 句⼦1:我 爱 北 京 天
2020-07-25 18:55:38
252
原创 NLP入门之新闻文本分类竞赛task2
NLP入门之新闻文本分类竞赛——task2一 数据读取train_df = pd.read_csv('../dataset/train_set.csv', sep='\t', nrows=10000) # nrows设置显示获取数据数目,数目较大,这里选择10000,以下统计均为在10000条数据的情况下。二 句⼦⻓度分析train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))print(train_d
2020-07-22 20:01:36
225
原创 pandas基本入门
pandas基本入门一 基本数据结构1.series创建 对于一个Series,其中最常用的属性为值(values),索引(index),名字(name),类型(dtype)import pandas as pdimport numpy as nps = pd.Series(np.random.randn(3),index=['a','b','c'],name='这是一个Series',dtype='float64')print(s)"""a -0.152799b -1.208
2020-07-20 20:55:10
410
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人