
算法面试
NLP_victor
这个作者很懒,什么都没留下…
展开
-
Python基础篇笔记:常用代码汇总
1、统计词频的三种方法1、利用字典dict来完成统计a = [1, 2, 3, 1, 1, 2] dict = {} for key in a: dict[key] = dict.get(key, 0) + 1 #字典的get函数可以查询键的值,0代表默认值,每出现一次加1print (dict) 输出结果: >>>{1: 3, 2: 2, 3: 1} 2、利用Python的collection包下Counter的类from collect原创 2022-01-04 20:06:11 · 1112 阅读 · 0 评论 -
机器学习基础知识点⑤数据增强、类别不平衡
1、NLP数据增强技术https://zhuanlan.zhihu.com/p/151726605CV领域的标配,比如对图像的旋转、镜像、高斯白噪声等。(1)文本替代文本替代主要是针对在不改变句子含义的情况下,替换文本中的单词,比如,同义词替换、词嵌入替换等等。同义词替换:在文本中随机抽取一个单词,然后再同义词库里将其替换为同义词。比如,使用WordNet数据库,将「awesome」替换为「amazing」。词嵌入替换:采取已经预训练好的单词嵌入,如Word2Vec、GloVe、Fa原创 2020-07-01 23:41:10 · 3960 阅读 · 0 评论 -
Python基础篇笔记⑤:匿名函数lambda、Python 函数式编程
1、匿名函数基础匿名函数的格式:关键字 lambda,之后是一系列的参数,然后用冒号隔开,最后则是由这些参数组成的表达式。lambda argument1, argument2,... argumentN : expression1.1 案例:x的平方# 匿名函数的形式square = lambda x: x**2square(3)9# 常规函数的形式def s...原创 2019-07-11 17:14:23 · 466 阅读 · 0 评论 -
Python基础篇笔记④:自定义函数、闭包
1、自定义函数1.1 函数的嵌套:嵌套函数的使用,能保证数据的隐私性,提高程序运行效率函数的嵌套,主要有下面两个方面的作用。 第一,函数的嵌套能够保证内部函数的隐私。内部函数只能被外部函数所调用和访问,不会暴露在全局作用域,因此,如果你的函数内部有一些隐私数据(比如数据库的用户、密码等),不想暴露在外,那你就可以使用函数的的嵌套,将其封装在内部函数中,只通过外部函数来访问。比如...原创 2019-07-10 20:30:37 · 373 阅读 · 0 评论 -
Python基础篇笔记③:条件与循环、异常处理
1、条件与循环1.1 字典的遍历字典本身只有键是可迭代的,如果我们要遍历它的值或者是键值对,就需要通过其内置的函数 values() 或者 items() 实现。其中,values() 返回字典的值的集合,items() 返回键值对的集合。d = {'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'}for k in d: ...原创 2019-07-09 21:51:58 · 227 阅读 · 0 评论 -
Python基础篇笔记⑥:面向对象
OOP (object oriented programming)小结(1)面向对象编程四要素是什么?它们的关系又是什么?答:面向对象编程四要素是类,属性,函数(方法),对象(实例), 它们关系可以总结为:类是一群具有相同属性和函数的对象的集合。① 类:抽象类:是一种特殊的类,只能作为父类存在,一旦对象化(或叫实例化)就会报错;一般使用class Classname(metacla...原创 2019-07-12 19:37:05 · 200 阅读 · 0 评论 -
Python基础篇笔记②:I/O操作,JSON 序列化
1、I/O操作:文本文件读写1.1 任务说明:读取文件 in.txt; 去除所有标点符号和换行符,并把所有大写变成小写; 合并相同的词,统计每个词出现的频率,并按照词频从大到小排序; 将结果按行输出到文件 out.txt。1.2 代码详解import redef parse(text): # 使用正则表达式去除标点符号和换行符 text = re.sub(...原创 2019-07-08 19:49:29 · 261 阅读 · 0 评论 -
Python基础篇笔记①:列表、元组、字典、集合、字符串
1、列表和元组1、定义l = [1, 2, 'hello', 'world'] # 列表中同时含有 int 和 string 类型的元素l[1, 2, 'hello', 'world']tup = ('jason', 22) # 元组中同时含有 int 和 string 类型的元素tup('jason', 22)2、区别总的来说,列表和元组都是有序的,可以存储任意数...原创 2019-06-11 10:49:05 · 529 阅读 · 0 评论 -
机器学习基础知识点④:神经网络
1、LSTM和GRU的区别?GRU和LSTM的性能在很多任务上不分伯仲。 GRU 参数更少因此更容易收敛,但是数据集很大的情况下,LSTM表达性能更好。 从结构上来说,GRU只有两个门(update和reset),LSTM有三个门(forget,input,output),GRU直接将hidden state 传给下一个单元,而LSTM则用memory cell 把hidden state...原创 2019-06-04 20:26:13 · 297 阅读 · 0 评论 -
机器学习基础知识点③:词嵌入
1、文本表示哪些方法?下面对文本表示进行一个归纳,也就是对于一篇文本可以如何用数学语言表示呢?基于one-hot、tf-idf、textrank等的bag-of-words; 主题模型:LSA(SVD)、pLSA、LDA; 基于词向量的固定表征:word2vec、fastText、glove 基于词向量的动态表征:elmo、GPT、bert2、传统的词向量有什么问题?怎么解决?各种...原创 2019-06-04 19:34:14 · 1586 阅读 · 0 评论 -
机器学习基础知识点②:决策树、随机森林、GBDT与xgboost
ID3、C4.5、CART、随机森林、bagging、boosting、Adaboost、GBDT、xgboost算法总结1、决策树首先,决策树是一个有监督的分类模型,其本质是选择一个能带来最大信息增益的特征值进行树的分割,直到到达结束条件或者叶子结点纯度到达一定阈值。按照分割指标和分割方法,决策树的经典模型可以分为ID3、C4.5以及CART(1)ID3:以信息增益为准则来选择最优划...原创 2019-06-04 17:06:29 · 3115 阅读 · 0 评论 -
机器学习基础知识点①:Kmeans、LR、SVM、朴素贝叶斯
1、样本不平衡的解决方法?1)上采样和子采样;2)修改权重(修改损失函数);3)集成方法:bagging,类似随机森林、自助采样;4)多任务联合学习;2、交叉熵函数系列问题?与最大似然函数的关系和区别?1)交叉熵损失函数的物理意义:用于描述模型预测值与真实值的差距大小;2)最小化交叉熵的本质就是对数似然函数的最大化;3)对数似然函数的本质就是衡量在某个参数下,整体的估计和真实情...原创 2019-06-04 16:39:35 · 1287 阅读 · 0 评论 -
百面机器学习笔记①:特征工程
特征工程笔记为什么需要对数据值类型的特征做归一化?为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。特征归一化(Normalization)使各指标处于同一数值量级,以便进行分析。(1)线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换,使结果映射到[0, 1]的范围,实现对原始数据的等比缩放。归一化公式如下(2)...原创 2019-04-28 22:09:31 · 383 阅读 · 0 评论