
Data Structures and Algorithms
文章平均质量分 72
数据结构与算法
贪钱算法还我头发
算法工程师
一直进步 做喜欢的
展开
-
算法工程师面试八股(搜广推方向)
文章目录机器学习线性和逻辑回归模型逻辑回归二分类和多分类的损失函数二分类为什么用交叉熵损失而不用MSE损失?偏差与方差Layer Normalization 和 Batch NormalizationSVM数据不均衡特征选择排序模型树模型进行特征工程的原因GBDTLR和GBDTRF和GBDTXGBoost二阶泰勒展开优势为什么快防止过拟合处理缺失值树停止生长条件处理不平衡数据树剪枝选择最佳分裂点Scalable性特征重要性调参步骤过拟合解决方案对缺失值不敏感XGBoost和RF单棵树哪个更深?XGBoost原创 2023-12-02 22:14:53 · 8195 阅读 · 1 评论 -
NLTK避免缩略词导致分句错误
参考:How to avoid NLTK’s sentence tokenizer splitting on abbreviations?NLTK自带的nltk.tokenize库可以实现英文分句,但是当句子中存在缩写词时分句会错误:from nltk.tokenize import sent_tokenizesens = sent_tokenize('Fig. 2 shows a U.S.A. map.Look!')print(sens)"""输出:['Fig.', '2 shows a原创 2021-07-27 17:45:31 · 490 阅读 · 0 评论 -
算法笔记整理
名词介绍top1错误率,top5正确率:top1: 预测的label取最后概率向量里最大的那一个作为预测结果 ,如过预测结果中概率最大的那个分类正确,则预测正确,否则预测错误top5:最后概率向量最大的前五名中,只要出现了正确概率即为预测正确,否则预测错误机器学习Machine LearningKNN算法:机器学习之KNN(k近邻)算法详解决策树:机器学习实战(三)——决策树TF-IDF算法:TF-IDF算法介绍及实现自然语言处理NLPN-gram模型:自然语言处理NLP中的N-原创 2021-07-22 17:50:05 · 214 阅读 · 0 评论 -
编辑距离——莱文斯坦距离
1.编辑距离1.1简介编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。1.2应用自然语言处理:如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。生物信息学:DNA也可以视为用A、C、G和T组成的字符串,编辑距离可以用来判断二个DNA的类似程度。Unix下的diff及patch即是利用编辑距离来进行文本编辑对比的例子1.3分类最长公共子序列距离(Longest Com原创 2021-07-16 14:10:27 · 452 阅读 · 0 评论 -
算法实习生面试问题准备
文章目录1.深度学习基础CV如何计算感受野CNN中各层NLPRNN和LSTM的区别2.机器学习激活函数的种类及各自的作用逻辑回归和线性回归区别与联系深层神经网络和浅层神经网络的区别什么是过拟合,防止过拟合的方法Softmax loss和Cross entropy的区别偏差和方差,各参数与偏差方差的关系超参数训练、验证、测试集归一化的优点,哪些模型需要归一化梯度消失、梯度爆炸及解决方式批量梯度下降、随机梯度下降、mini-batch梯度下降的区别优化算法Kmeans的K如何选择聚类算法有哪些SVMPCA、SV原创 2021-02-24 18:30:13 · 954 阅读 · 0 评论 -
数据结构与算法笔记
文章目录算法精粹0.几个小问题0.1斐波那契数列0.2距离1.排序1.1快速排序1.2选择排序2.搜索算法2.1线性搜索(Linear search)2.2二分搜索(Binary search)2.3深度优先搜索(Depth-first search)2.4广度优先搜索(Breadth-first search)2.5A*搜索3.约束满足问题(Constraint-satisfaction problem)4.图问题4.1贪婪算法4.2Jarnik算法4.3Dijkstra算法5.遗传算法(Genetic原创 2020-12-01 18:08:41 · 745 阅读 · 0 评论 -
LeetCode刷题笔记
文章目录1.数据结构1.1字符串、数组、链表1.2队列、栈1.3堆1.4树1.4.1二叉树1.4.2二叉搜索树 4`1.4.3字典树1.4.4树状数组1.4.5线段树1.5图 2`1.6哈希表1.7Ordered Map2.简单算法2.1位运算2.2双指针2.3排序算法2.4二分查找3.复杂算法3.1递归、回溯算法、深度优先搜索(DFS)3.2广度优先搜索(BFS)3.3拓扑排序 4`3.4贪心算法3.5分治算法3.6滑动窗口算法3.7极小化极大 7`3.8并查集3.9动态规划4.其他4.1Random 6原创 2021-01-28 22:25:29 · 1955 阅读 · 2 评论