- 博客(20)
- 收藏
- 关注
原创 【数据标注】优雅的将文本检测数据集转换为端到端文本提取数据集(下)
本文旨在提供一种首先使用 PaddleOCR 为矩形文本检测数据集生成识别伪标签,随后使用 PPOCRLabel 进行标签纠错从而得到一个文本提取数据集的方法。是该系列文章的下篇。
2023-10-05 23:00:19
358
原创 【数据标注】优雅的将文本检测数据集转换为端到端文本提取数据集(上)
本文旨在提供一种首先使用 PaddleOCR 为矩形文本检测数据集生成识别伪标签,随后使用 PPOCRLabel 进行标签纠错从而得到一个文本提取数据集的方法。
2023-09-30 20:55:24
666
1
原创 [cs229] 广义线性模型 Generalized Linear Models
Generalized Linear ModelsThe exponential family 指数家族分布形式如下:p(y;η)=b(y)exp(ηTT(y)−a(η))p(y;\eta) = b(y) \exp {(\eta^TT(y)-a(\eta))}p(y;η)=b(y)exp(ηTT(y)−a(η)) 大部分时候,T(y)=yT(y) = yT(y)=y 。η\etaη 为自然参数 (natural parameter), a(η)a(\eta)a(η) 为对数分割函数 (lo
2020-12-19 18:50:21
262
1
原创 《C++ Primer》笔记
更新于 2020.10.30C++ Primer NoteChapter 1:开始1.1 编译、运行程序大多数系统中,main 函数的返回值用来指示程序运行的状态,如果返回 0 则表示成功,返回其他值一般用来指示遇到的错误。**编译:**运行GUN编译器编译 proj1.cpp 文件,并将可执行文件命名为 proj1 的命令。g++ -o proj1 proj1.cpp查看运行状态echo %ERRORLEVEL%1.2 初识输入输出标准库: iostream标准
2020-10-30 12:35:27
483
2
原创 [Coursera] Deep learning 系列课程作业的一些报错问题总结及作业资源
Deep learning 系列课程作业的一些报错问题总结 相信有小伙伴和我一样,在使用网上下载下来的作业资源在本地环境进行运行的时候会有一些报错问题,我总结了一下我遇到的问题,并给出了详细的解决方法,希望能对看到这篇文章的小伙伴有所帮助。 这篇文章的部分内容来自:ImSEten 的这篇文章,但是由于有些问题他并没有解决,他也并没有更新完所有作业中遇到的报错问题,所有我还是重新整理了遇到的问题,同时我也会标记出从他那里 copy 过来的内容。下载资源修正后的空作业文件:(目前只包含了Course
2020-10-26 11:56:44
2013
1
原创 [leetcode] 3.无重复字符的最长子串 (c++)
3.无重复字符的最长子串 执行时间击败了98%的用户,内存消耗击败了74%的用户。这题有个小坑的地方,输入的字符不一定是从 a 开始到 z ,可能有其他字符。class Solution {public: int lengthOfLongestSubstring(string s) { int s_length = s.length(); //获取输入字符串长度 int memery[100]; memset(memery, -1, size
2020-10-24 09:08:20
83
原创 [机器学习-李宏毅] 半监督学习笔记 (Semi-supervised Learning)
Semi-supervised Learning Semi-supervised Learning 是 半监督学习 的意思。他是指用于训练的数据有一部分是有标签的,一部分数据是无标签的,同时使用这两部分数据进行学习。你可能会有一些疑问,为什么要使用没有标签的数据?没有标签的数据怎么能用来训练?对于第一个问题,是因为现在的机器学习方法大多都是数据驱动的方法,数据的量很大程度上会决定我们训练出的模型的好坏,但是提升数据量又是件不容易的事情,但是需要注意的是获取大量数据其实不难,难的是获取大量有标签的数据。比
2020-09-22 20:39:14
1240
原创 [机器学习-李宏毅] 反馈神经网络笔记 (RNN、LSTM)
Recurrent Neural Network Recurrent Neural Network 是反馈神经网络,简称为 RNN 。与最基础的前向传播神经网络不同的是,RNN 是一个有记忆的神经网络,他把上一次的输出存了起来作为下一次的输入参数的一部分影响下一次的输出结果。为什么要这么做呢?让我们来看一个例子。RNN 的背景 假设有这样一个应用场景,我希望输入一段话给我的语音助手,例如 “I would like to arrive Chengdu on November 2nd” (意思是我将
2020-09-21 17:34:27
1930
1
原创 [机器学习-回归实例] 李宏毅机器学习作业一:PM2.5 预测实例
[机器学习-回归实例] 李宏毅机器学习作业一:PM2.5 预测实例简介 这是一个回归预测的实例,数据集来自李宏毅的《机器学习》课程的第一次作业,可以用来训练一个线性回归模型或者其他的回归模型,动手实践学习到的理论知识,在实践中去发现问题。这篇文章主要包括数据集的解释、数据的预处理过程及线性回归模型的代码实现这三个部分。由于这个数据集并不能直接使用,还需进行一些重构,为了对初学者更友好一些,我会提供重构完的可以读取后就直接使用的数据集,我也会提供 Matlab\rm MatlabMatlab 可直接使用
2020-09-18 22:40:55
3412
8
原创 [李宏毅 机器学习] 深度学习笔记(DNN, RNN, Backpropagation, ReLU, Maxout, RMSProp, Momentum, Adam, 早停, Dropout)
Deep learning 深度学习其实就是使用多层的神经网络模型来进行机器学习。神经网络也有很多种,最基本的全连接前馈神经网络的原理其实并不复杂,就是多个线性函数加一个激活函数构成一个个神经元,神经元的左边是线性函数的输入,神经元的输出是线性函数经过激活函数后的值,每层有多个神经元,如果将激活函数选为 sigmoid 函数的话,每个神经元的输入输出其实就是前面所讲的 logistic regression 的输入输出,每层的多个神经元的关系其实就是多个 Logistic Regression 的关系。
2020-09-16 17:29:13
849
原创 [机器学习] 分类(Classification)——贝叶斯分类 (Bayes Classification) 和逻辑回归 (Logistic Regression)
ClassificationProbabilistic Generative Model 在概率论中,我们学习过贝叶斯公式,他是说当一件事情 AAA 发生了,这件事可能有 nnn 个原因 B1, ... ,BnB_1,\ ...\ ,B_nB1, ... ,Bn ,那么在 AAA 发生的条件下,事情是由 BiB_iBi 引起的概率记为 p(Bi∣A)p(B_i|A)p(Bi∣A) ,这个概率等于在 BiB_iBi 发生的概率乘以 BiB_iBi 的条
2020-09-13 17:35:01
768
原创 [力扣LeetCode] 122.买卖股票的最佳时机 II (C语言)
题目 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易(多次买卖一支股票)。注意:你不能同时参与多笔交易(你必须在再次购买前出售掉之前的股票)。示例1:输入:[7,1,5,3,6,4]输出: 7解释: 在第 2 天(股票价格 = 1)的时候买入,在第 3 天(股票价格 = 5)的时候卖出, 这笔交易所能获得利润 = 5-1 = 4 。 随后,在第 4 天(股票价格 = 3)的时候买入,在第 5 天(股
2020-09-11 13:57:51
397
原创 [力扣LeetCode] 14最长公共前缀 (C语言)
题目 编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串 ""示例1:输入:[“flower”,“flow”,“flight”]输出:“fl”示例2:输入:[“dog”,“racecar”,“car”]输出:""说明:所有输入只包含小写字母 a-z 。题解C语言方法一: 依次取出第一个字符串的字母,去和其他字符串相应位置的字母比较,如果相同就继续,不同就跳出循环,输出相同的前缀字符串。这里需要注意的是案例可能是没有字符串的,所以可以
2020-09-10 20:30:01
967
原创 [机器学习] Gradient descent (Adagrad 、 SGD)
前言 这篇文章是李宏毅的《机器学习》课程的笔记,主要目的是让我自己梳理一遍课程的内容,加深理解,找到课上没弄懂的地方,并将新的知识点与我以前的一些认知结合起来。如有写错的地方或者理解有问题的地方希望能得到纠正,欢迎相关的问题。正文 回顾在前面线性回归处使用的梯度下降来寻找损失函数 JJJ (或记为 LLL) 最小时的参数 θ\boldsymbol\thetaθ ,我们的目标函数是:θ∗=argminθJ(θ)\boldsymbol \theta^*=\arg \min_{\boldsym
2020-09-10 16:59:37
601
原创 [机器学习] 偏差与方差 (bias & variance)
Bias & variance 在机器学习中,我们所做的是从数据中学习它的模型,我们所希望的就是学习到一个能够百分百刻画出全体数据分布的模型,这样我们就可以用这个模型来做预测。然而实际情况是,我们几乎不可能找到最完美的模型能够刻画全体数据,比如说房价预测,每年都有新的房子被建造出来,同一个房子的房价本身也会变化,即使我们有办法拿到从古至今所有的房价样本参数,但是我们还是没有办法拿到未来的房价参数,所以对于房价整体数据集来说,我们永远没有办法拿到全体的数据,只能拿到一部分,除非有一天没有房子了,或
2020-09-10 00:08:50
560
原创 [剑指offer] 03数组中重复的数字 C题解
[剑指offer] 03数组中重复的数字题目 在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例:输入:[2, 3, 1, 0, 2, 5, 3]**输出:**2 或 3限制:2 <= n <= 10000题解C语言方法一: 使用一个同等大小的数组计数,遍历输入的数组,在计数数组中计数出现的次数,当次数累计到 2 时输出该
2020-09-10 00:02:53
207
原创 [力扣LeetCode] 350两个数组的交集II
[数组] 350两个数组的交集 II题目 给定两个数组,编写一个函数来计算它们的交集。示例1:输入:nums1 = [1,2,2,1], nums2 = [2,2]输出:[2,2]示例2:输入:nums1 = [4,9,5], nums2 = [9,4,9,8,4]输出:[4,9]说明:输出结果中每个元素出现的次数,应与元素在两个数组中出现次数的最小值一致。我们可以不考虑输出结果的顺序。进阶:如果给定的数组已经排好序呢?你将如何优化你的算法?如果 nums1
2020-09-09 11:22:19
165
原创 [机器学习] Regression 线性回归
RegressionInput & output (Data set) 首先来看一下我们的数据集的形式。假设我们有一个数据集包含 mmm 个数据 {(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}\{(\pmb{x}^{(1)},y^{(1)}),(\pmb{x}^{(2)},y^{(2)}),...,(\pmb{x}^{(m)},y^{(m)})\}{(xxx(1),y(1)),(xxx(2),y(2)),...,(xxx(m),y(m))} ,上标表示第 i
2020-09-08 19:01:33
220
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人