自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 计算机视觉准备八股中

一边记录一边看,这段实习跑路之前运行完3DGAN,弄完润了,现在开始记忆八股1.CLIP模型的主要创新点: 图像和文本两种不同模态数据之间的深度融合、对比学习、自监督学习2.等效步长是每一步操作步长的乘积3.卷积层计算输入输出的公式: 4.a=np.random.randn(3,3) b=np.random.randn(3,1) ,那么c=a*b的维度应该是,*是元素乘法, 会触发广播机制,b会变为形状(3,3),最终c的形状是(3,3)5.带宽​(Bandwidth)是指在单位时间内,网

2025-03-29 18:47:42 1730 4

原创 kaggle视频行为分析1st and Future - Player Contact Detection

这次比赛的目标是检测美式橄榄球NFL比赛中球员经历的外部接触。您将使用视频和球员追踪数据来识别发生接触的时刻,以帮助提高球员的安全。两种接触,一种是人与人的,另一种是人与地面,不包括脚底和地面的,跟我之前做的这个是同一个主办方举行的之前做的是视频追踪,用的deepsort,这一场比赛用的2.5DCNN。

2025-02-03 16:26:31 1104

原创 kaggle视频追踪NFL Health & Safety - Helmet Assignment

3年前的比赛了,检测视频中的头盔,通过对比赛录像的分析,正确指派球员。每个进攻都有两个相关的视频,一个是边线视角,另一个是端区视角,而且这两个视频是同步的,即视频中的每一帧都是对应的。我用别人写好的,用的是deepsort算法。

2025-01-30 20:56:07 920

原创 kaggle社区LLM Classification Finetuning

预测用户在一个由大型语言模型(LLMs)驱动的聊天机器人之间的正面交锋中会偏好哪些回应。获得来自聊天机器人竞技场(Chatbot Arena)的对话数据集,其中不同的LLMs对用户的提示生成答案。通过开发一个胜出的机器学习模型,帮助改进聊天机器人与人类的互动方式,并确保它们更好地符合人类的偏好。实际上是进行一个序列的分类。

2025-01-27 00:42:01 840

原创 基于paddleocr的表单关键信息抽取

json.dumps编码前的图像标注信息是包含多个字典的list,字典中的 points 表示文本框的四个点的坐标(x, y),从左上角的点开始顺时针排列。在模型训练过程中保存的模型文件是包含前向预测和反向传播的过程,在实际的工业部署则不需要反向传播,因此需要将模型进行导成部署需要的模型格式。ZH(中文)、JA(日语)、ES(西班牙)、FR(法语)、IT(意大利)、DE(德语)、PT(葡萄牙),用下面的命令下载数据集,不要用他环境提供的,会报错,数据格式有问题。训练代码如下,喜欢自己去跑,太慢了,玩不起。

2025-01-26 12:10:11 1255

原创 ppocr端侧部署

下面这是官方的# 执行编译,得到可执行文件ocr_db_crnn# ocr_db_crnn可执行文件的使用方式为:# ./ocr_db_crnn 检测模型文件 识别模型文件 测试图像路径make -j# 将编译的可执行文件移动到debug文件夹中# 将debug文件夹push到手机上adb shell实际上你还得弄一下下面一步,照下面这个链接做第七步Ubuntu20.04 交叉编译Paddle-OCR_paddle lite ocr-优快云博客最好成功部署后运行效果我下面的图,反正成功了。

2025-01-24 10:38:17 486

原创 基于ppocr的视觉问答

下载预训练权重可以省很多训练时间,之前做的表格识别,跑了两天才40个epoch,太难受了。

2025-01-21 21:15:31 305

原创 基于paddleocr的表格识别

先改文件,会有下面这个报错找到/ppocr/data/imaug/label_ops,然后在大约第675行处,改成我这样。

2025-01-20 10:34:51 740

原创 PP-OCR系统

如图4-1所示,某个卷积网络包含K个卷积层,每个卷积层有4个filters,原始网络精度为90。第一步:从『卷积1』中剪裁掉25%的filters,也就是『卷积1』中第2个Filters,然后直接在测试集上评估精度结果为85,得到左边坐标图的第二个红点。恢复模型到初始状态。第二步:从『卷积1』中裁掉2个卷积,然后在测试集上评估精度为70,得到坐标图的第3个红点。恢复模型到初始状态。第三步:同理得到第4个红点。把『卷积1』对应的4个红点链接成曲线,即为『卷积1』的敏感度曲线。

2025-01-17 12:28:13 1010

原创 基于paddleocr的文本识别

文本识别任务接在检测任务之后,分为规则文本和不规则文本,规则文本主流包括下面的CTC和seq2seq,不规则文本主流分,基于校正的方法;基于 Attention 的方法;基于分割的方法;基于 Transformer 的方法,我也不知道为什么书上处理一个不规则文本数据用的规则文本的模型。

2025-01-16 21:25:35 460

原创 基于paddleocr的文本检测

最后一行是源,可以提高下载速度,第二行的需要自己去github官网下载他最新的包,链接如下。

2025-01-16 19:24:36 937

原创 基于mmdetection进行语义分割(不修改源码)

这个自己打开mmdetection的代码看一下就行,对应的base是instance。直接在kaggle上面搜whl就有,挺多人发的。数据集部分我已经弄好了,可以直接下载。结果一般,有需要自己慢慢调。

2024-12-21 11:16:01 253

原创 基于mmdetection的global_wheat(不修改源码)

找到适合你自己设备的,你可以单独弄一个虚拟环境,执行我下面的代码就行,自己改路径。

2024-12-13 23:02:30 540

原创 基于yolo11l的Global Wheat Detection

这里只是简单的使用ultralytics进行训练,这个比赛是好几年前的,我当时还没开始做kaggle,所以没参与,这里只是为了熟悉目标检测,后面我再去看看mmdetection。

2024-11-11 20:10:48 316

原创 EfficientNet,EfficientDet,Coatnet

这个模型本身结构是通过神经架构搜索得出,所以没必要直接去看他的网络架构,通过神经架构搜索得出的模型很难解释,可以不用管。

2024-11-09 13:50:21 378

原创 Swin Transformer:使用窗口的分层视觉变换器

他的主要方法是只在每个窗口内进行自注意力的计算,窗口是右图中,每一个红色框就是一个窗口,而VIT模型是在整张图进行自注意力计算。在现有的基于变换器的模型中,tokens都是固定尺度的,这种属性不适合视觉应用。图像中像素的分辨率远高于文本段落中的单词。在许多视觉任务,如语义分割,需要在像素级别进行密集预测,而对于高分辨率图像,Transformer的自注意力计算复杂度是图像大小的二次方。

2024-11-06 16:56:46 439

原创 Vision Transformer

注意力机制的计算分为两部分,首先计算注意力分布,然后对输入进行加权。

2024-11-03 19:06:57 805

原创 双路径网络

原始论文有提到这个模型,简要介绍一下,去找了这个模型的论文,大概长下面这样,图中只是一个简单的示例,一个3rd-oredr的,可以有更高阶的更一般的状态公式如下原论文还有一些pool的部分,我也不做这个方向就没仔细去看。

2024-11-02 20:06:55 573

原创 具有混合连接的门控卷积网络用于图像分类

利用多尺度也是很常见的方法,这主要是因为图中的物体有大有小,大尺度对小物体比较友好,小的尺度对大的物体比较友好,结合多种尺度能同时识别小的物体和大的物体,FPN也是这种策略,能提升模型效果,上面经过cell1进行降维得到更为紧凑的特征图,降低了计算量,这里都使用深度可分离卷积,计算量大概为一般卷积的1/9,同时3×3的分支还用了空洞卷积,可以在增大感受野的同时保持特征图大小不变,不同大小的卷积核就是这里的多尺度提取。不同卷积核对应感受野是不同的,但大的卷积可以分解为小的,如图,5×5可以分解成两个3×3。

2024-11-02 14:23:15 1045

原创 RSNA 2024 Lumbar Spine Degenerative Classification

开源的是这一个,很奇怪,用这个人写的训练代码跑出来结果很差,还慢,用160核CPU一个epoch都要一个小时,batch_size设置为16时占用显存100多G,单张卡设成1,累积梯度16次去更新也要占用14G显存,我看别人最后跑完提交代码结果也很差,甚至还不如随机的,链接放下面。yolo10x占用显存还是挺大的,不过有纳米版本的可以用,可以参考下面官方网站。铜牌方案,最后几天被机构冲下去了,5天时间从47掉到90。使用了yolo10x和开源的vit进行集成。最终训练代码我放下面这个连接。

2024-10-21 11:03:16 401

原创 kaggle-2024-ISIC比赛

公榜62私榜650,嘤嘤嘤用了三个notebook合成,代码放下面。

2024-09-07 10:51:11 667

原创 kaggle社区比赛House Prices - Advanced Regression Techniques

这里面的一个包sweetviz,听方便的可以用来做描述性统计,会自动生成一个报告。

2024-07-18 21:18:47 481

原创 kaggle社区比赛I’m Something of a Painter Myself

自定义这个因为现在都升级到keras3了,有些代码已经不兼容了,我参考的notebook都4年前的东西了,本来这个是有简写为tfa的模块可以完成这个工作的,但是我下载之后用的时候一直报错,只能放弃Cycle gan需要两个判别器和两个生成器,同时有四种损失,包括判别器损失,生成器损失,循环一致性损失,身份损失,域与域之间的联系靠的循环一致性损失,这里只用了随机翻转,后面训练才用可微数据增强self,):self,):return {

2024-07-16 00:47:35 1468

原创 kaggle花分类比赛91.168%

下面这个使用来调整训练过程的learning_rate,可以用这种自定义的callback,Keras官方文档里面有教else:return lr。

2024-06-19 17:44:05 2093

原创 kaggle灾难推文82.531%

一开始window用不了keras-nlp,用wsl想下载tensorflow2.16.1,失败了,现在换了ubuntu。

2024-06-12 18:50:41 1880

原创 kaggle猫狗图像识别97%准确率

这个只需注册一个kaggle账号,但这个比赛已经结束了,无法提交成绩。

2024-06-06 15:05:29 787

原创 kaggle手写数字识别99.335%top12%

用卷积神经网络加上数据增强很容易达到99%以上准确率。

2024-06-04 10:02:05 382

原创 kaggle泰坦尼克78.468%正确率top12%

刚从R转修python。

2024-06-01 12:42:38 473

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除