自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 llama3论文阅读

稠密Transformer(Dense Transformer)是指传统的Transformer模型,其中所有的注意力头和前馈网络层都是稠密的,即每个输入位置都会参与到每个输出位置的计算中。MOE架构的一个著名变体是稀疏门控MOE(Sparse Gated Mixture of Experts),它在Google的Switch Transformer模型中得到了应用,该模型通过使用稀疏门控机制来减少计算资源的消耗,同时保持模型的性能。小小模型的验证误差预测大模型的验证误差,但并不代表大模型的能力。

2024-09-12 17:25:09 821 1

原创 VIT论文阅读

卷积神经网络不是必备的,一个纯transformer表现也是非常好的2500天tpu v3大规模上预训练,小规模任务数据集上微调。扩大模型时候还没观察到瓶颈(还没出现过拟合)?轴注意力机制:把2d的图片注意力分成从H和从W出发两个1d的注意力机制将224x224的图片根据16x16的patch划分成为14x14,使用特征图展开成1d来进行attention操作在不加强约束的情况下,transformer效果是比Resnet差的,因为少了归纳偏置1是本地偏置,相近的特征会相邻;

2024-09-09 14:32:09 1183 1

原创 Moco论文阅读笔记

把对比学习砍成一个字典查询的任务。动态字典两部分组成,一个是队列,一个是移动平均的编码器,让字典里特征尽可能一致。Moco学到的特征能够很好迁移到下游任务。(最大的卖点)

2024-09-09 14:29:25 1163 1

原创 MAE阅读笔记

随机的盖住图片里的一些快,再去重构里面所有的像素编码器0解码器结构训练的效率比较高,编码器只计算被遮住的部分,所以整体计算量小一些挑战只是用小的训练集,然后效果达到和大模型一样的CV领域内大部分数据集都使用有监督学习,MAE开创了自监督学习的先例图片和语言的不同。在图片的一个patch里面,不一定含有语义信息。transformer是能学到图片中隐含的丰富语义信息的。社会影响:可以生成不存在的内容,还有就是有个偏差,因为用的自监督,某一类图片较多的话可能会太过倾向。

2024-09-09 14:21:43 414

原创 GNN图神经网络

distill的图非常出色,文字大多是在解释图分为顶点,边,全局信息一共三种embedding图片变成图,像素点和节点一一映射文本作图:相邻的文字之间有一条有向边分子图?社交网络wiki的知识图cora的引用图图是强大的工具,但是带来了很大的挑战。他的结构是动态的,架构是稀疏的,如何在GPU上计算很难。对超参数敏感。

2024-09-09 11:53:58 769

原创 BERT_

BERT使用了左侧和右侧的信息预测未来(双向)主要工作把前人的结果拓展到深的双向的架构上面,使得同样的预训练模型能够成功处理大量得那不一样的自然语言的任务具体来说不是把语言模型变成预测未来,而是变成完形填空。

2024-09-09 11:51:18 826

原创 AttentionIsallyouneed

RNN是时序,一步一步进行,难以并行transformer强大。

2024-09-09 11:45:39 324

原创 如何读论文

读三遍法则第一遍:标题、摘要、结论。可以看一看方法和实验部分重要的图和表。这样可以花费十几分钟时间了解到论文是否适合你的研究方向。第二遍:确定论文值得读之后,可以快速的把整个论文过一遍,不需要知道所有的细节,需要了解重要的图和表,知道每一个部分在干什么,圈出相关文献。觉得文章太难,可以读引用的文献。第三遍:提出什么问题,用什么方法来解决这个问题。实验是怎么做的。合上文章,回忆每一个部分在讲什么。一般几个途径:google(能索引到知乎、b站、csdn、个人博客等)

2024-09-09 11:34:41 279

原创 gpt2Tokenizer

nn.Embedding,根据字符对应的序号取,是可训练的Token是大模型的原子,一切都以标记为单位,与标记有关,不要忽略它!!非英语语言表现较差,英语比非英语多得多训练数据,得到更长的优质tokengpt2写python不利,太多缩进,gpt2把空格都当成了token同样的文本,gpt4的token数量比gpt2少一半,这是因为其token数量是gpt2的两倍,但这并不是好事,这意味着embedding表会非常大但有个最佳点,所有词汇表中的token数量恰到好处,适当密集且高效。

2024-09-09 11:08:57 1077

原创 大模型prompt构造方法

*{})等等,在GPT的输入中,这些符号的作用不仅仅是语法上的,它们还能帮助模型理解和区分问题的不同部分,从而提高回答的准确性。可以使用否定句,但应当尽量为每一个否定句都设置一个兜底策略,使大模型识别到不应当做什么的时候,给出预设的回复,如果没有设置兜底策略,让大模型继续在不要xxx的约束下继续生成答案,就很有可能出错。使用官方、书面、礼貌、友善的语言撰写Prompt,力求语句流畅、意图清晰、表达精简,确保Prompt所描述的相关任务易读、易懂、易操作。逗号 (,)用途:用于分隔列表项或独立的概念。

2024-09-09 10:32:22 880

原创 爬虫7:多线程与协程

我们可以使用线程池:一次性开辟一些线程,我们用户直接给线程池子提交任务,线程任务的调度交给线程池来完成。进程是资源单位 ,每个进程至少要有一个线程。因为91被封了这里用另一个视频网站代替吧。创建线程比创建进程花销小,故使用前者。多线程爬取北京新发地。

2024-09-06 17:55:29 927

原创 爬虫6:爬取网易云音乐评论

过程比较艰辛,具体看代码吧。

2024-09-06 17:46:56 749

原创 爬虫5:xpath

某些网站的反爬手段是检查你从哪个页面进来的,这时就要加入referer信息。对于需要登录的网站来说,cookie是个很好的选择。还有可能进行封ip操作,这时我们可以使用代理。一些常用方法,敲敲就明白了。爬取猪八戒招聘网站信息。

2024-09-06 17:41:57 767

原创 爬虫4:bs4

那么对于bs4来说公式就是BeautifulSoup(“html源码”, “html.parser”)贪婪搜索第一次匹配成功就返回,.*则返回所有成功匹配的。对于re来说,公式就是。

2024-09-06 17:35:26 350

原创 爬虫3:re正则表达式获取数据

在上一章中,我们基本上掌握了抓取整个网页的基本技能.但是呢,大多数情况下,我们并不需要整个网页的内容,只是 需要那么一小部分,怎么办呢?这就涉及到了数据提取的问题.这三种方式可以混合进行使用,完全以结果做导向,只要能拿到你想要的数据.用什么方案并不重要,当你掌握了这些之 后.再考虑性能的问题.本课程中,提供三种解析方式: 1.re解析 2.bs4解析 3.xpath解析。电影天堂,代码需要小小修改,有些问题。

2024-09-06 17:28:14 409

原创 爬虫2:web请求与http

2.客户端渲染 :请求网页时候服务器只返回html骨架,客户端再次请求数据时候再返回数据,进行数据展示(在页面源代码中看不到数据)1.服务器渲染 :在服务器那边直接把数据和html整合在一起,统一返回给浏览器。响应体:服务器返回的真正客户端要用的内容(HTML,json)等。状态行:协议,状态码 200,404,500,419被发现了,请求航:请求方式get/post, 请求url地址,协议。响应头:放一些客户端要使用的一些附加信息。请求头:放一些服务器要使用的附加信息。请求体:一般放一些请求参数。

2024-09-06 17:23:22 1317 1

原创 爬虫1:urlopen

注意网页源码的编码格式!

2024-09-06 17:20:11 894

原创 AutoGen学习

三个原因:首先,因为聊天优化的LLMs(例如,GPT-4)展示了整合反馈的能力,LLM代理可以通过彼此或人类之间的对话进行合作,例如,代理提供和寻求推理、观察、批评和验证的对话。因为单个LLM可以展示广泛的技能(特别是在配置了正确的提示和推理设置时),不同配置的代理之间的对话可以帮助以模块化和互补的方式结合这些广泛的LLM能力。前面的对话模式(双代理聊天、顺序聊天和群聊)对于构建复杂的工作流程非常有用,但它们没有暴露一个单一的对话接口,这在问答机器人和个人助手等场景中通常是需要的。

2024-07-25 10:56:49 1708

原创 大模型笔记

# 大模型软工应用## prompt工程Prompt 工程,也称为 In-Context Prompt,是指在不更新模型权重的情况下如何与大语言模型(Large Language Models, LLM) 交流以引导其行为来获得所需结果的方法。这是一门经验科学,Prompt 工程方法的效果在模型之间可能会有很大差异,因此需要大量的实验和启发式方法。## 核采样核采样技术(Nucleus Sampling),也称为Top-p Sampling,是一种在自然语言生成任务中用于控制文本多样性和

2024-07-23 18:05:17 407

原创 目标追踪概述

目标追踪一些玩意

2023-06-11 13:32:21 1638 1

原创 py小工具(转换颜色空间,画图查看轨迹长度与面积)

【代码】py小工具(转换颜色空间,画图查看轨迹长度与面积)

2023-06-05 21:37:09 128 1

原创 小白的opencv学习笔记v2.0

OpenCV是计算机视觉中经典的专用库,其支持多语言、跨平台,功能强大。OpenCV-Python为OpenCV提供了Python接口,使得使用者在Python中能够调用C/C++,在保证易读性和运行效率的前提下,实现所需的功能。OpenCV-Python Tutorials是官方提供的文档,其内容全面、简单易懂,使得初学者能够快速上手使用。OpenCV-Python是旨在解决计算机视觉问题的Python专用库。与C/C++之类的语言相比,Python速度较慢。

2023-06-04 22:58:25 1377 1

原创 小白的opencv学习笔记

OpenCV是计算机视觉中经典的专用库,其支持多语言、跨平台,功能强大。OpenCV-Python为OpenCV提供了Python接口,使得使用者在Python中能够调用C/C++,在保证易读性和运行效率的前提下,实现所需的功能。OpenCV-Python Tutorials是官方提供的文档,其内容全面、简单易懂,使得初学者能够快速上手使用。OpenCV-Python是旨在解决计算机视觉问题的Python专用库。与C/C++之类的语言相比,Python速度较慢。

2023-05-27 16:24:50 284 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除