自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sherwinzhang的博客

遨游AI海洋

  • 博客(56)
  • 问答 (3)
  • 收藏
  • 关注

原创 什么是Scaling Law,谈谈你对它的理解

在训练之前了解模型的能力,以改善关于大模型的对齐、安全和部署的决定。图来自OpenAI gpt4 技术报告 https://cdn.openai.com/papers/gpt-4.pdf图 1. GPT-4 和较小模型的性能表现。(在训练之前,就大致预测出了GPT-4的性能边界)衡量标准是openAI的内部代码库衍生的数据集上的最终损失。这个数据集包含了大量代码标记,并未包含在训练集中。我们选择观察损失,因为在不同训练计算量的情况下,损失通常比其他指标更稳定。

2024-11-05 21:41:58 2085

原创 LLM-大模型相关无私整理

大模型相关资料整理,希望可以帮到各位

2024-10-26 10:08:19 782

原创 Github关于LLM热门项目(10k+)

Github关于LLM的热门项目

2024-10-26 10:03:26 480

原创 LLM基础常见面试题

不同尺寸大模型在中文的能力评测:目前已囊括115个大模型,覆盖chatgpt、gpt4o、百度文心一言、阿里通义千问、讯飞星火、商汤senseChat、minimax等商用模型, 以及百川、qwen2、glm4、yi、书生internLM2、llama3等开源大模型,多维度能力评测。175B、60B、540B等:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。

2024-10-11 21:03:29 553

原创 LLM-RAG相关常见面试题

LangChain为大型语言模型提供了一种全新的搭建和集成方式,通过这个强大的框架,我们可以将复杂的技术任务简化,让创意和创新更加易于实现。有点类似于神经网络开发与tensorflow/pytorch之间的关系。

2024-10-10 21:37:41 1021

原创 LLM-RAG相关常见面试题

针对前者可能是训练数据和源数据不一致、数据没对齐或者编码器理解能力的缺陷和解码器策略错误可能导致幻觉。后者则是用户的问题不在语言模型认知范围内。幻觉问题主要分为两大类,一类是生成结果与数据源不一致,自相矛盾。另一类是用户问题超出了大模型的认知。参考:https://aibook.ren/archives/what-is-rag。幻觉问题:即生成的内容是无意义的或不忠实于提供的源内容。丰富数据集的多样性,预处理时尽量过滤重复无意义的文本。复读机问题:重复生成某些话。同义词替换等做数据增强。

2024-10-10 17:25:19 244

原创 【已解决】Python读取sql数据,报错:Not an executable object,解决方案

通过Python连接sql,读取sql中数据,报错:Not an executable object。解决方案

2023-10-08 11:26:03 1875

原创 Flask中 jsonify有什么作用?如何使用?

`jsonify`是Flask框架提供的一个函数,用于将Python对象转换为JSON格式的响应。它将Python对象转换为JSON格式的字符串,并将其作为HTTP响应的主体返回给客户端,同时设置正确的Content-Type响应头,表明响应主体是JSON格式的数据。

2023-03-30 20:25:37 5695

原创 Python中continue和break的区别

Python中continue和break的区别

2023-03-30 20:23:25 250

原创 常见的编码方式以及字节等的概念

常见的一些字符编码方式以及字节、字符概念介绍

2023-03-16 19:35:34 766

原创 什么是L1和L2正则化,以及它们有什么区别

在防止过拟合的方法中有L1正则化和L2正则化,L1和L2是正则化项,又叫做惩罚项,是为了限制模型的参数,防止模型过拟合而加在损失函数后面的一项。

2023-03-07 19:40:32 1226

原创 运行openai遇到:module ‘openai‘ has no attribute ‘ChatCompletion‘ 解决方案

module 'openai' has no attribute 'ChatCompletion'解决方法

2023-03-06 11:50:20 16009 4

原创 如何监测部署服务是否正常运行,同时挂掉后自动重启

在服务器中启动服务,偶尔服务会挂断。通过Python实现脚本进行端口监测,失败后自动重启,同时发送信息到终端接收。

2023-02-20 19:03:02 717

原创 最基础的协同过滤介绍

本文主要介绍了协同过滤基本内容,协同过滤,即利用集体智慧,借鉴相关人群的观点进行推荐。其后又介绍了基于用户、项目的协同过滤。

2022-11-28 18:11:39 913

原创 推荐系统常见算法分类

推荐算法基本分类

2022-11-25 22:19:59 872

原创 《深度学习进阶 自然语言处理》第八章:Attention介绍

本章我们将介绍进一步强化seq2seq的注意力机制(Afttention mechanism,简称Attention )。基于Attention 机制, seq2seq可以像我们人类一样,将“注意力”集中在必要的信息上。

2022-11-22 20:45:23 752 1

原创 《深度学习进阶 自然语言处理》第七章:seq2seq介绍

seq2seq 是 "(from) sequence to sequence"(从时序到时序)的意思,即将一个时序数据转换为另一个时序数据。本章我们将看到,通过组合两个 RNN,可以轻松实现 seq2seq。seq2seq 可以应用于多个方向,比如机器翻译、聊天机器人和邮件自动回复等。

2022-11-21 20:09:33 2165 1

原创 推荐系统最通俗介绍

本文主要对推荐系统做了基本介绍,从推荐系统为什么会出现,然后讲解了推荐系统基本概念,以及推荐和搜索的区别;梳理了推荐系统的发展历史,推荐系统主要架构,部分推荐系统案例;最后自己设计了一个视频推荐系统整体流程。

2022-11-18 22:01:57 2167 2

原创 《深度学习进阶 自然语言处理》第六章:LSTM介绍

本章的主题是Gated RNN,我们先指出上一章的简单RNN中存在的梯度消失/爆炸问题,说明了作为替代层的Grated RNN(LSTM、GRU等)的有效性。介绍了使用LSTM层创建的语言模型,以及模型的优化。

2022-11-18 17:46:49 2032

原创 《深度学习进阶 自然语言处理》第五章:RNN通俗介绍

RNN通俗的介绍

2022-11-17 23:30:14 1183

原创 《深度学习进阶 自然语言处理》第四章:Embedding层和负采样介绍

本文重点讲述如何加速word2vec的计算。主要有两点改进方式:引入Embedding层,以及引入Negative Sampling(负采样)的损失函数。

2022-11-16 20:49:08 1028

原创 《深度学习进阶 自然语言处理》第三章:word2vec

本章我们详细解释了 word2vec 的 CBOW 模型,(具体实现可以参考书中代码)。CBOW模型基本上是一个2层的神经网络,结构非常简单。

2022-11-09 19:23:00 1856 3

转载 《深度学习进阶 自然语言处理》第二章:自然语言和单词的分布式表示

本章开始介绍自然语言处理相关的知识。自然语言处理的根本任务是让计算机理解我们的语言,我们在此先介绍深度学习出现之前的古典方法,是如何实现自然语言处理的。

2022-11-08 18:46:53 658

原创 《深度学习进阶 自然语言处理》第一章:神经网络的复习

关于本书第一章内容,主要是对《深度学习入门:基于Python的理论与实现》一书的精炼性概括。如果你已经在AI领域入门,并且有一定的理论基础,那么也可以通过这一章节快速对一些基础知识进行复习,方便后面更加高效的学习。

2022-11-07 19:51:15 1608

转载 《深度学习进阶 自然语言处理》书籍介绍

前面几篇文章介绍了图灵《深度学习入门》一书,接下来将继续带读作者的另一书籍:《深度学习进阶 自然语言处理》。

2022-11-07 19:43:14 656

原创 RoBERTa:一种稳健优化BERT的预训练方法

语言模型的预训练带来了显著的性能提高,但比较不同的方法具有一定的挑战性。因为其训练的计算成本很高,同时不同的模型通常又是在不同规模的私有数据集上进行的,而且超参数选择也会对最终结果有重大影响。我们提出了BERT预训练的研究(Devlin等人,2019年),测量了许多关键超参数和训练数据大小的影响。在实验中,发现了BERT模型的一些问题,同时提出一种新的模型,这种模型可以匹配或超过BERT后发布的每一个模型的性能,即roberta。

2022-11-03 22:38:55 1954

原创 NLP比赛利器:DeBERTa系列模型介绍

DeBERTa(Decoding-enhanced BERT with disentangled attention)模型是微软在2021年提出的,到现在其实已经迭代了三个版本,第一版发布的时候在SuperGLUE[1]DeBERTa(Decoding-enhanced BERT with disentangled attention)模型是微软在2021年提出的,到现在其实已经迭代了三个版本,第一版发布的时候在SuperGLUE[1]排行榜上就已经获得了超越人类的水平。目前,一些比较有挑战的NLP任务,甚

2022-10-23 23:49:05 15254 2

原创 带你走进 ERNIE

ERNIE基本介绍

2022-10-20 22:12:35 2374

原创 BERT之后,NLP主要预训练模型演变梳理

本文旨在梳理基于BERT模型优化后部分预训练模型,以便读者能够更快掌握BERT相关内容,为后期工作中使用BERT相关模型提供便捷性。

2022-10-19 00:00:55 1998

原创 《人世间》小说已阅

人世间,读后杂谈。

2022-10-17 22:59:46 285

转载 《深度学习入门-基于Python的理论与实现》第八章带读 -- 深度学习的高速化

《深度学习入门-基于Python的理论与实现》第八章带读 – 深度学习的高速化文章目录《深度学习入门-基于Python的理论与实现》第八章带读 -- 深度学习的高速化@[toc]8.1 深度学习的高速化a. 需要解决的问题b. 基于GPU的高速化c. 分布式学习d. 运算精度的位数缩减8.2 总结开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于Python的理论与实现》第一章带读第二章:《深度学习入门-基于Python的理论与实现》第二章带读 – 感知

2022-05-05 19:01:05 257

原创 《深度学习入门-基于Python的理论与实现》第七章带读 -- CNN介绍

《深度学习入门-基于Python的理论与实现》第七章带读 – CNN介绍文章目录《深度学习入门-基于Python的理论与实现》第七章带读 -- CNN介绍@[toc]7.1 整体结构7.2 卷积层a.全连接层存在的问题b.卷积运算c.填充d.步幅e.三维数组的卷积运算7.3 池化层a.池化层的介绍b.池化层的特征7.4 具有代表性的CNN网络a.LeNetb.AlexNet7.5 小结开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于Python的理论与实

2022-05-05 18:57:23 2047

原创 执行curl安装命令时候提示:https not supported or disabled in libcurl

curl:https not supported or disabled in libcurl解决方案:执行curl命令安装https内容时候,报错如上内容。原因:说明curl版本不支持https或者是https证书有问题。解决方案:1)用yum install curl 重新安装一下.2)在~/.bashrc文件末尾添加export PATH=~/.jumbo/bin:$PATH,执行source ~/.bashrc 再重新执行下安装命令。...

2022-04-29 10:34:55 1458

原创 《深度学习入门-基于Python的理论与实现》第六章带读 -- 训练方法介绍

文章目录6.1 权重参数的更新a. SGDb. Momentumc. AdaGradd. Adam6.2 权重参数的初始值a. 为什么要初始化权重b. 初始值可以设为0吗c. 隐藏层的激活值分布d. ReLU的权重初始值6.3 Batch Normalizationa. 优点b. 算法6.4 正则化a. 过拟合b. 权值衰减c. Dropout6.5 超参数的验证a. 验证数据b. 超参数的最优化6.6 总结开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于.

2022-04-26 21:06:29 2460

原创 《深度学习入门-基于Python的理论与实现》第五章带读 -- 误差反向传播

文章目录@[toc]5.1 计算图介绍5.2 链式法则5.3 反向传播a. 加法节点的反向传播b. 乘法节点的反向传播5.4 不同层中误差反向传播介绍a. 激活函数-ReLU层b. 激活函数-Sigmoid层c. Affine层d. Softmax-with-Loss层5.5 神经网络学习全貌图(包含反向传播版)开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于Python的理论与实现》第一章带读第二章:《深度学习入门-基于Python的理论与实现》第二章.

2022-04-26 07:30:00 503

原创 《深度学习入门-基于Python的理论与实现》第四章带读 – 神经网络的学习

文章目录4.1 从数据中学习4.2 损失函数a.均方误差b.交叉熵误差c.mini-batch学习d.为何要设定损失函数4.3 梯度梯度法4.4 神经网络的学习步骤开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于Python的理论与实现》第一章带读第二章:《深度学习入门-基于Python的理论与实现》第二章带读 – 感知机第三章:深度学习入门-基于Python的理论与实现》第三章带读 – 神经网络上一章我们介绍了什么是神经网络,本章我们接着介绍.

2022-04-25 19:37:18 3159 3

原创 《深度学习入门-基于Python的理论与实现》第三章带读 -- 神经网络

文章目录3.1 从感知机到神经网络3.2 激活函数a.阶跃函数b.sigmoid函数c.ReLU函数3.3 多维数组运算3.4 三层神经网络实现3.5 输出层的设计softmax函数3.6 小结开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于Python的理论与实现》第一章带读第二章:《深度学习入门-基于Python的理论与实现》第二章带读 – 感知机本章介绍的神经网络和前面章节所讲的感知机有很多共同点,关于神经网络可以对比感知机进行学习。3..

2022-04-25 08:00:00 451

原创 《深度学习入门-基于Python的理论与实现》第二章带读 -- 感知机

开篇介绍:《深度学习入门-基于Python的理论与实现》书籍介绍第一章:《深度学习入门-基于Python的理论与实现》第一章带读文章构成:感知机是什么感知机构建逻辑电路感知机的局限性多层感知机1.感知机是什么感知机(perceptron)是由美国学者Frank Rosenblatt在1957年提出。市面上的深度学习相关书籍常把感知机的学习放在最开始章节,是因为感知机是神经网络的起源算法。感知机接收多个输入信号(x1、x2 …),输出一个信号(只有1/0两种取值)。不同的输入信号..

2022-04-24 20:04:03 1939

原创 《深度学习入门 基于Python的理论与实现》第一章带读

上一篇文章地址:《深度学习入门-基于Python的理论与实现》书籍介绍该章节主要介绍了Python基础内容,从Python的安装到Python基础的语法介绍,再到机器学习、深度学习中常用库:Numpy、Matplotlib的介绍。如果你之前已经对Python熟悉,本章可以选读,如果之前完全没有接触过Python,建议在该章节学习的同时再找其他Python入门资料学习,可参考文章末尾【拓展学习链接】。在学习之前,首先了解一下到底什么是Python,其是一种简单、开源的编程语言,在机器学习、数据科学领域.

2022-04-16 16:35:47 1586

原创 《深度学习入门-基于Python的理论与实现》书籍介绍

《深度学习入门 基于Python的理论实现》系列专题旨在帮助意向学习AI的同学降低入门门槛,同时也可以让目前处于AI行业的小伙伴对基础知识做一个回顾、梳理。

2022-04-16 16:26:24 1809

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除