- 博客(110)
- 收藏
- 关注

原创 《PySpark大数据分析实战》图书上线啦
Apache Spark是一个分布式处理引擎,用于在大规模数据集上执行数据工程、数据科学和机器学习任务。作为数据科学爱好者,您可能熟悉在本地机器上存储文件并使用Python对其进行处理,但是,本地机器有其局限性,无法处理大规模的数据集。要处理PB级的大规模数据集,仅了解Python框架是不够的。分布式处理是一种使用多台计算机来运行应用程序的方式,无需尝试在单台计算机上处理大型数据集,而是可以在相互通信的多台计算机之间分配任务。借助Spark,您可以实现单台计算机上不可能做到的事情,实现对PB级数据进行处理。
2023-12-09 17:51:25
1185
4
原创 第四期书生大模型实战营 第10关 InternVL 多模态模型部署微调实践
我们主要通过## 1.导入相关依赖包## 2.使用你的模型初始化推理管线## 3.读取图片(此处使用PIL读取也行)## 4.配置推理参数## 5.利用 pipeline.chat 接口 进行对话,需传入生成参数## 6.之后的对话轮次需要传入之前的session,以告知模型历史上下文。
2024-12-30 18:56:55
672
原创 书生·浦语大模型全链路开源体系-第9关 LMDeploy 量化部署进阶实践
准确说,模型量化是一种优化技术,旨在减少机器学习模型的大小并提高其推理速度。为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。此时代表我们成功地使用本地API与大模型进行了一次对话,如果切回第一个终端窗口,会看到如下信息,这代表其成功的完成了一次用户问题GET与输出POST。在最新的版本中,LMDeploy使用的是AWQ算法,能够实现模型的4bit权重量化。在新建终端中输入如下指令,新建。
2024-12-30 18:54:43
892
原创 书生·浦语大模型全链路开源体系-第6关 OpenCompass 评测
如果想要评测通过 API 访问的大语言模型,整个过程其实很简单。以 OpenAI 的 GPT 模型为例,只需要在 OpenAI 官网申请一个 API Key,然后在评测配置文件中设置好这个密钥和相应的模型参数就可以开始评测了。为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。其中 API 模式评测针对那些以 API 服务形式部署的模型,而本地直接评测则面向那些可以获取到模型权重文件的情况。
2024-12-21 18:19:28
883
原创 书生·浦语大模型全链路开源体系-第5关
对于 LoRA 或者 QLoRA 微调出来的模型其实并不是一个完整的模型,而是一个额外的层(Adapter),训练完的这个层最终还是要与原模型进行合并才能被正常的使用。对于全量微调的模型(full)其实是不需要进行整合这一步的,因为全量微调修改的是原模型的权重而非微调一个新的 Adapter ,因此是不需要进行模型整合的。,在使用前我们需要准备好三个路径,包括原模型的路径、训练好的 Adapter 层的(模型格式转换后的)路径以及最终保存的路径。
2024-12-20 18:53:40
549
原创 书生·浦语大模型全链路开源体系-第4关
RAG 正是这种方式。第二种方式,并不改变模型的权重,只是给模型引入格外的信息。为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。给模型注入新知识的方式,可以简单分为两种方式,一种是内部的,即更新模型的权重,另一个就是外部的方式,给模型注入格外的上下文或者说外部信息,不改变它的的权重。第一种方式,改变了模型的权重即进行模型训练,这是一件代价比较大的事情,大语言模型具体的训练过程,可以参考。
2024-12-17 09:00:54
1032
原创 书生·浦语大模型全链路开源体系-第3关 提示词工程
Prompt是一种用于指导以大语言模型为代表的生成式人工智能生成内容(文本、图像、视频等)的输入方式。它通常是一个简短的文本或问题,用于描述任务和要求。Prompt可以包含一些特定的关键词或短语,用于引导模型生成符合特定主题或风格的内容。例如,如果我们要生成一篇关于“人工智能”的文章,我们可以使用“人工智能”作为Prompt,让模型生成一篇关于人工智能的介绍、应用、发展等方面的文章。Prompt还可以包含一些特定的指令或要求,用于控制生成文本的语气、风格、长度等方面。
2024-12-15 00:35:45
611
原创 开发OPEA微服务
我们注册完微服务后,接下来就是需要实现微服务的具体处理逻辑了。根据 OPEA 的规范,我们需要使用来声明微服务的处理逻辑方法,并在方法中实现具体的逻辑。# 请求底层基础功能进行语音识别处理# 返回响应结果在上述案例中,我们使用声明了方法是微服务的具体实现方法。该方法的输入参数数据类型即是我们注册微服务时指定的数据类型,方法的返回值数据类型是注册微服务时指定的返回数据类型TextDoc。通过输入参数audio我们可以取到byte_str变量,这个就是用户提供的请求数据的语音数据。
2024-12-13 19:17:22
762
原创 OPEA 介绍
OPEA(Open Platform for Enterprise AI)是Linux基金会数据和AI框架内的生态系统全计划,是一个开放的生成式AI(GenAI,GAI)系统构建平台,旨在加速企业采用 GenAI 实现端到端解决方案并实现业务价值。平台提供了模块化的生成式AI组件,如LLM、数据存储、提示引擎等。它利用整个生态系统中的最佳创新,同时将企业级需求放在首位和中心。OPEA 简化了企业级复合 GenAI 系统实施的解决方案,首先关注检索增强生成式AI(RAG)。
2024-12-13 19:12:57
1130
原创 书生·浦语大模型全链路开源体系-第2关
一般情况下主节点会根据子节点得出的结论,总结形成最终回复部分情况下,主节点会根据子节点得到的结论进一步拆解子问题回到步骤 (1) 直到得到最终结论。
2024-11-20 10:36:14
840
原创 书生·浦语大模型全链路开源体系-第1关
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。本文是书生·浦语大模型全链路开源体系-开源开放体系课程的笔记。
2024-11-20 09:36:10
683
原创 第三期书生大模型实战营 第2关 Python 基础知识
Hello大家好,这里是第三期书生大模型实战营,闯关地图入门岛的第2关 Python 基础知识。我们将学会简单使用Python进行词频统计,并实现VSCode代码调试等。让我们开始吧~
2024-07-11 07:40:04
822
1
原创 第三期书生大模型实战营 第1关 Linux 基础知识
Hello大家好,这里是第三期书生大模型实战营,闯关地图入门岛的第1关 Linux 基础知识。我们将学会InternStudio开发机创建、配置远程连接、使用本地VSCode连接到开发机、创建脚本、创建虚拟环境、运行脚本等。让我们开始吧~
2024-07-10 06:40:51
1460
原创 书生·浦语大模型全链路开源体系-第7课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。 本文是书生·浦语大模型全链路开源体系-第7课的课程实战。
2024-04-21 23:44:13
737
原创 书生·浦语大模型全链路开源体系-第6课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。 本文是书生·浦语大模型全链路开源体系-第6课的课程实战。
2024-04-19 12:14:47
1150
原创 书生·浦语大模型全链路开源体系-第4课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。 本文是书生·浦语大模型全链路开源体系-第4课的课程实战。
2024-04-17 18:26:49
1282
原创 书生·浦语大模型全链路开源体系-第5课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。 本文是书生·浦语大模型全链路开源体系-第5课的课程实战。
2024-04-15 18:20:26
1474
原创 书生·浦语大模型全链路开源体系-第3课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。 本文是书生·浦语大模型全链路开源体系-第3课的课程实战。
2024-04-12 18:13:45
1155
原创 书生·浦语大模型全链路开源体系-第2课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。 本文是书生·浦语大模型全链路开源体系-第2课的课程实战。
2024-04-01 18:32:03
1498
原创 书生·浦语大模型全链路开源体系-第1课
为了推动大模型在更多行业落地应用,让开发人员更高效地学习大模型的开发与应用,上海人工智能实验室重磅推出书生·浦语大模型实战营,为开发人员提供大模型学习和开发实践的平台。
2024-03-28 18:26:04
823
原创 《PySpark大数据分析实战》-27.数据可视化图表Pyecharts介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Pyecharts介绍。
2024-01-10 13:44:17
1299
1
原创 《PySpark大数据分析实战》-26.数据可视化图表Seaborn介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Seaborn介绍。
2024-01-09 13:40:59
1375
2
原创 《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第4节的内容:数据可视化图表Matplotlib介绍。
2024-01-05 13:36:20
1581
1
原创 《PySpark大数据分析实战》-24.数据可视化图表介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第3节的内容:数据可视化图表介绍。
2024-01-04 13:31:33
1231
原创 《PySpark大数据分析实战》-23.Pandas介绍DataFrame介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:Pandas介绍DataFrame介绍。
2024-01-03 13:44:19
898
原创 《PySpark大数据分析实战》-22.Pandas介绍Series介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:Pandas介绍Series介绍。
2024-01-02 13:44:07
896
原创 《PySpark大数据分析实战》-21.NumPy介绍数组的运算
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:NumPy介绍数组的运算。
2023-12-27 13:46:12
928
2
原创 《PySpark大数据分析实战》-20.NumPy介绍数组的生成
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:NumPy介绍数组的生成。
2023-12-26 13:16:47
861
2
原创 《PySpark大数据分析实战》-19.NumPy介绍ndarray介绍
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第2节的内容:NumPy介绍ndarray介绍。
2023-12-25 22:50:46
932
原创 《PySpark大数据分析实战》-18.什么是数据分析
大家好!今天为大家分享的是《PySpark大数据分析实战》第3章第1节的内容:什么是数据分析。
2023-12-23 16:25:52
1720
1
原创 《PySpark大数据分析实战》-17.云服务模式Databricks介绍运行作业
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行作业。
2023-12-21 12:42:18
1055
2
原创 《PySpark大数据分析实战》-16.云服务模式Databricks介绍运行案例
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍运行案例。
2023-12-20 23:03:07
1123
原创 《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍创建集群。
2023-12-19 22:45:21
1295
原创 《PySpark大数据分析实战》-14.云服务模式Databricks介绍基本概念
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第5节的内容:云服务模式Databricks介绍基本概念。
2023-12-18 23:02:58
1175
1
原创 《PySpark大数据分析实战》-13.Spark on YARN模式代码运行流程
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN模式代码运行流程。
2023-12-17 18:10:34
1001
原创 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN配置Spark运行在YARN上。
2023-12-16 17:35:14
1550
1
原创 《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容:Spark on YARN模式安装Hadoop。
2023-12-16 16:57:24
1521
原创 《PySpark大数据分析实战》-10.独立集群模式的代码运行
大家好!今天为大家分享的是《PySpark大数据分析实战》第2章第3节的内容:独立集群模式的代码运行。
2023-12-15 12:11:33
757
PicGo-Setup-2.3.1.exe
2023-01-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人