自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员成长软技能

程序员成长软技能

  • 博客(28)
  • 资源 (12)
  • 收藏
  • 关注

原创 mac电脑安装Zsh并启用

mac电脑安装Zsh并启用

2024-08-14 22:45:00 1043

原创 Miniconda的安装和使用

Miniconda和Anaconda都是Python环境管理工具,可以用于创建、管理和部署Python环境及其依赖的软件包。它们的主要区别在于其默认安装的软件包和所需空间的大小。Miniconda仅包括conda、Python及其所需的基本依赖库。因此,它的安装包大小较小,只有几十兆,相比于Anaconda更加灵活。用户可以根据自己的需要逐步安装所需的软件包,避免不必要的浪费。在需要安装新软件包时,可以使用conda install命令来安装所需的软件包。

2024-08-07 11:55:49 3269

原创 官网翻译:LangChain 0.1版本发布,功能介绍

LangChain 已经诞生一年多,它在成长为 LLM 应用的首选框架过程中,经历了诸多变化。就像我们一个月前预览的那样,我们近期对 LangChain 的包架构做了重大调整,目的是为了更好地组织这个项目,同时也加强了它的基础结构。具体来说,我们进行了两项重要的架构变革:一是分离出了 langchain-core 核心模块;二是将合作伙伴的包分为 langchain-community 社区版或独立的合作伙伴包。提醒一下,langchain-core 包含了主要的抽象概念、接口和核心功能。

2024-01-10 22:39:05 1418

原创 SQL、数据分析练习 数据集:Chinook 示例数据,支持MySQL、SQL Server、 Oracle等

Chinook是一个可用于SQL Server, Oracle, MySQL等的示例数据库。它可以通过运行单个SQL脚本来创建。Chinook数据库是Northwind数据库的替代方案,非常适合用于演示和测试针对单个和多个数据库服务器的ORM工具。MySQLSQL ServerSQL Server精简版SQLitePostgreSQL甲骨文DB2。

2024-01-10 07:23:13 1466

原创 翻译:Building Efficient RAG Systems: A Deep Dive into devv.ai

前者基本上都使用 OpenAI 的 embedding 模型,后者可选方案非常多,包括 Pinecone,国内团队的 Zilliz,开源的 Chroma,在关系型数据库上构建的 pgvector 等。于是这篇论文提出了 RAG 的方法,pre-train 的模型是能够理解新的知识的,那么我们直接把要让模型理解的新知识通过 prompt 的方式给它即可。不管是通用的 RAG,还是专有的 RAG,这是一个做得马马虎虎很容易的领域,但是要做到 90 分很难。一个主要的原因就是之前的基座模型能力不够。

2024-01-09 22:59:22 1000

原创 ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (三)

本研究探索了用于文本到SQL领域语义解析任务的各种提示设计方法。本文提出了一种利用示例的SQL语法结构来选择示例演示的方法,强调多样性和相似性作为采样目标。此外,本文发现大型语言模型(LLMs)从与数据库相关的知识增强中受益。未来的研究可以基于本文的发现来检验本文方法在其他领域的可转移性。通过持续改进LLMs在语义解析方面的能力,本文旨在为开发更准确、更稳健和更易理解的问答系统做出贡献。标签: 人工智能LLMNLP。

2024-01-09 22:52:00 581 2

原创 ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (二)

Codex在1到10-shot范围内提供结果,而ChatGPT因最大上下文长度限制仅提供1到5-shot的结果。在code-davinci-002和gpt-3.5-turbo模型上测试了不同示例选择策略的效果。使用Codex(基于GPT-3的变体)和ChatGPT (gpt-3.5-turbo)来评估不同ICL策略。Spider-Syn:使用同义词替换Spider问题中的模式相关词汇,评估系统的鲁棒性。Spider-Realistic:去除列名的明确提及,模拟更现实的文本-表格对齐设置。

2024-01-08 22:55:16 566

原创 ChatGPT 论文:Enhancing Few-shot Text-to-SQL Capabilities of Large Language Models (一)

上下文学习(ICL)已成为处理各种自然语言处理任务的一种新方法,它利用大型语言模型(LLM)根据上下文进行预测,并辅以一些示例或特定于任务的指令。在本文中,我们的目标是将这种方法扩展到利用结构化知识源的问答任务,并通过探索使用LLM的各种提示设计策略来改进文本到 SQL 系统。我们对不同的演示选择方法和最佳指令格式进行了系统研究,以提升LLM在文本到 SQL 任务中的表现。我们的方法涉及利用示例的 SQL 查询的语法结构来检索演示,并且我们证明在演示选择中追求多样性和相似性可以提高性能。

2024-01-08 22:49:10 1168

原创 ChatGPT论文:Evaluating the Text-to-SQL Capabilities of Large Language Models 评估大语言模型的文本到 SQL 的功能 (二)

我们对 Codex 语言模型的文本到 SQL 功能进行了实证评估。 我们发现,在没有任何微调的情况下,Codex 是 Spider 基准测试的强大基线; 我们还分析了 Codex 在此设置下的故障模式。 此外,我们在 GeoQuery 和 Scholar 基准测试中证明,提示中提供的少量域内示例使 Codex 的性能优于在此类少数示例上进行微调的最先进模型。

2024-01-07 22:42:02 1106 1

原创 ChatGPT论文:Evaluating the Text-to-SQL Capabilities of Large Language Models 评估大语言模型的文本到 SQL 的功能 (一)

我们对 Codex 语言模型的文本到 SQL 功能进行了实证评估。 我们发现,在没有任何微调的情况下,Codex 是 Spider 基准测试的强大基线; 我们还分析了 Codex 在此设置下的故障模式。 此外,我们在 GeoQuery 和 Scholar 基准测试中证明,提示中提供的少量域内示例使 Codex 的性能优于在此类少数示例上进行微调的最先进模型。

2024-01-07 22:41:03 684 1

原创 ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(二)

论文原文:Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT - A Text-to-SQL Parsing Comparison

2024-01-06 22:07:02 1812 1

原创 ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)

Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT - A Text-to-SQL Parsing Comparison ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我们感谢他们

2024-01-06 21:42:21 1339 1

原创 自然语言转SQL,一个微调ChatGPT3.5的实例(下)--模型微调及模型性能

因此,在使用Spider数据集时,我们将样本数量从7000个减少到5750个,并进行总共2个时期的微调。我们将微调模型的性能与未经微调的GPT3.5-Turbo和DIN-SQL + GPT-4(Spider的当前最先进方法)进行了基准测试,以获得零-shot性能。微调的G-3.5-Turbo的性能与之前的方法相比进的提示技术,包括少量提示、思维链提示和分解提示)保持一致,这是当前最先进的方法。如上所示,与DIN-SQL与GPT-4相比,微调的GPT-3.5-Turbo模型的成本。

2024-01-04 22:43:29 1874 1

原创 自然语言转SQL,一个微调ChatGPT3.5的实例(上)--训练数据准备

为此,我们采用了以下启发式方法:对于每个单独的NL <> SQL样本,我们除了正确的表之外,还随机选择了数据库中的其他表,直到达到4000个令牌的上下文窗口限制为止。然而,由于最先进的LLM尚未开放进行微调,因此最近在这一领域的研究集中在创建能够在不修改基础LLM的情况下实现复杂的自然语言到SQL(NL-to-SQL)场景的检索增强生成(RAG)算法。我们将使用耶鲁大学的。此外,对于任何实际的用例,如果有大量的表,则训练集中的样本还应该训练模型选择正确的表格用于SQL查询(即执行模式链接)。

2024-01-04 22:42:19 2085 1

原创 使用生成式AI查询大型BI表

我们尝试了多种不同的方法,使我们能够利用法学硕士探索全方位的 NLP 流程:代理、检索增强、微调等等。在这里,我们总结了我们的结果。在本节的最后,我们概述了所有方法及其性能。

2024-01-03 23:13:43 1605 2

原创 为什么自然语言转SQL(text to sql)在企业中较难落地

面临哪些挑战,以下是我们遇到的六种情况

2024-01-03 20:57:21 1362 2

原创 对比开源大语言模型的自然语言生成SQL能力

闭源模型(GPT 模型和 BARD)在 NL 到 SQL 方面的性能显着优于开源模型。 可以肯定的是,这是因为他们接受了更多的参数训练。与之前的模型相比,采用额外的监督微调步骤的模型表现出显着的性能改进。 例如,Alpaca-7B 模型比其前身 Llama-7B 改进了近 16%。 这强调了使用相同的底层架构进行微调以实现增强性能的潜力。与前辈相比,Mistral-7B 和 Llama2 等较新的开源模型表现出更优越的性能,并且正在缩小与闭源模型的差距。

2024-01-02 21:06:26 3198

原创 利用提示工程,提升LLM将自然语言转化为SQL的准确性

提示工程对于优LLM以将自然语言转换为准确的 SQL 查询至关重要。 我在spider数据集上使用 Claude 进行的基准测试结果表明,通过包含schema详细信息、清晰的说明和添加少量示例等技术获得了切实的改进。 此外,检索增强提示动态地选择理想的少样本示例以最大化相关性。 通过深思熟虑的提示设计,我们可以引导LLM更好地理解我们的自然语言意图,并为每个人释放 SQL 的力量。————————————————版权声明:本文为优快云博主「数大招疯」的原创文章,遵循CC 4.0 BY-SA版权协议,转

2024-01-02 20:51:25 1846

原创 Docker Desktop 界面功能介绍,添加国内镜像源

默认情况下,Docker Desktop会从Docker Hub下载镜像,但在国内由于网络的原因,下载速度可能较慢,配置国内镜像源可以提速镜像下载。

2023-09-20 23:12:47 26110 2

原创 Mac 安装brew 错误zsh: command not found: brew解决方法

根据提示输入Y及开机密码。

2023-09-19 22:47:33 2015 1

原创 个人电脑(windows、mac)安装Docker Desktop

在学习大数据、人工智能等技术时,常常需要安装相应软件来支持我们的学习和实践。然而,很多这样的软件更适合在 Linux 环境下进行部署和运行。通过在个人电脑安装Docker Desktop可以解决该类问题,在个人电脑上轻松地搭建软件环境,以支持我们的技术学习和实践。

2023-09-18 22:34:32 555

原创 kafka数据同步/镜像工具 kafka mirror maker

公司数据收集后会写入kafka集群,近期涉及到机房搬迁,在完成机房搬迁移前,两个机房都有业务需要某些topic的数据,两种处理方案:1是数据写入时候双写 2是老机房数据写入完成后再同步至新机房kafka集群,本文介绍kafka自带的集群镜像工具的使用。

2016-06-27 21:34:40 12743 1

原创 HBase 1.1.2 split 策略

背景:今天用ycsb做HBase的性能测试,region大小配置的是10G,单总是在10G前自动split,所以跟着日志查看代码,发现每次flush时候都会调用IncreasingToUpperBoundRegionSplitPolicy类中的shouldSplit方法,方法内容如下:

2015-11-01 23:17:43 2020

原创 HBase 1.1.2 Java 客户端 api(hbase 1.0 增删改查,建表、删表等)

HBase 1.0后版本,java api 较之前版本变化比较大,写一demo 供大家擦考

2015-09-28 20:26:08 9071

原创 HBase1.1.2编译

换了个东家,也就换了风格,版本挺激进…

2015-09-28 20:17:49 3783

原创 HBase0.96 升级步骤及源代码分析

测试的升级环境

2014-11-12 14:02:59 563

原创 hadoop(hadoop-2.2.0) 安装

1、下载安装包:http://mirror.esocc.com/apache/hbase/2、上传至服务器至/home/hadoop,并解压tar zxf hbase-0.96.2-hadoop2-bin.tar3、修改路径:mv hbase-0.96.2 hbase4、添加环境变量(修改/etc/profile文件)export HBASE_HOME=/home/hadoop

2014-09-05 20:09:58 507

原创 HBase(hbase-0.96.2) 安装

明天要讲HBase课程,由于以前使用的是0.92的版本

2014-07-27 12:18:15 853

Linux JDK8 tar包,解压即可用

官网下载太慢了,上传份留用:jdk-8u74-linux-x64.tar,直接解压即可。

2020-03-20

统计学基础(the elements of statistical learning)

the elements of statistical learning 第二版高清&第一版中文影印

2019-01-24

Hadoop构建数据仓库实践 基础篇

Hadoop构建数据仓库实践 基础篇

2019-01-06

中国式管理 曾仕强 kindle版

中国式管理 曾仕强 kindle版 中国式管理 曾仕强 kindle版 中国式管理 曾仕强 kindle版 中国式管理 曾仕强 kindle版

2019-01-06

图解Spark核心技术与案例实战,勉强称为入门书

图解Spark核心技术与案例实战,勉强称为入门书

2019-01-06

Druid实时大数据分析原理与实践-欧阳晨

Druid实时大数据分析原理与实践-欧阳晨

2018-03-25

learning spark

learning spark 全书,11章共274页,适合spark学习者、使用者作为入门、提升工具

2015-08-15

docker技术入门与实战(精简版,docker_practice)pdf

该pdf为docker技术入门与实战的精简版(同一作者),快速上手、学习

2015-04-08

java JUI 界面程序 计算器

java语言写的计算器,属于java JUI小程序,对java jui的学习很有帮助,简单易懂!

2011-12-24

android贪吃蛇游戏源码

android写的,完整的贪吃蛇游戏源代码,有关键的注释,对学习android很有帮助

2011-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除