一文彻底搞懂大模型实战

admigg

2024-11-15 00:30:29发布
关注私信

346 320 629

Text2SQL技术 ，即将 自然语言查询转换为结构化查询语言 （SQL）的技术，正在迅速成为数据库查询的一个关键工具。它使得 非技术用户 能够通过 自然语言 与 数据库 进行交互，极大地提高了数据库操作的便捷性和效率。

接下来分两部分：主流数据集、主流实战方法（SQLCoder + DB-GPT-Hub），一起来深入了解大模型实战：Text2SQL。

一、主流数据集

什么是Text2SQL数据集？ Text2SQL数据集是指一类 专门用于训练Text2SQL （文本到SQL）模型的数据集合。

Text2SQL数据集通常包含 大量的自然语言查询（如问题或指令）和对应的SQL查询语句 。这些对构成了模型学习的基础，使模型能够学会将自然语言查询转换为SQL查询。

Text2SQL数据集有哪些？ Spider、WikiSQL和CHASE等主流Text2SQL数据集提供 自然语言查询与SQL查询对应数据 ，训练和评估模型将自然语言转换为SQL查询的能力。

二、主流实战方法

基于大语言模型的Text2SQL主流实战方法是什么？ 主要包括两种： （1）基于Text2SQL模型结合业务进行微调；（2）基于开箱即用的Text2SQL Agent结合业务整合到应用

1、基于SQLCoder模型，结合业务进行微调

第一步：微调前准备（下载模型和数据集）

第二步：模型微调（收集业务数据、选择微调策略、训练模型、评估模型）

第三步：模型部署与推理

2、基于开箱即用的DB-GPT-Hub，结合业务整合到应用

DB-GPT是一个 开源的AI原生数据应用开发框架 (AI Native> 目的是构建大模型领域的基础设施，通过开发多模型管理(SMMF)、 效果优化、 RAG框架 以及优化、 Multi-Agents框架协作 AWEL(智能体工作流编排) 等多种技术能力，让围绕数据库构建大模型应用更简单，更方便。

DB-GPT-Hub 是一个利用LLMs实现 Text-to-SQL解析的实验项目 ，主要包含 数据集收集、数据预处理、模型选择与构建和微调权重 等步骤，通过这一系列的处理可以在提高Text-to-SQL能力的同时降低模型训练成本，让更多的开发者参与到Text-to-SQL的准确度提升工作当中，最终实现 基于数据库的自动问答能力 ，让用户可以 通过自然语言描述完成复杂数据库的查询操作 等工作。

目前 DB-GPT-Hub 已经基于多个大模型打通从数据处理、模型SFT训练、预测输出和评估的整个流程， 代码在项目中均可以直接复用 --开箱即用，架构师带你玩转AI

原文链接：

版权声明 1、本网站名称：朵贝贝家具网
2、本站永久网址：http://www.dbbjjxs.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#人工智能 #大模型 #日日新 #LaMDA #OpenAI #AI #4 #开源大模型 #SQL #Text2SQL #Copilot #悟道 #清言 #Sora #盘古 #混元 #Bard #紫东太初 #GPT #多模态 #ChatGPT #AIGC应用 #言犀 #孟子 #文心一言 #Agent #通义千问 #AIGC #云雀