InternLM Training - Lec1

InternLM Training - Lec1

Jan 7, 2024

第一节:书生·浦语大模型全链路开源体系

by 上海人工智能实验室 陈恺 课程网站

算力平台ID: 25940

大模型是发展通用人工智能的一个重要途径

2006年深度学习理论获得突破,一个专用模型解决一个特定问题,后逐渐发展为一个通用大模型应对多种任务、多种模态(语言、视觉等)

在此背景下,上海人工智能实验室推出书生·浦语大语言模型

从模型到应用

模型选型、续训/全参数微调/部分参数微调、构建智能体、模型评测、模型部署

若和环境交互,需要调用外部api或者与业务数据库交互,则要构建基于大模型的智能体agent,在业务场景中有更好表现

书生·浦语全链条开源开放体系

  • 数据

    • 书生·万卷,多模态(文本、图像-文本、视频)语料库 2TB

    • OpenDataLab开放数据平台,5400+数据集

  • 预训练 InternLM Train

    • 高可扩展:8卡到千卡

    • 性能优化:Hybrid Zero技术

    • 兼容主流:无缝接入HuggingFace技术生态

    • 开箱即用:修改配置即可训练不同规格的语言模型

  • 微调

    • 增量续训,让基座模型学习某垂类领域知识

    • 有监督微调,让模型学会理解和遵循各种指令,训练数据是高质量对话问答数据

      • 全量参数微调,部分参数微调(LoRA、QLoRA算法)

    • XTuner

      • 适配多种生态,自动优化加速

      • 适配多种硬件

        • NVIDIA消费级显卡 2080、3060-3090、4060-4090

        • NVIDIA数据中心 Tesla T4、V100、A10、A100、H100

      • 极致显存优化

        • 8GB显存上微调7B模型

  • 评测体系

    • 现有评测体系

    • OpenCompass

      • 学科、语言、知识、理解、推理、安全

      • 丰富的模型支持、分布式高效评测、便捷的数据集接口、敏捷的能力迭代

  • 部署

    • 大模型特点:内存开销巨大、动态shape(请求数、token不定)、模型结构相对简单(基于transformer,大部分decoder-only)

    • 带来的挑战:低存储设备上部署、推理时token生成速度与动态shape造成的推理间断、提升吞吐量与平均响应时间性能

    • 解决方案:模型并行、低比特量化、Attention优化、计算和访存优化、Continuous Batching

    • LMDeploy 提供大模型在GPU上部署的全流程解决方案

      • 模型轻量化(4bit权重量化、8bit k/v量化)、推理(基于turbomind、pytorch推理引擎)、服务(openai server、gradio、trition inference server)

  • 智能体

    • Lagent 智能体搭建框架

      • 支持不同类型 ReAct、ReWoo、AutoGPT 执行逻辑Pipeline

      • 支持GPT、InternLM、Hugging Face Transformers、Llama大语言模型

      • 支持不同工具:AI工具、能力拓展(搜索、代码解释器)、Rapid API

    • AgentLego 给大模型提供工具集合