书库技术与未来大模型基础 完整版
书籍封面

大模型基础 完整版

作者 浙江大学LLMs研究团队
20.0 分钟

摘要

大语言模型基础

这份资料深入探讨了大语言模型(LLMs)的基础,从早期的n-grams模型到现代的Transformer架构,再到Prompt工程和模型编辑,覆盖了LLMs的多个重要方面。

  • 你能获得:了解LLMs的关键概念和技术,掌握Prompt工程,理解模型编辑,以及探索检索增强生成(RAG)等前沿技术。

核心内容:

1. 大语言模型(LLMs)的演进:

  • 总结:从n-grams、RNN到Transformer的演进,Transformer是目前LLMs的核心架构。
  • 详细解释:
    • n-grams模型:通过统计词序列出现的频率来预测下一个词,但无法处理长距离依赖关系。
    • RNN:通过循环神经网络处理序列数据,但存在梯度消失问题,难以处理长序列。
    • Transformer:基于自注意力机制,可以并行处理序列数据,更好地捕捉长距离依赖关系。

2. Transformer架构及其变体:

  • 总结:Transformer架构包括Encoder-only、Encoder-Decoder和Decoder-only三种类型,各有优缺点和适用场景。
  • 详细解释:
    • Encoder-only:如BERT,擅长自然语言理解(NLU)任务。
    • Encoder-Decoder:如T5,擅长序列到序列(Seq2Seq)任务。
    • Decoder-only:如GPT,擅长自然语言生成(NLG)任务。

3. Prompt工程:

  • 总结:Prompt工程是一种通过设计合适的Prompt来引导LLMs生成期望输出的技术。
  • 详细解释:
    • In-Context Learning(ICL):通过在Prompt中提供少量示例来指导LLMs。
    • Chain-of-Thought(CoT):通过引导LLMs逐步推理来提高生成质量。
    • Self-Consistency:通过生成多个答案并选择最一致的答案来提高准确性。

4. 参数高效微调(PEFT):

  • 总结:PEFT是一种在微调LLMs时只调整少量参数的技术,可以显著降低计算成本和存储需求。
  • 详细解释:
    • Additional Parameters Methods:如Adapter-tuning、Prompt-tuning和Prefix-tuning。
    • Parameter Selection Methods:如BitFit和Child-tuning。
    • Low-Rank Adaptation Methods:如LoRA。

5. 模型编辑:

  • 总结:模型编辑是一种修改LLMs中已存储知识的技术,可以修复错误或添加新知识。
  • 详细解释:
    • 知识缓存法:通过存储事实知识来修改LLMs。
    • 附加参数法:通过添加额外参数来修改LLMs。
    • 定位编辑法:通过定位和修改LLMs中的特定神经元来修改LLMs。

6. 检索增强生成(RAG):

  • 总结:RAG是一种结合检索和生成的技术,可以提高LLMs生成的事实性和相关性。
  • 详细解释:
    • 检索器:从知识库中检索相关文档。
    • 生成器:基于检索到的文档生成答案。
    • RAG可以缓解LLMs的幻觉问题,提高生成的事实性和相关性。

问答

Q: 什么是Transformer架构?

A: Transformer架构是一种基于自注意力机制的神经网络架构,可以并行处理序列数据,更好地捕捉长距离依赖关系。它包括Encoder-only、Encoder-Decoder和Decoder-only三种类型,各有优缺点和适用场景。

Q: 什么是Prompt工程?

A: Prompt工程是一种通过设计合适的Prompt来引导LLMs生成期望输出的技术。它包括In-Context Learning(ICL)、Chain-of-Thought(CoT)和Self-Consistency等技术。

Q: 什么是参数高效微调(PEFT)?

A: PEFT是一种在微调LLMs时只调整少量参数的技术,可以显著降低计算成本和存储需求。它包括Additional Parameters Methods、Parameter Selection Methods和Low-Rank Adaptation Methods等技术。

Q: 什么是检索增强生成(RAG)?

A: RAG是一种结合检索和生成的技术,可以提高LLMs生成的事实性和相关性。它通过检索器从知识库中检索相关文档,然后由生成器基于检索到的文档生成答案。

思维导图

目标读者

本书适合对大型语言模型技术感兴趣的读者,包括自然语言处理研究人员、工程师、学生以及关注人工智能技术发展的从业者。读者需要具备一定的机器学习和深度学习基础,才能更好地理解书中的内容。

作者背景

浙江大学LLMs研究团队专注于大型语言模型的基础研究与应用,致力于推动自然语言处理领域的发展。团队成员在机器学习、深度学习和自然语言处理等领域拥有深厚的学术背景和丰富的实践经验,积极参与开源项目,并与工业界保持紧密合作。

历史背景

本书创作于2023-2024年,正值大型语言模型技术蓬勃发展时期。随着Transformer架构的提出和Scaling Laws的发现,LLMs在自然语言处理领域取得了突破性进展。ChatGPT等模型的涌现标志着LLMs进入了突破期,本书旨在帮助读者理解LLMs的基础原理和最新进展,把握人工智能技术的发展趋势。

章节摘要

音频

Comming Soon...