前言

笔者在阅读全球掀起DeepSeek复现狂潮,一文汇总! 的时候,对其中的众多概念表示无法理解。转念一想,不妨做一篇博客,收录核心的有关AI的词汇

人工智能(AI)

人工智能是让机器模拟人类智能行为的科学与技术。它涵盖多个领域,如机器学习、深度学习、自然语言处理(NLP)、计算机视觉等。

生成式AI

生成式AI是AI的一个分支,专注于生成新内容(如文本、图像、音频、视频)。它的核心是学习数据的分布,并从中生成类似的新数据。

例子:ChatGPT(生成文本)、DALL·E(生成图像)、Stable Diffusion(生成图像)。

预训练(Pre-training)

它通过在大规模数据集上训练模型,使其学习通用的语言或视觉特征,然后再针对特定任务进行微调。

微调(Fine-tuning)

微调是在预训练模型的基础上,用特定任务的数据进一步训练模型,使其适应具体任务。

蒸馏(Distillation)

蒸馏是一种模型压缩技术,目的是将大型模型(教师模型)的知识转移到小型模型(学生模型)中,使小模型在保持高性能的同时减少计算资源需求。

  • 过程:
  1. 训练一个大型、高性能的教师模型。
  2. 让教师模型生成“软标签”(概率分布),而不是硬标签(具体类别)。
  3. 训练学生模型模仿教师模型的输出。
  • 优点:小模型更轻量、更快,适合部署在手机、嵌入式设备等资源受限的场景。
  • 例子:DistilBERT 是 BERT 的蒸馏版本,参数更少但性能接近。

模型剪枝(Model Pruning)

是一种模型压缩技术,旨在通过移除神经网络中不重要的部分(如权重、神经元或层)来减少模型的大小和计算量,同时尽量保持模型的性能。剪枝可以帮助模型在资源受限的设备(如手机、嵌入式设备)上高效运行。

后训练

基于预训练基础,指在模型完成训练后,对其进行进一步优化或处理的过程。这些优化通常是为了提高模型的效率、性能或适应性,而不需要重新训练整个模型。后训练技术在现代深度学习中非常重要,尤其是在资源受限的场景中(如移动设备、嵌入式系统)。

Transformer

一种深度学习模型架构,广泛应用于生成式AI(如 GPT、BERT)。它的核心是自注意力机制,可以捕捉长距离依赖关系。

Prompt(提示词)

用户输入的指令或问题,用于引导生成式AI生成特定内容。

Token(词元)

生成式AI处理文本的基本单位,可以是单词、子词或字符。

损失函数(Loss Function)

衡量模型预测与真实值差异的函数,用于指导模型优化。

过拟合(Overfitting)

模型在训练数据上表现很好,但在新数据上表现差,通常是因为模型过于复杂或训练数据不足。

参数

指在机器学习模型(尤其是深度学习模型)中可训练参数的个数

  • 模型容量:参数越多,模型的表达能力越强,能够学习更复杂的模式和关系。
  • 计算资源:参数越多,模型需要的计算资源(如内存、算力)也越多。
  • 训练数据需求:参数越多的模型通常需要更多的训练数据,以避免过拟合。

总之:参数数量类似于大脑中的神经元连接数。参数越多,模型“思考”能力越强,但也需要更多“能量”(计算资源);参数越多,模型性能可能越好,但训练和推理成本也越高。因此,实际应用中需要在性能和效率之间找到平衡。

404
B = Billion(十亿参数):表示模型的参数量级,直接影响计算复杂度和显存占用。

DeepSeek 1.5B:15亿参数(小型模型,适合轻量级任务)
DeepSeek 7B:70亿参数(主流规模,平衡性能与资源)
DeepSeek 70B:700亿参数(高性能需求场景)
DeepSeek 671B:6710亿参数(超大规模,对标PaLM/GPT-4)

RAG(检索增强生成)

是检索(Retrieval)、增强(Augmented)、生成(Generation)三个词的首字母组合。以DeepSeek为例,当你下达了“网络搜索”的命令,DS会去网络上检索有关信息(R),然后将答案整合(A),通过LLM生成(G)一段通顺的文本。