AI入门 | 陈同学的桃花源

笔者在阅读全球掀起DeepSeek复现狂潮，一文汇总！ 的时候，对其中的众多概念表示无法理解。转念一想，不妨做一篇博客，收录核心的有关AI的词汇。

人工智能是让机器模拟人类智能行为的科学与技术。它涵盖多个领域，如机器学习、深度学习、自然语言处理（NLP）、计算机视觉等。

生成式AI是AI的一个分支，专注于生成新内容（如文本、图像、音频、视频）。它的核心是学习数据的分布，并从中生成类似的新数据。

例子：ChatGPT（生成文本）、DALL·E（生成图像）、Stable Diffusion（生成图像）。

它通过在大规模数据集上训练模型，使其学习通用的语言或视觉特征，然后再针对特定任务进行微调。

微调是在预训练模型的基础上，用特定任务的数据进一步训练模型，使其适应具体任务。

蒸馏是一种模型压缩技术，目的是将大型模型（教师模型）的知识转移到小型模型（学生模型）中，使小模型在保持高性能的同时减少计算资源需求。

是一种模型压缩技术，旨在通过移除神经网络中不重要的部分（如权重、神经元或层）来减少模型的大小和计算量，同时尽量保持模型的性能。剪枝可以帮助模型在资源受限的设备（如手机、嵌入式设备）上高效运行。

基于预训练基础，指在模型完成训练后，对其进行进一步优化或处理的过程。这些优化通常是为了提高模型的效率、性能或适应性，而不需要重新训练整个模型。后训练技术在现代深度学习中非常重要，尤其是在资源受限的场景中（如移动设备、嵌入式系统）。

一种深度学习模型架构，广泛应用于生成式AI（如 GPT、BERT）。它的核心是自注意力机制，可以捕捉长距离依赖关系。

用户输入的指令或问题，用于引导生成式AI生成特定内容。

生成式AI处理文本的基本单位，可以是单词、子词或字符。

衡量模型预测与真实值差异的函数，用于指导模型优化。

模型在训练数据上表现很好，但在新数据上表现差，通常是因为模型过于复杂或训练数据不足。

指在机器学习模型（尤其是深度学习模型）中可训练参数的个数

总之：参数数量类似于大脑中的神经元连接数。参数越多，模型“思考”能力越强，但也需要更多“能量”（计算资源）；参数越多，模型性能可能越好，但训练和推理成本也越高。因此，实际应用中需要在性能和效率之间找到平衡。

404
B = Billion（十亿参数）：表示模型的参数量级，直接影响计算复杂度和显存占用。

DeepSeek 1.5B：15亿参数（小型模型，适合轻量级任务）
DeepSeek 7B：70亿参数（主流规模，平衡性能与资源）
DeepSeek 70B：700亿参数（高性能需求场景）
DeepSeek 671B：6710亿参数（超大规模，对标PaLM/GPT-4）

是检索（Retrieval）、增强（Augmented）、生成（Generation）三个词的首字母组合。以DeepSeek为例，当你下达了“网络搜索”的命令，DS会去网络上检索有关信息（R），然后将答案整合（A），通过LLM生成（G）一段通顺的文本。