GPT名称含义

generative

Generative这个单词，揭示了Chat Gpt的本质就是一个词语接龙器。
比如，问：今天天气很糟。
GPT的工作是步骤是：
1)检查句子是不是完整。假如我问的是：“今年天气很”，那么GPT的回答很可能是：很抱
歉，您的信息不完整。
2)把“今天天气很糟”作为输入，从众多中文字里面选出一个频率最高的单词，这里是“很”；
3)然后把“今天天气很糟，很作为输入，得到今天天气很糟，很遗憾”；
4)重复2、3两步，直到碰到一个“END”结束。
GPT一定是一个字一个字崩出来的，我们在网页版的时候会看到答案输出是一个字一个字来
的。
GPT按照事前设置的模型，套出后文，而这个模型就是pre-trained出来的。

pre-trained

预训练又称为学习，有三种模式：无监督学习、监督学习、增强学习。
GPT起先是无监督学习，就是喂给机器各种文本，在1.0，喂的数据是1GB;到了2.0这个数
据是40GB;而到了GPT3,是570GB。
无监督学习的目的，就是根据“公式”算出下一个出现的词的概率，然后选择排名靠前的词。
既然公式，那就必然有参数，比如，f(x)=ax+b,这里的a和b就是参数。我们知道，语言是
一个很复杂的表达，根据前文要能算出后文，这个公式就会很复杂，牵涉到的参数会很多。
具体是：GPT1.0117M参数，到了2.0是1542M参数，而到了GPT3是175B的参数。理论上
讲，参数越多，输出的结果就越准确。
但是，仅仅是无监督学习是完全不够的。
比如：
如果问7+9=，机器很可能会输出（)，因为，它接受的训练里面，大量的句子就是7+9=
()
很正确，但是这不是我们想要的答案。
这时候就需要引入“导师”，告诉它这个答案不对，应该回答16，这需要人工干预，纠正机器
的错误。
当然，这个所谓的“人工干预”，通常不是“人肉干预”，会有另外一段代码去干预，比如的计
算器。这个过程就是监督学习了。
对于有确定答案的问句，监督学习当然很好。但是有些问题是没有标准答案的，比如：
给我写首李白风格的诗。
这时候需要“增强学习”，增强学习告诉机器的不是正确答案，而是给机器点赞。

transformer

语言，其实就是一个文字序列。
所以，问答，就是从一个文字序列到另一个文字序列。人工智能里面有个大名鼎鼎的词：
Seq2Seq,说得就是这个算法。
两个句子体会下：
句子A:小马没能瞠过河流，因为它太累了；
句子B:小马没能蹚过河流，因为它太宽了；
显然，第一个句子中的它是小马，而第二个句子中的它是河流。
一个词的含义和它的前后文都有关系，为了处理这个东西，起先是用的RNN算法循环神经
网络(Recurrent Neural Network,.RNW)。各位大佬前赴后继，一通折腾，总算算法搞的
比较好了。
RNN是个没法并行计算的网络架构，前一个算完了才能算后一个，它唯一问题就是：这玩
意很难并行计算。不能并行计算就没多大价值，因为太慢了。
直到有一篇论文横空出世，论文题目也是相当霸道，《Attention Is All You Need)》。
绝对的超级大招，彻底解决了这个问题。这个模型就是Transformer.。Transformer中存在6
层的encode.与6层的decode,每一个decode都直接跟encode连接上，那么6个decode可以
直接并行计算，在decode层面速度就可以提升6倍。而GPU可以支持并行处理。
https://www.youtube.com/watch?v=zxQyTK8quyY

术语整理

in-context learning 上下文学习
在prompt里面写几个例子，模型就可以照着这些例子做生成，即在给定的上下文中使用新的输入来改善模型的输出。这种学习方式并不涉及到梯度更新或微调模型的参数，而是通过提供一些具有特定格式或结构的示例输入，使模型能够在生成输出时利用这些信息。例如，如果你在对话中包含一些英法翻译的例子，然后问模型一个新的翻译问题，模型可能会根据你提供的上下文示例生成正确的翻译
few-shot learning 少样本学习
用极少量的标注样本来训练机器学习模型的技术。在GPT-3的案例中，少样本学习的实现方式是向模型提供少量的输入输出对示例，这些示例作为对话的一部分，描述了模型应该执行的任务。然后模型会生成一个输出，该输出是对与示例类似的新输入的响应。例如，你可以给模型提供几个英法翻译的例子，然后给出一个新的英文单词让模型翻译，模型会尝试产生一个正确的翻译
prompt engineering 提示工程
提示工程是指设计和优化模型的输入提示以改善模型的输出。在大型语言模型中，如何提问或构造输入的方式可能对模型的输出有重大影响。因此，选择正确的提示对于获取有用的输出至关重要。例如，为了让GPT3生成一个诗歌，你可能需要提供一个详细的、引导性的提示，如“写一首关于春天的十四行诗，而不仅仅是“写诗
prompt 提示词
把prompt输入给大模型，大模型给出completion
instruction tuning 指令微调
用instruction 来fine-tune大模型
code tuning 代码微调
用代码来fine-tune大模型
reinforcement learning with human feedback(RLHF) 基于人类反馈到强化学习
让人给模型生成的结果打分，用人打的分来调整模型
chain of thought 思维链
在写prompt时，不仅给出结果，还要一步一步地写结果时怎么推出来的
scaling laws 缩放法则
模型的效果的线性增长要求模型的大小指数增长
alignment 与人类对齐
让机器生成符合人类期望的，符合人类价值观的句子
emergent ability 突现能力
小模型没有，只有模型达到一定规模才会出现的能力

#LLM

GPT名称含义

https://chunfei-he.github.io/2024/06/25/GPT名称含义/

作者

Chunfei He

发布于

2024年6月25日

许可协议

token介绍上一篇

embedding 下一篇