GPT名称含义

generative

Generative这个单词,揭示了Chat Gpt的本质就是一个词语接龙器。
比如,问:今天天气很糟。
GPT的工作是步骤是:
1)检查句子是不是完整。假如我问的是:“今年天气很”,那么GPT的回答很可能是:很抱
歉,您的信息不完整。
2)把“今天天气很糟”作为输入,从众多中文字里面选出一个频率最高的单词,这里是“很”;
3)然后把“今天天气很糟,很作为输入,得到今天天气很糟,很遗憾”;
4)重复2、3两步,直到碰到一个“END”结束。
GPT一定是一个字一个字崩出来的,我们在网页版的时候会看到答案输出是一个字一个字来
的。
GPT按照事前设置的模型,套出后文,而这个模型就是pre-trained出来的。

pre-trained

预训练又称为学习,有三种模式:无监督学习、监督学习、增强学习。
GPT起先是无监督学习,就是喂给机器各种文本,在1.0,喂的数据是1GB;到了2.0这个数
据是40GB;而到了GPT3,是570GB。
无监督学习的目的,就是根据“公式”算出下一个出现的词的概率,然后选择排名靠前的词。
既然公式,那就必然有参数,比如,f(x)=ax+b,这里的a和b就是参数。我们知道,语言是
一个很复杂的表达,根据前文要能算出后文,这个公式就会很复杂,牵涉到的参数会很多。
具体是:GPT1.0117M参数,到了2.0是1542M参数,而到了GPT3是175B的参数。理论上
讲,参数越多,输出的结果就越准确。
但是,仅仅是无监督学习是完全不够的。
比如:
如果问7+9=,机器很可能会输出(),因为,它接受的训练里面,大量的句子就是7+9=
()
很正确,但是这不是我们想要的答案。
这时候就需要引入“导师”,告诉它这个答案不对,应该回答16,这需要人工干预,纠正机器
的错误。
当然,这个所谓的“人工干预”,通常不是“人肉干预”,会有另外一段代码去干预,比如的计
算器。这个过程就是监督学习了。
对于有确定答案的问句,监督学习当然很好。但是有些问题是没有标准答案的,比如:
给我写首李白风格的诗。
这时候需要“增强学习”,增强学习告诉机器的不是正确答案,而是给机器点赞。

transformer

语言,其实就是一个文字序列。
所以,问答,就是从一个文字序列到另一个文字序列。人工智能里面有个大名鼎鼎的词:
Seq2Seq,说得就是这个算法。
两个句子体会下:
句子A:小马没能瞠过河流,因为它太累了;
句子B:小马没能蹚过河流,因为它太宽了;
显然,第一个句子中的它是小马,而第二个句子中的它是河流。
一个词的含义和它的前后文都有关系,为了处理这个东西,起先是用的RNN算法循环神经
网络(Recurrent Neural Network,.RNW)。各位大佬前赴后继,一通折腾,总算算法搞的
比较好了。
RNN是个没法并行计算的网络架构,前一个算完了才能算后一个,它唯一问题就是:这玩
意很难并行计算。不能并行计算就没多大价值,因为太慢了。
直到有一篇论文横空出世,论文题目也是相当霸道,《Attention Is All You Need)》。
绝对的超级大招,彻底解决了这个问题。这个模型就是Transformer.。Transformer中存在6
层的encode.与6层的decode,每一个decode都直接跟encode连接上,那么6个decode可以
直接并行计算,在decode层面速度就可以提升6倍。而GPU可以支持并行处理。
https://www.youtube.com/watch?v=zxQyTK8quyY

术语整理

  1. in-context learning 上下文学习
    在prompt里面写几个例子,模型就可以照着这些例子做生成,即在给定的上下文中使用新的输入来改善模型的输出。这种学习方式并不涉及到梯度更新或微调模型的参数,而是通过提供一些具有特定格式或结构的示例输入,使模型能够在生成输出时利用这些信息。例如,如果你在对话中包含一些英法翻译的例子,然后问模型一个新的翻译问题,模型可能会根据你提供的上下文示例生成正确的翻译
  2. few-shot learning 少样本学习
    用极少量的标注样本来训练机器学习模型的技术。在GPT-3的案例中,少样本学习的实现方式是向模型提供少量的输入输出对示例,这些示例作为对话的一部分,描述了模型应该执行的任务。然后模型会生成一个输出,该输出是对与示例类似的新输入的响应。例如,你可以给模型提供几个英法翻译的例子,然后给出一个新的英文单词让模型翻译,模型会尝试产生一个正确的翻译
  3. prompt engineering 提示工程
    提示工程是指设计和优化模型的输入提示以改善模型的输出。在大型语言模型中,如何提问或构造输入的方式可能对模型的输出有重大影响。因此,选择正确的提示对于获取有用的输出至关重要。例如,为了让GPT3生成一个诗歌,你可能需要提供一个详细的、引导性的提示,如“写一首关于春天的十四行诗,而不仅仅是“写诗
  4. prompt 提示词
    把prompt输入给大模型,大模型给出completion
  5. instruction tuning 指令微调
    用instruction 来fine-tune大模型
  6. code tuning 代码微调
    用代码来fine-tune大模型
  7. reinforcement learning with human feedback(RLHF) 基于人类反馈到强化学习
    让人给模型生成的结果打分,用人打的分来调整模型
  8. chain of thought 思维链
    在写prompt时,不仅给出结果,还要一步一步地写结果时怎么推出来的
  9. scaling laws 缩放法则
    模型的效果的线性增长要求模型的大小指数增长
  10. alignment 与人类对齐
    让机器生成符合人类期望的,符合人类价值观的句子
  11. emergent ability 突现能力
    小模型没有,只有模型达到一定规模才会出现的能力

GPT名称含义
https://chunfei-he.github.io/2024/06/25/GPT名称含义/
作者
Chunfei He
发布于
2024年6月25日
许可协议