GPT名称含义
generative
Generative这个单词,揭示了Chat Gpt的本质就是一个词语接龙器。
比如,问:今天天气很糟。
GPT的工作是步骤是:
1)检查句子是不是完整。假如我问的是:“今年天气很”,那么GPT的回答很可能是:很抱
歉,您的信息不完整。
2)把“今天天气很糟”作为输入,从众多中文字里面选出一个频率最高的单词,这里是“很”;
3)然后把“今天天气很糟,很作为输入,得到今天天气很糟,很遗憾”;
4)重复2、3两步,直到碰到一个“END”结束。
GPT一定是一个字一个字崩出来的,我们在网页版的时候会看到答案输出是一个字一个字来
的。
GPT按照事前设置的模型,套出后文,而这个模型就是pre-trained出来的。
pre-trained
预训练又称为学习,有三种模式:无监督学习、监督学习、增强学习。
GPT起先是无监督学习,就是喂给机器各种文本,在1.0,喂的数据是1GB;到了2.0这个数
据是40GB;而到了GPT3,是570GB。
无监督学习的目的,就是根据“公式”算出下一个出现的词的概率,然后选择排名靠前的词。
既然公式,那就必然有参数,比如,f(x)=ax+b,这里的a和b就是参数。我们知道,语言是
一个很复杂的表达,根据前文要能算出后文,这个公式就会很复杂,牵涉到的参数会很多。
具体是:GPT1.0117M参数,到了2.0是1542M参数,而到了GPT3是175B的参数。理论上
讲,参数越多,输出的结果就越准确。
但是,仅仅是无监督学习是完全不够的。
比如:
如果问7+9=,机器很可能会输出(),因为,它接受的训练里面,大量的句子就是7+9=
()
很正确,但是这不是我们想要的答案。
这时候就需要引入“导师”,告诉它这个答案不对,应该回答16,这需要人工干预,纠正机器
的错误。
当然,这个所谓的“人工干预”,通常不是“人肉干预”,会有另外一段代码去干预,比如的计
算器。这个过程就是监督学习了。
对于有确定答案的问句,监督学习当然很好。但是有些问题是没有标准答案的,比如:
给我写首李白风格的诗。
这时候需要“增强学习”,增强学习告诉机器的不是正确答案,而是给机器点赞。
transformer
语言,其实就是一个文字序列。
所以,问答,就是从一个文字序列到另一个文字序列。人工智能里面有个大名鼎鼎的词:
Seq2Seq,说得就是这个算法。
两个句子体会下:
句子A:小马没能瞠过河流,因为它太累了;
句子B:小马没能蹚过河流,因为它太宽了;
显然,第一个句子中的它是小马,而第二个句子中的它是河流。
一个词的含义和它的前后文都有关系,为了处理这个东西,起先是用的RNN算法循环神经
网络(Recurrent Neural Network,.RNW)。各位大佬前赴后继,一通折腾,总算算法搞的
比较好了。
RNN是个没法并行计算的网络架构,前一个算完了才能算后一个,它唯一问题就是:这玩
意很难并行计算。不能并行计算就没多大价值,因为太慢了。
直到有一篇论文横空出世,论文题目也是相当霸道,《Attention Is All You Need)》。
绝对的超级大招,彻底解决了这个问题。这个模型就是Transformer.。Transformer中存在6
层的encode.与6层的decode,每一个decode都直接跟encode连接上,那么6个decode可以
直接并行计算,在decode层面速度就可以提升6倍。而GPU可以支持并行处理。
https://www.youtube.com/watch?v=zxQyTK8quyY
术语整理
- in-context learning 上下文学习
在prompt里面写几个例子,模型就可以照着这些例子做生成,即在给定的上下文中使用新的输入来改善模型的输出。这种学习方式并不涉及到梯度更新或微调模型的参数,而是通过提供一些具有特定格式或结构的示例输入,使模型能够在生成输出时利用这些信息。例如,如果你在对话中包含一些英法翻译的例子,然后问模型一个新的翻译问题,模型可能会根据你提供的上下文示例生成正确的翻译 - few-shot learning 少样本学习
用极少量的标注样本来训练机器学习模型的技术。在GPT-3的案例中,少样本学习的实现方式是向模型提供少量的输入输出对示例,这些示例作为对话的一部分,描述了模型应该执行的任务。然后模型会生成一个输出,该输出是对与示例类似的新输入的响应。例如,你可以给模型提供几个英法翻译的例子,然后给出一个新的英文单词让模型翻译,模型会尝试产生一个正确的翻译 - prompt engineering 提示工程
提示工程是指设计和优化模型的输入提示以改善模型的输出。在大型语言模型中,如何提问或构造输入的方式可能对模型的输出有重大影响。因此,选择正确的提示对于获取有用的输出至关重要。例如,为了让GPT3生成一个诗歌,你可能需要提供一个详细的、引导性的提示,如“写一首关于春天的十四行诗,而不仅仅是“写诗 - prompt 提示词
把prompt输入给大模型,大模型给出completion - instruction tuning 指令微调
用instruction 来fine-tune大模型 - code tuning 代码微调
用代码来fine-tune大模型 - reinforcement learning with human feedback(RLHF) 基于人类反馈到强化学习
让人给模型生成的结果打分,用人打的分来调整模型 - chain of thought 思维链
在写prompt时,不仅给出结果,还要一步一步地写结果时怎么推出来的 - scaling laws 缩放法则
模型的效果的线性增长要求模型的大小指数增长 - alignment 与人类对齐
让机器生成符合人类期望的,符合人类价值观的句子 - emergent ability 突现能力
小模型没有,只有模型达到一定规模才会出现的能力