序列模型,自注意力,transformer

https://www.youtube.com/playlist?list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI

从递归的关系开始

如何定义一个关系,将网络在特定时间步长的计算与来自先前时间步长的历史记忆联系起来?
我们简单地将网络所理解的计算和信息通过我们称之为递归关系的方式链接到其他副本。这意味着在特定时间的网络计算的某些方面被传递给稍后的时间步长。
这意味着网络的输出、预测和计算不仅是输入数据X 的函数,而且还有这个其他变量H。它捕获了状态的概念,捕获了网络计算和传递在时间上的记忆概念。

循环神经网络

为神经网络编码自然语言

独热编码->embedding

处理可变长度序列数据

https://mp.weixin.qq.com/s?__biz=MzIxODUzNTg2MA==&mid=2247484925&idx=1&sn=f2ff4e9bc8086e82db7f624195606b8b&chksm=97e84726a09fce30b8a09dcb14b4380895ce7248b80dd5e96407d90e3ca94d5fc37cc95e3ec6&scene=21#wechat_redirect


序列模型,自注意力,transformer
https://chunfei-he.github.io/2024/07/25/序列模型,自注意力,transformer/
作者
Chunfei He
发布于
2024年7月25日
许可协议