Transformer背景介绍
Transformer指的是一种架构,未来的NLP(自然语言处理)
都可以使用此架构。Transformer由编码器、解码器(后面会介绍)等组成,他的输入是向量数组,输出是也是向量数组。
注意:Transformer架构的输出是把向量逐个输出的。
Transformer架构最初只用来做机器翻译,例如将英语翻译成德语。在翻译的过程中待翻译语句
作为输入,而翻译结果
作为输出。待翻译语句
中的每一个Token(词)
会被转化为向量作为输入,Transformer的输出向量最终被转化为翻译结果
的Token(词)
。由于Transformer逐一输出结果的特性,翻译结果
是一个Token(词)
一个Token(词)
逐渐输出的。
Transformer架构不仅仅只可以用与机器翻译,Transformer现在也用于GPT中,就是GPT的最后一个字母T所代表的含义。由于Transformer逐一输出结果的特性,GPT也是一个Token(词)
一个Token(词)
逐渐输出的。