Recommender Systems with Generative Retrieval

https://arxiv.org/pdf/2305.05065

现代推荐系统主要是通过在同一空间中构建查询emb和item的emb，然后通过大规模检索，在给定查询emb的情况下进行近似近邻搜索以选择最佳item。本文提出了一种新的生成检索方法Transformer Index for GEnerative Recommenders (TIGER) ，其中检索模型对目标item的标识符进行自回归解码。为此，作者构建了具有语义意义的码字（codeword）元组，作为每个item的语义ID。给定用户会话中item的语义ID，训练基于Transformer的seq-to-seq模型来预测用户将与之交互的下一个item的语义标识。
本文提出的TIGER主要分为两步：

以内容特征生成语义ID：将item内容特征编码为emb向量，并将emb量化为语义码字的元组。由此产生的码字元组被称为item的语义ID
在语义ID上训练通用的推荐系统：构建transformer模型在语义id上训练用于序列推荐的模型

1 语义ID的生成

假设每个item都有相关的内容特征，这些特征捕捉有用的语义信息（例如标题或描述或图像）。采用预训练的内容编码器来生成语义emb。然后对语义emb进行量化，以生成每个item的语义ID。

残差量化变分自动编码器（RQ-VAE）是一种多级向量量化器，在残差上进行量化来生成码字元组（语义ID）。通过更新量化码本和DNN编码器-解码器参数来联合训练自动编码器。为了防止RQ-VAE发生码本崩溃（大多数输入仅映射到少数码本向量），使用k均值聚类来初始化码本，将k-means算法应用于第一个训练批次（first training batch），并使用质心作为初始化。当然除了使用RQ-VAE，也可以使用其他的向量化方法，如LSH等。

2 通过语义ID进行生成式retrival

推荐系统的“容错概率”要高于搜索，所以生成式召回可能会带来增益。

#推荐 #LLM

Recommender Systems with Generative Retrieval

https://chunfei-he.github.io/2024/11/04/Recommender-Systems-with-Generative-Retrieval/

作者

Chunfei He

发布于

2024年11月4日

许可协议

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers 上一篇

倒排索引下一篇