• 首页
  • 归档
  • 分类
  • 标签
  • 关于

OneRec: Unifying Retrieve and Rank with Generative Recommender and Preference Alignment

前言 过去十多年里,推荐系统大规模应用于短视频、电商、信息流等场景。主流方案几乎都是 **多阶段级联 (cascaded)**: 召回(Recall):从海量库 (~10¹⁰ 级别) 中快速筛出候选。 粗排(Pre-ranking):进一步缩小范围。 精排(Ranking):用复杂模型精细打分。 这种架构的优点是 效率高,能在超大规模库里低延迟返回结果。但也存在一些 固有问题: 计算碎片化
2025-08-12

GPTQ:从量化谈起

模型量化是一种压缩网络参数的方式,它将神经网络的参数(weight)、特征图(activation)等原本用浮点表示的量值换用定点(整型)表示,在计算过程中,再将定点数据反量化回浮点数据,得到结果。模型量化实现建立在深度网络对噪声具有一定的容忍性上,模型量化相当于对深度网络增加了一定的噪声(量化误差),如果量化位数合适,模型量化基本不会造成较大的精度损失。量化模型实现加速,不仅仅由于整形运算比浮点
2025-06-03
#LLM

HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling

LLM 应用到推荐有三个问题需要评估: LLM预训练权重的真正价值:模型权重蕴含着世界知识,但是如何激活这些知识,只能使用文本输入吗?这也为之后使用 feature 输入埋下伏笔; 对推荐任务进行微调是有有必要性?直接使用 pretrain 还是说要进一步微调? LLM 是否可以应用在推荐系统中并呈现 scaling law? 传统推荐问题:推荐重要的是建模 user、item feature
2025-01-11

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers

https://github.com/meta-recsys/generative-recommenders 1. challenges 特征缺乏统一的结构描述: 推荐系统中的特征是异质的, 缺乏明确一致的结构描述, 比如交叉特征, 高基数id特征, 计数特征, 比率特征等, 这些特征有些是sparse的, 有些是dense的。 物料池规模大&动态变化: 推荐系统中物料池经常是数以亿计的,
2024-12-05
#推荐 #LLM

Recommender Systems with Generative Retrieval

https://arxiv.org/pdf/2305.05065现代推荐系统主要是通过在同一空间中构建查询emb和item的emb,然后通过大规模检索,在给定查询emb的情况下进行近似近邻搜索以选择最佳item。本文提出了一种新的生成检索方法Transformer Index for GEnerative Recommenders (TIGER) ,其中检索模型对目标item的标识符进行自回归解码
2024-11-04
#推荐 #LLM

倒排索引

1 正向索引和反向索引先介绍一下正向索引: 当用户发起查询时(假设查询为一个关键词),搜索引擎会扫描索引库中的所有文档,找出所有包含关键词的文档,这样依次从文档中去查找是否含有关键词的方法叫做正向索引。互联网上存在的网页(或称文档)不计其数,这样遍历的索引结构效率低下,无法满足用户需求。正向索引结构如下:文档1的ID→单词1的信息;单词2的信息;单词3的信息…文档2的ID→单词3的信息;单词2的信
2024-10-22

Multi-Task Learning

多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法。在机器学习领域,标准的算法理论是一次学习一个任务,也就是系统的输出为实数的情况。复杂的学习问题先被分解成理论上独立的子问题,然后分别对每个子问题进行学习,最后通过对子问题学习结果的组合建立复杂问题的数学模型。多任务学习是一种联合学习,多个任务并行学习,结果相互影响。
2024-10-10

QLoRA原理

QLoRA是一个使用量化思想对LoRA进行优化的量化算法,可以显著的降低训练大模型时所需要的显存资源。QLoRA的优化有三个核心要点:首先是定义了一种4位标准浮点数(Normal Float 4-bit,NF4)量化,基于分块的分位数量化的量化策略;其次是双重量化,包含对普通参数的一次量化和对量化常数的再一次量化,可以进一步减小缓存占用;最后是分页优化器(Page Optimizer),用来在显存
2024-09-30
#LLM ##PEFT

LoRA原理

LORA 是一种低资源微调大模型方法,出自论文 LoRA: Low-Rank Adaptation of Large Language Models。 使用 LORA,训练参数仅为整体参数的万分之一、GPU 显存使用量减少 2/3 且不会引入额外的推理耗时。 高效微调(PEFT)的基本原理full fine-tuning:在微调过程中模型加载预训练参数进行初始化,并通过最大化语言模型概率
2024-09-22
#LLM #PEFT

PEFT概述

PEFT(Parameter-Efficient Fine-Tuning) 是一种针对大规模预训练模型(如 GPT、BERT 等)设计的高效微调技术框架。PEFT 的目标是在不更新或仅少量更新模型参数的情况下,使模型能够高效适配新任务。这种方法大幅降低了微调的计算和存储成本,并在多任务学习和领域适配中展现了强大的灵活性。 1 LoRA(Low-Rank Adaptation)对模型的权重调整部分使
2024-09-17
#LLM #PEFT
123

搜索

Hexo Fluid