LLM4Rec-Learning-001: 基本结构与概念
这是大模型推荐系统的第一课,我是小白做相关毕设,快速学习
推荐系统对我们来说并不陌生。它就像抖音、小红书、哔站那样,实时给我们推荐可能喜欢的内容。
其实推荐系统是一个挺大的概念。就我目前的理解,它和CV、NLP/LLM、多模态一样,是当前算法应用的主要方向之一。在推荐系统里,通常还包含所谓的“搜推广”——也就是搜索、广告和推荐。比如百度的浏览器广告、抖音的内容推送、小红书的笔记推荐,还有各类搜索结果的生成等等。虽然很多内容其实相互交叉,但这样划分对初期的我来说,有助于建立一个基本的认知框架。
在Transformer出现之前,推荐系统就已经有很多经典算法了,比如协同过滤。不过,既然我的重点是学习LLM4Rec,后续就不花太多时间梳理这些传统方法了。
当然,我也不是完全零基础,只是在推荐系统这块比较“小白”。在此之前,我已经有了一些机器学习、深度学习和大模型的基本理论知识。如果你还没接触过这些,建议先了解一些基础概念,比如深度学习从设计、训练到部署的整体流程,前向传播、反向传播、特征工程、常见的网络层(特征层、激活层、归一化层、Dropout、损失函数、优化器等),以及Transformer的结构。此外,也可以看看像BERT、Qwen、DeepSeek这样的具体模型应用。
接下来,我就要正式进入LLM4Rec的学习了。我打算先了解推荐系统的基本流程和相关术语,然后逐步看论文、调试代码、动手实践,并记录自己的想法。
推荐系统的目标,简单来说,就是优化用户特征与商品(items)之间的映射关系。也就是根据用户信息+历史行为,预测下一个可能喜欢的item。
传统推荐系统一般流程如下:
- 用户特征化 + 商品特征化
- 通过算法计算用户与商品的相关性
- 召回:从海量商品中筛选出一部分可能相关的候选集
- 排序:对召回的结果进行排序(可能还分粗排和精排)
- 输出最终的推荐列表
关键环节包括:特征化、关系计算、召回策略、排序策略,以及最终的业务推荐策略。
现在的LLM4Rec,说白了就是用大模型来替代或增强上述流程中的某些环节。例如最简单的做法可以是:
- 把用户数据和近期偏好内容改写成文本描述
- 把商品列表也改写成文本描述
- 将两者通过Prompt输入大模型,直接生成推荐结果
其实大模型在推荐中有两大方案,一种就像我刚刚举例这样,称为“LLM as Rec”,另一种是“LLM for Rec”,这种类似是用LLM来对传统推荐的各个部分进行替代
当然,大模型做推荐也会面临一些问题,比如上下文长度限制、推理速度较慢、生成式推荐的可控性等。我会在后续学习中随时记录这些疑问,慢慢探索。另外,我可能会更偏向于“内容推荐”这个方向。
思考: 在自己的理解中,传统推荐与大模型推荐最主要的区别在哪?为什么会有这种区别?
生成式大模型推荐的Pipline,论文+数据+coding