搜推召回业务
召回是什么 ?
通义千问 AI:
在跨境电商的搜索系统中,“召回”(Retrieval)是指当用户输入查询关键词(Query)后,搜索引擎首先从海量的商品库中快速找出与该关键词相关的一系列候选商品的过程。这一阶段的目标是尽可能全面且高效地找出所有可能满足用户需求的商品,而不仅仅是精确匹配的结果。
召回机制是搜索推荐系统中常用的算法策略通过用户的属性和行为来进行数据的筛选和匹配. 它的目标是根据用户的历史浏览记录, 购物记录, 推测出可能感兴趣的商品从而提供符合用户需求的商品推荐.
与传统的排名方式不同, 召回机制更关注匹配度而非明确的排名. 召回机制的目标是提供个性化、精准的商品推荐,让用户能够更轻松的找到自己感兴趣的商品,并提升用户购物体验。(阿里巴巴千人千面) 总而言之, 召回机制是一种基于用户历史行为和兴趣的算法策略, 用于预测和推荐可能感兴趣的商品, 并在电商平台等推荐系统中提供个性化精准的商品推荐
具体来说,在电商搜索召回阶段,通常会采用多种策略和技术手段来实现:
- 分词处理:对用户的查询进行分词分析,理解其真实意图。
- 索引检索:利用倒排索引等数据结构快速定位包含关键词的商品记录。
- 相关性计算:基于商品标题、描述、分类、标签等多种信息,通过算法模型评估每个商品与查询关键词的相关度。
- Query 理解和扩展:根据用户的历史行为、热门搜索以及语义关联关系,对原始 Query 进行扩展,增加召回范围。
- 多路召回:不同的召回策略并行执行,如基于文本的召回、基于类目属性的召回、基于用户画像的个性化召回等。
- 前置筛选过滤:结合业务规则和商品状态,对初步召回结果进行必要的过滤,例如排除下架商品、不符合地区销售规则的商品等。 召回之后,系统通常还会对召回的商品列表进行排序优化,确保最符合用户需求的商品能够优先展示给用户,这个过程被称为“排序”或“rerank”。
搜索业务
用户常见搜索分类
所有的召回都是基于用户的 query
来的, 主要分为两大类, 单一实体
, 多实体
Query 改写 预处理 纠错, 切词, 拼音转汉字, 去停用词 切词: 将一个词语, 切成多个 tag 词 拼音转汉字: 字母简写转汉字, 全拼转汉字 去停用词: 无用的字符删除 词库识别 同义词, 近义词
协同过滤