问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

推荐系统04:用户画像

发布网友 发布时间:2022-11-26 23:48

我来回答

1个回答

热心网友 时间:2023-10-12 23:50

先说说“用户画像”这个词,它对应的英文有两个:Personas 和 User Profile。Personas 属于交互设计领域的概念,不在本文讨论范围内,请出门右转去找交互设计师们聊,留下来的人,我们聊聊 User Profile 这种用户画像。

User Profile 原本用于营销领域。营销人员需要对营销的客户有更精准的认识,从而能够更有针对性地对客户和市场制定营销方案。

这个理念本身没有错,但是有一个问题:传统营销领域,是以市场销售人员为第一人称视角去看待客户的,也就是用户画像为营销人员服务。

在这种用途下谈论的用户画像,和我们即将在推荐系统领域谈论的相差有点大;但是很遗憾,今天在媒体上看到的大多数“用户画像”案例分享,都停留在这个意思上。

比如最常见的用户画像出现在高大上的 PPT 上:用标签云的方式绘制一个人的形状,或者在一个人物形象旁边列出若干人口统计学属性,以此来表达“用户画像”这个概念。

看上去非常酷炫,但是我得悄悄告诉你一个赤裸裸的*:越酷炫的用户画像越没什么用。

既然是给机器看的,那么画像是不是酷炫、是不是像、维度是不是人类可读,都不重要。那它到底是个什么样子呢?先别急,听我慢慢讲。

一个推荐系统来到这个世界上,它只有一个使命,就是要在用户(User)和物品(Item)之间建立连接。

一般方式就是,对用户和物品之间的匹配评分,也就是预测用户评分或者偏好。推荐系统在对匹配评分前,则首先就要将用户和物品都向量化,这样才能进行计算。

而根据推荐算法不同,向量化的方式也不同,最终对匹配评分的做法也不同,在后面讲到具体推荐算法时你会看到这一点。

用户向量化后的结果,就是 User Profile,俗称“用户画像”。所以,用户画像不是推荐系统的目的,而是在构建推荐系统的过程中产生的一个关键环节的副产品。

另外,通常大型推荐系统一般都分为召回和排序两个阶段,这个在后面我会专门讲到。

因为全量物品通常数量非常大,无法为一个用户(User)逐一计算每一个物品(Item)的评分,这时候就需要一个召回阶段,其实就是预先筛选一部分物品(Item),从而降低计算量,用户画像除了用于最终匹配评分,还要用在召回。所以,构建用户画像就要以这两个阶段为目的。

举个例子,我想去吃点夜宵,楼下有五家大排档,那么从推荐系统的思路来看,我怎么选择呢?

首先就是将五家大排档向量化,我暂定向量的维度有:

现在每一个大排档都有一个向量,我自己也要有一个对应的向量,就是你有多看中这三个元素:

这样一来就可以对五家大排档做匹配打分了,你很容易得出哪家大排档最适合。

假如我的向量是:
价格: 3 种类: 5 味道: 5

这就是一个大排档推荐系统的简单用户画像了,是不是很简单!

这里可以简单计算一下:每一个因素相乘后再相加,就得到每一个大排档的评分了。

接下来我来围绕这个大排档推荐系统的用户画像,看看建立用户画像的关键因素:第一个是维度,第二个是量化。

首先我先来说说“维度”。
看前面这个例子,我定下来的几个维度:价格、种类、味道。这几个维度有三个特点:

当我们去给每一个大排档计算评分时,想象你是一台计算机,你读取了用户画像的“价格”取值为 3,再去取出一个大排档的“价格”评分,两者相乘,用户画像的维度“价格”和大排档的“价格”天然匹配上了。

因为是同一个名字;但是计算机很傻,你把大排档的这个维度换成“价钱”,它就不知道该如何是好了。

另一方面,对这三个维度,把两边同时换成 1、 2、3 或者 a、b、c 都是可以的,也不影响计算结果,计算机依然能够匹配上;所以用户画像的维度不一定需要人类能够理解,只要计算机能把两边对应上就可以了。

假如是根据用户的阅读历史挖掘阅读兴趣标签,那么我们无法提前知道用户有哪些标签,也就不能确定用户画像有哪些维度,所以第二点也不是必须的。

因为这一点也不是必须的,用户画像的维度个数可以不用确定。理论上来说维度越多,画像越精细,但带来的计算代价也是很大的,需要权衡。

虽然这里以标签作为例子,但是你要注意,用户画像是向量化结果,而不是标签化。标签化只是向量化的一种,因为向量的维度不一定需要人理解。

我们这里的量化都是主观的,而在实际生产系统上,用户画像每个维度的量化,应该交给机器,而且以目标为导向,以推荐效果好坏来反向优化出用户画像才有意义,像这里这个简单的例子,没有去管推荐效果而先行主观量化了每一个维度,是大忌。

所以用户画像的量化是和第三个关键元素“效果”息息相关的。前面已经说过,不要为了用户画像而用户画像,它只是推荐系统的一个副产品,所以要根据使用效果(排序好坏、召回覆盖等指标)来指导用户画像的量化。

再来整体说说怎么构建用户画像,按照对用户向量化的手段来分,用户画像构建方法分成三类:

直接使用原始数据作为用户画像的内容,如注册资料等人口统计学信息,或者购买历史,阅读历史等,除了数据清洗等工作,数据本身并没有做任何抽象和归纳。这就跟查户口一样,没什么技术含量,但通常对于用户冷启动等场景非常有用。

方法就是堆积历史数据,做统计工作,这是最常见的用户画像数据,常见的兴趣标签,就是这一类,就是从历史行为数据中去挖掘出标签,然后在标签维度上做数据统计,用统计结果作为量化结果。这一类数据贡献了常见的酷炫用户画像。

就是用机器学习方法,学习出人类无法直观理解的稠密向量,也最不被非技术人员重视,但实际上在推荐系统中承担的作用非常大。

比如使用潜语义模型构建用户阅读兴趣,或者使用矩阵分解得到的隐因子,或者使用深度学习模型学习用户的 Embedding 向量。这一类用户画像数据因为通常是不可解释,不能直接被人看懂。

我会在后面专门讲解这些技术手段,以及它们在推荐系统中的实际使用。

现在总结一下今天的内容:

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
人类如何才能悬浮在空中? - 知乎 人体悬浮术是真的存在吗 人体怎样才能真正的在空中悬浮 小孩c蛋白反应高是什么原因 (2014?南海区二模)如图所示,物重G为2000N,小红用800N的拉力花2s的时间... 苹果13系列升级iOS15.5好吗? 出生2o12年11月20日2点姓石光字辈取名 求龙凤胎名字:2012年6月21日(农历5月初3)凌晨0点40分出生,大的为龙,小... by和take有什么区别 takeby后面跟交通工具的区别 请问差评中的差是几声 五个汉字的读音有哪些? 评的拼音和组词 Excel双击填充柄有什么用? QQ反黑群如何反黑? 牛奶+面粉,自制面膜真的具有美白功效吗? 牛奶和面粉搅和做面膜可以美白吗,一般隔几天做一次呀。 纯牛奶兑面粉洗脸美白吗? soul上的固聊有新的聊天对象了,我该点破吗 离开的语录68条 离开的语录摘录 离开个性语录句子 维生素B1对眼睛有帮助吗 酷家乐硬装工具画矩形怎么从上面画 酷家乐没有地面怎么添加 帮我搜索一下关于夏天的作文字数应该是五十个字 卡尔贝姆是乐器萨克斯名字吗? ex雷德王对战贝姆斯塔谁更强? 艾克斯奥特曼终极赛罗装甲和艾克斯奥特曼贝姆斯装甲和捷德奥特曼刚燃形态哪个 安飞易无人机飞行训练中心是AOPA认证的吗 有转弯的污水管道能用紫外光固化修复吗 有谁知道武汉哪个位置的炒田螺最好吃 田螺壳上有洞是怎么回事 急急急!!!请问武汉那里有炒大田螺呀?最好在汉口这边 抽烟喝酒的危害有什么 ug型腔怎么画 sw中怎样把这个图的三视图画出来(型芯与型腔的三视图) 半径三米的孤怎么画 Solidworks中怎样把这个图的三视图画出来(型芯与型腔的三视图) 注塑模型腔和型芯怎么出工程图 这个弧长怎么画? CAD上的装配图画好了型芯型腔不会画,谁帮我画下型芯型腔的零件图UG也分模过了额。 几何画板上怎么样度量弧的长度? 怎么样画弧? 怎么画型芯,已经有零件图了,具体点。 弦长3.6米,弦高0.8米,怎么算弧长要详细算法和公式 香葱肉松蛋糕卷的做法 香葱肉松蛋糕卷如何做 葱香肉松戚风的做法 如何制作葱香肉松戚风蛋糕 核电站辐射多大? 连云港核电站有辐射吗 核电站上班对身体有辐射吗?