阿里巴巴大数据之路读书笔记——用户画像的定义

阿里巴巴大数据之路读书笔记——用户画像的定义

用户画像 在阿里巴巴旗下的淘宝网、虾米音乐上都不乏个性化推荐场景,淘 宝、天猫平台上的众多商家则需要通过用户调研和产品研发来把握产品 的目标人群和人群偏好,从而对用户投其所好。对用户有深刻的理解是 网站推荐、企业经营制胜的重要 环。在传统企业中,获取用户的反馈 信息耗时长、结果缺失,是个难关。然而 随着大数据热潮的兴起,快 速捕捉海量用户行为并精确分析人群偏好等商业信息已经成为可能。作 为个性化技术的重要基础,相比于传统企业的购物篮分析、问卷调查, 在用户 画像的塑造上具备技术的天然优势。 阿里全域数据提供了足够的数据基础,正是基于用户网购、搜索和 娱乐影音等行为的数据洞察,可以利用数据分析辅以算法的视角对用户 进行 360 全方位的特征刻画。那么,究竟什么是用户画像?通俗地讲, 用户画像即是为用户打上各种各样的标签,如年龄、性别、职业、商 品牌偏好、商品类别偏好等。这些标签的数目越丰 ,标签越细化,对 用户的刻画就越精准。例如,分析某用户为女性,可能仅仅是将与女 相关的服装、个人护理等商品作为推荐结果反馈给该用 户:但若根据用 户以往的浏览、交易等行为挖掘出进一步的信息,如用户的地理信息为 海南,买过某几类品牌的服装,则可以将薄款的、品牌风格相似的服装 作为推荐结果。 般而言,用户画像可以分为基础属性、购物偏好、 社交关系、财 富属性等几大类。对于刻画淘宝网购用户,则应侧重于他们在网购上的 行为偏好。下面以用户女装风格偏好为例,讲解该用户标签是如何基于 全域数据产出的。 购买过淘宝商品的读者对商品详情页都不会陌生,一件商品的关键 特征除了反映在商品图片和详情页中以外,主要可以采集的信息是商品 的标题以及参数描述。女装有哪些风格?首先需要将女装行业下的商品 标题文本提取出来,对其进行分词,得到庞大的女装描绘词库。然而, 淘宝商品的标题由卖家个人撰写,并不能保证其中的词语都与商品风格 描述相关。因此,对于所得到的女装描绘词库,首先,需要根据词语权 重去除无效的停用词,方法如计算 TF-IDF 值。其次,在女装商品的参 数描述中,如果已经包含了一种商品风格,例如“通勤”“韩版”等常 见风格,那么通过计算词库中词语与参数描述中风格词的相似度,可以 过滤得到女装风格词库,利用无监督机器学习如 LDA 等方法可以计算 种风格所包含的词汇及这些词汇的重要性。那么 买家偏好什么风 格昵?在淘宝网上,买家拥有浏览、搜索、点击、收藏、加购物车以 交易等多种行为,针对每种行为赋予不同的行为强度(比如浏览行为强 度弱于交易行为),再考虑该商品的风格元素组成,就能够通过合理的 方式获知买家对该风格的偏好程度了。 对于这样的商品偏好计算,数据挖掘人员需要仔细分析用户偏好的 商品的类型、品牌、风格元素、下单时间,这 系列行为可以构成复杂 的行为模块。同理,利用机器学习算法,可以从用 户行为中推测其身份, 例如男生和女生、老年与青年偏好的商品和行为方式存在 别,根据 定的用户标记,最后能够预测出用户的基础身份信息。

相关推荐

十大好用的简谱打谱软件 免费打谱app哪个好 常用制谱软件推荐→榜中榜
广安格力电器网点分布
365足球体育亚洲版

广安格力电器网点分布

📅 06-29 👁️ 1234
装机不犯愁:评测告诉你最值得购买的B150主板
365足球体育亚洲版

装机不犯愁:评测告诉你最值得购买的B150主板

📅 06-30 👁️ 7745
在线根号计算器
365足球体育亚洲版

在线根号计算器

📅 06-27 👁️ 1063
我们为什么学习英语作文 29
365bet线上足球

我们为什么学习英语作文 29

📅 06-28 👁️ 9043
世界杯预选赛中国队与菲律宾队0比0平,多角度剖析比赛防守表现
世界杯预选赛中国队与菲律宾队0比0平,多角度剖析比赛防守表现
我们为什么学习英语作文 29
365bet线上足球

我们为什么学习英语作文 29

📅 06-28 👁️ 9043
德国男篮113
365bet线上足球

德国男篮113

📅 06-29 👁️ 5706