首页   >   新闻   >   文章

天池大赛:淘宝母婴购买情况数据分析
- 2023 -
08/24
10:39
零号员工
发表时间:2023.08.24     作者:Jingyi     来源:ShoelessCai     阅读:885

由于是购买产品的生命周期的分析,在数据基础的 8 个特征变量之外,还生成了 每天活跃用户数(按日期)、品类1对应活跃用户数、品类2对应活跃用户数、四个变量正交(性别、品类、品类2、季度),以及3个变量内部内生衍生变量(年龄、品类、季度、性别)。

算法选择方面,调取 Python Package,测试了 Linear、Logistic、SVM、Lasso、随机森林、GBDT、XGBoost,以及K邻近算法。

最终我们发现线性模型+L1范式的LASSO,达到 AUC = 0.7296,不过这个数据未必客观。

用户可以点击全文阅读,查看全文,或者查看天池大赛 NoteBook



上述模型的 Basic Idea,用户可以 点击该链接 获取原文学习,由加州大学圣克鲁兹分校的几位学者提出。

文章基本想法是,如何向年轻妈妈们有效推荐产品,并且吸引她们购买?这件事得从妈妈们怀孕期开始观察并介入开展产品和服务。从模型的角度,将母婴产品按照妈妈们开启 Matherhood 起,开始分类,分成若干的 Stage。



Ratio of Age(Month)


P{ 用户购买商品j, 年龄为a } = P{ 用户购买商品j } * P{ 年龄为a | 用户购买商品j }


关于购买商品j 的用户的年龄分布,我们假设为正态分布 Pu(a),因此我们用以下计算结果作为计分:

P(a) = P{ 用户购买商品j } * integrate( P{ a|用户购买商品a } * Pu(a) ) d(a)


上式的 Pu(a)的估计是,采用 GMM(Gaussian Mixture Model):

P(a,t) = Sigma(i)( W(i) * Normal(u(i), rho(i) ) )


欢迎伙伴们给我们留言及发邮件 Mira_1989@126.com 。



原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。