由于是购买产品的生命周期的分析,在数据基础的 8 个特征变量之外,还生成了 每天活跃用户数(按日期)、品类1对应活跃用户数、品类2对应活跃用户数、四个变量正交(性别、品类、品类2、季度),以及3个变量内部内生衍生变量(年龄、品类、季度、性别)。
算法选择方面,调取 Python Package,测试了 Linear、Logistic、SVM、Lasso、随机森林、GBDT、XGBoost,以及K邻近算法。
最终我们发现线性模型+L1范式的LASSO,达到 AUC = 0.7296,不过这个数据未必客观。
用户可以点击全文阅读,查看全文,或者查看天池大赛
NoteBook 。
上述模型的 Basic Idea,用户可以
点击该链接 获取原文学习,由加州大学圣克鲁兹分校的几位学者提出。
文章基本想法是,如何向年轻妈妈们有效推荐产品,并且吸引她们购买?这件事得从妈妈们怀孕期开始观察并介入开展产品和服务。从模型的角度,将母婴产品按照妈妈们开启 Matherhood 起,开始分类,分成若干的 Stage。
Ratio of Age(Month)
P{ 用户购买商品j, 年龄为a } = P{ 用户购买商品j } * P{ 年龄为a | 用户购买商品j }
关于购买商品j 的用户的年龄分布,我们假设为正态分布 Pu(a),因此我们用以下计算结果作为计分:
P(a) = P{ 用户购买商品j } * integrate( P{ a|用户购买商品a } * Pu(a) ) d(a)
上式的 Pu(a)的估计是,采用 GMM(Gaussian Mixture Model):
P(a,t) = Sigma(i)( W(i) * Normal(u(i), rho(i) ) )
欢迎伙伴们给我们留言及发邮件 Mira_1989@126.com 。