首页   >   新闻   >   文章

天猫复购率:基础数据介绍
- 2023 -
02/01
15:00
零号员工
发表时间:2023.02.01     作者:Jingyi     来源:ShoelessCai     阅读:473

【财新网】 2023年1月31日,西安,回民街上游玩的人群熙熙攘攘。春节假期过后,西安钟楼、大雁塔等景区游客数量仍处高位,餐饮旅游市场依旧火热。图:财新 丁刚


最近进一步开展天池大赛,也是我们 ShoelessCai 网站工作的一部分。点击阅读《天池大赛,天猫复购模型雏形初探

先介绍一下背景,自己原来在客户那边工作的时候,强哥(研究生同学)提示,用“天池大赛”来衡量自己的建模能力。

笔者提交了两次结果:

第一,工业大数据,排名 1700+,Top13%;

第二,天猫复购率 1718名,Top18%。

上述工作,收乐财会进一步构思,提升指标的方式。



有一个结论很确定,即就天猫复购率而言,基于对业务的理解,已经尽可能地制作特征了。综合硬件资源、建模者对业务的充分理解,制作特征67个,建模数据300多万,监督模型。

本篇主要目的是介绍数据集基本情况,一些初步的聚合,可以由读者自行开展。

1. 数据集怎么使用? 四个数据表是最关键的, train_format2, test_format2, user_info_format1, user_log_format1。

2. 四张数据表的范畴是一致的,涵盖用户 424170 个,涵盖商户 4995 个。主键 user_id + merchant_id 共有数据703 万个样本 。主键 user_id + merchant_id + time_stamp 5492.5 万个样本。 user_log 是结构化数据。





3. 简单聚合,查看大致人群分布。例如,天猫双11非常吸引年龄段 3-4 的人群,女性消费者,占据 2/3。





4. 考虑时间序列。例如,天猫双11 能够吸引到的用户,其与商户的交互次数,达到一定次数之后,就会收敛到某个常数值。



原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。