【财新网】 2023年1月31日,西安,回民街上游玩的人群熙熙攘攘。春节假期过后,西安钟楼、大雁塔等景区游客数量仍处高位,餐饮旅游市场依旧火热。图:财新 丁刚
最近进一步开展天池大赛,也是我们 ShoelessCai 网站工作的一部分。点击阅读《
天池大赛,天猫复购模型雏形初探》
先介绍一下背景,自己原来在客户那边工作的时候,强哥(研究生同学)提示,用“天池大赛”来衡量自己的建模能力。
笔者提交了两次结果:
第一,工业大数据,排名 1700+,Top13%;
第二,天猫复购率 1718名,Top18%。
上述工作,收乐财会进一步构思,提升指标的方式。
有一个结论很确定,即就天猫复购率而言,基于对业务的理解,已经尽可能地制作特征了。综合硬件资源、建模者对业务的充分理解,制作特征67个,建模数据300多万,监督模型。
本篇主要目的是介绍数据集基本情况,一些初步的聚合,可以由读者自行开展。
1. 数据集怎么使用? 四个数据表是最关键的, train_format2, test_format2, user_info_format1, user_log_format1。
2. 四张数据表的范畴是一致的,涵盖用户 424170 个,涵盖商户 4995 个。主键 user_id + merchant_id 共有数据703 万个样本 。主键 user_id + merchant_id + time_stamp 5492.5 万个样本。 user_log 是结构化数据。
3. 简单聚合,查看大致人群分布。例如,天猫双11非常吸引年龄段 3-4 的人群,女性消费者,占据 2/3。
4. 考虑时间序列。例如,天猫双11 能够吸引到的用户,其与商户的交互次数,达到一定次数之后,就会收敛到某个常数值。