首页   >   新闻   >   文章

天池大赛:不确定竞价 —— 动态学习(4)
- 2024 -
10/20
08:09
零号员工
发表时间:2024.10.20     作者:Jingyi     来源:ShoelessCai     阅读:74

原标题:天池大赛:不确定竞价 —— 动态学习(4)

转眼间,阿里妈妈的竞赛大概还如火如荼吧,我自己提交的时间是 912,结果 915 才把 Docker 提交成功!关于算法,虽然硬扯了半天,还是决定自己跑几个看得懂的,我甚至不认为我理解得正确。

为了进一步学习这个很“昂贵”,但是学术界很喜欢的算法,我们再看点其他文章吧!

2024 年 10 月 20 日,这是今天的论文解读。







01 Lux AI Season 3: Multi-Agent Meta Learning at Scale

这是一个赛季系列,由 UCSD 几位 Ph.D 和 Kaggle 合作的。文章介绍的是游戏模式。

(1)Core Engine
2D Grid:游戏是战棋式的,每个 CELL 定义为 s[i][j]。

Agent State and Actions: 针对每个智能体而言,自己的状态 s_a[i]。所有的智能体可以同时作出同一个动作 a[i]。

Local Dynamics Function:棋盘 k×k 信息,用 rho[l] 表示 战棋信息。

Agent Dynamics Function:围绕智能体的棋盘信息 k×k 信息,用 rho[a] 表示战棋信息。

Semantic Mapping Layer:原则是自动可视化,映射方式是 rho[l] + rho[a]。

(2)Season 3 Game Variation
Game Map:2D Grid,64×64。三种状态:(1)空地;(2)行星带;(3)星球。

如果是行星带,可以形成组,组内行星带个数最大 16 个,最小 1 个。

星球会生产飞船,至少距离行星带 10 个单位以上。

Game Initialization:两队 1V1,每个队伍飞船 4-6 个,初始资源,200 燃料 0 矿石。最终,看谁矿石多。

Game Objective:每一个回合都会修改 Cargo Holds,记录矿石和燃料 疏忽了。获得这些资源,走两百步至行星带即可。

Observations:飞船移动范围 7×7,所谓的“额外探索”。

Units:飞船。占据 1 格,飞船搭载上线,1000 燃料 1000 矿石。

Unit Actions:每个时间回合可以操作的动作。

Move(移动),花费 10 燃料。

Fire Mining Laser(镭射火枪):走 k 格,任何方向,消耗 10 + 10k 燃料,k 取值 1-5。

Transfer Resource(转移资源):如果前一艘飞船留下资源,下一艘飞船在同一个战棋,获得资源。

行星带:1 格战棋,初始值 100,如果值减到 0,行星带终结,由空地替代。矿石范围 100 - 500。

星球:1 格战棋,生产飞船,也生产燃料。生产量 10 - 20,乘以系数 Gamma。飞船可以丢弃燃料和矿石在星球上,或者自动丢失,如果星球文明过高的话。

The Mechanics
Destroyed Unit Behavior 毁坏飞船:被毁坏的飞船,以概率 a% 掉资源。重生,20 个时间回合,200 燃料。a ∈ {0,0.25,0.50,0.75,1}。

Unit Spawning Behavior 生产飞船:两种方式。一是 20 个时间回合,同一星球再次毁坏,再等 20 个时间回合。二是如果“破坏生产过程的飞船”被破坏,则非常生产成功。

Unit to Unit Collisions 飞船相撞:均被毁坏,战棋可用。

Unit to Asteroid Collisions 飞船行星带相撞:与行星带相撞,两者均被毁坏。行星带变成空地。

Laser hits Asteroid Chunk:被袭击的话,行星带耦合度降低 beta(∈[0,1])。如果降低到 0,则毁坏,用空地替代。

Laser hits unit of the same team 镭射打到自己队伍:飞船毁坏。

Laser hits unit of the opposition team 镭射打到对方队伍:飞船毁坏。

Passive Fuel Gathering from Planet Tiles 被动搜集燃料:文明最高星球掉燃料,比例 γ (∈{0.5, 1, 1.5, 2})。

Applications / Post Competition Analysis
Quantifying Aspects of Surprise/Emergence 量化建树:基于策略的空间,具体信息来自这些回合的数据,对抗的双方是人工规则智能体,和 RL 智能体。

Strong Baselines and Testbed for Meta-Learning Generalization in Multi-Agent Games 强基准和测试动态学习的总方法:培养一种习惯,形成模板,使得 LLMs 提升无限游戏的表现。

更多信息,点击《Lux AI Season 3: Multi-Agent Meta Learning at Scale》阅读原文。

或者给主办方写信:stao@ucsd.com, support@lux-ai.org





原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。