首页   >   新闻   >   文章

天池大赛:不确定竞价 —— 增强学习(3)
- 2024 -
10/10
15:57
零号员工
发表时间:2024.10.10     作者:Jingyi     来源:ShoelessCai     阅读:121

封面故事:混元大模型 对弈

原标题:天池大赛:不确定竞价 —— 增强学习(3)

写在前面

自己对自己评价吧,有失偏颇,希望认识我的伙伴,给个中肯评价,我根据大家意见,也争取做更好的自己!

那么,今天是 2024.10.10,比起 2018.10.10,整整六年的时间。这种感觉像新生六年,于是我便是个 6 岁孩童,怎么说呢,加上我对祖国的情感,好歹也是个明事理、负责任、做事情会多方权衡的 6 岁孩童。大致算是孩童吧,也算不是,但至少不会闯出“大是大非”的祸害。

其实,一个人下限,全凭学习。据说,“智者必怀仁”,这里的“智”未必指的智力,或指心智,或指于世界的理解程度。仅此而已。

除了用钱多赚钱少,我还有以下改变
1.原来看不懂的知识点看得懂了;

2.翻译英语更快了;

3.能按时提交了!

4.脱离雇主,有对外输出的渠道了!

5.更少刷手机,更多专注在手上工作,无论简单与否。

6.花钱变少了

7.对行业更深刻理解

胜利记录
1.CATTI 66分

2.一周 5 天以上 7点半之前起床

哪些没有满足预期
1.社交圈建立不如预期

2.身边人给到的消息,比较利空。我再想想办法

总结:实践是检验真理的唯一标准,例如看书,你说看懂了,真懂了吗?得考试鉴定。因此继续加油吧!识别真正的学习,很多厉害的人都说,人这一辈子,感受自己哪里的提升,也算没白活吧!

01 Self-play 文章后半段

原文地址:A Survey on Self-play Methods in Reinforcement Learning

这是上周遗留问题。

02 精品案例 | 强化学习简介及马尔可夫决策过程

点击阅读原文:精品案例 | 强化学习简介及马尔可夫决策过程

作者:狗熊会







这篇文章的两点在于“机器人游戏”的诠释,读者对于增强学习的价值函数有疑问的,可以参考。但是,我发现还是没太懂,大概文献还有缺。

03 基于深度/单目融合视觉及强化学习的机器人定位棋局与行棋策略

点击阅读原文:基于深度/单目融合视觉及强化学习的机器人定位棋局与行棋策略

来源:控制与决策

坦率地说,不算特别懂,先放着。

其他同类看不懂的文章:

1. 如何使用自对弈强化学习训练一个五子棋机器人Alpha Gobang Zero

来源:博客园

2. 最强通用棋类AI,AlphaZero强化学习算法解读

来源:知乎

04 混合线性模型

Mix Model

random effects 虽然说的是参数上的 randomness,但也可以理解为是给 error term 的协方差矩阵加了些 structure 条件:本来假设数据是 i.i.d. 的,error 的 covariance matrix 是 diagonal 的。现在因为有了分组等更多的信息,我们就不再假设 diagonal 了。因此 random effect model 也叫 variance components model。

另外也可以往 meta learning 的方向去理解,不同组其实对应了不同参数的模型(不同的 tasks),它们有一定的共性,我们就把共同的参数定义为 fixed effects,每个组自己独特的参数就是 random effects,这些组的 random effects 我们假设它们是服从一个分布的(they are samples from task distribution)。mixed model 就是把这些 tasks 放在一起解了,然后再进一步得到每个模型的参数估计。

知乎用户:王占宇

这两天开始使用LME,然后学习的一些总结。

LME是线性模型的一个扩展,传统的一般线性模型自变量都是固定效应,而混合线性模型则是在此基础上引入随机效应将样本的一些非独立性性质纳入模型,以得到一个更好的模型,如采样的非独立性,采集数个班级的数据,那么,每个班级的内部的样本相对于班级之间的很可能是非独立的,因为班级内的人一直在一起上课或者因为某种相近特质被分到了一个班级,因此,需要把班级作为随机效应纳入模型。另外,对于心理学实验常进行的组内设计,把数据拉长后相当于人为制造了几倍的数据(每个被试在每个条件下都有一个样本点,一个被试制造了n个样本量,pseudoreplication!这是犯罪!),而将被试作为随机效应纳入模型可以解决由此产生的样本独立性问题。

知乎用户:谷里

点击阅读原文

这个模型是否会用得到这个问题或未可知,放在这里,供伙伴们参考。

Auto-Bidding in Large-Scale Auctions: Learning Decision-Making in Uncertain and Competitive Games

摘要和阿里巴巴游戏介绍,我发现就是做翻译,所以说本质没有差异。





2024.10.16

部分工作,不知是不是年纪大了,看这段的时候:又寒冷、又饥饿、又头晕!!

Challenge: This task is not a traditional constrained optimization problem because when bidding for each opportunity, it is impossible to know all future opportunities in advance due to the randomness of arriving patterns, making it hard to obtain a closed-form analytical solution.

Advertising is a competitive game where multiple agents bid simultaneously using their confidential bidding strategies. The game is also dynamic, with competitors continually adapting their strategies. Therefore, auto-bidding agents need to perceive the dynamic gaming environment, model the connection between bid and performance, and then carefully bid for each impression opportunity by taking into account the preceding bids and performance.

Additionally, participants need to consider how to adhere to the CPA constraint, given complex features such as the uncertainty of prediction and sparse data. In this competition, we’ll have 2 tracks. The first is the classic track, where any optimization method is allowed. The second is the AIGB track, encouraging the use of generative models for modelin

为什么这个线性规划问题,不能直接用解析解计算?

1.这不是传统线性规划,因为你事先无法知道未来的机会,然而客户到来 —— 这个事件是随机变量。

2.每次竞价,你无法知道对手的策略。对手策略,会依据你的策略而改变,连续变化的,这些都需要加到环境变量。

3.考虑到 CPA,即 Cost Per Action。

4.不确定结构比较复杂,还有稀疏性的问题。

5.本篇采用两种方式:一是传统方式;二是 AIGB 法,鼓励 Generative。

其他特征

1.智能体用于和 100+ 个智能体,先训练练场用的。

2.所有 Impression,是独立更新的。





2024 年 10 月 17 日



争取更新得勤快些,未完待续。

这里笔者分享一句,按照我国教育家、思想家孔子的话:

名不正,则言不顺;言不顺,则事不成;事不成,则礼乐不兴;礼乐不兴,则刑罚不中,刑罚不中,则民无所措手足。故君子名之必可言也,言之必可行也。君子于其言,无所苟而已矣。

最后一句话,我再练练。你看,2024年10月19日,是不是离君子,又进了一步!



原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。