首页   >   新闻   >   文章

2025 年 6 月 21 日,第 43 期研究生学术沙龙
- 2025 -
06/21
12:31
零号员工
发表时间:2025.06.21     作者:Jingyi     来源:ShoelessCai     阅读:6

01 免模型离线强化学习

分布产生偏差,对于分布估计不到的样本过于乐观。分布外偏移,由于分布外的决策及偏移,这样对于“预测”产生干扰。提出的解决方法是,样本内学习。

若样本内学得够好,理论上,分布外会产生决策限制,分布内进行标准强化学习。

02 通过单向信息建模 克服视觉语言的特征污染

任务,视频监控,目标跟踪,目标检测。

跟踪、检测的区别。识别之后,可以不进入训练,持续跟踪。

有噪声进入语言特征。纯视觉信息;视觉及语言信息。视觉信息流、语言信息流。

token 化之后加一层(adapter),进入视觉 token 集合。

应用方面,用在摄像头监测。

03 白帆老师 复旦博士

分为 ToC 以及 ToB。

企业原油数据新城 MCP 放入列表,大模型阅读列表。大模型通过 MCP 接口操作。通过接口暴露能力。

绝大部分智能体访问到统一的数据库。

发现错误的方式:一是前置分析;二是执行异常;三是后置分析。纠错手段,直接抛弃,完全人工、暂停、撤销。

访问控制:一是加个超时机制;

二阶段检索设计。

答疑:权限控制比较感兴趣。是否可以放开智能体的权限。理论上可以做到,事实上,智能体的权限是会被严格控制的。如果人工派单,一天2次导入,使用智能体效率会大幅提升。不审核,有问题直接回退。

这类知识库的建设,概念上很像某种网盘,接受文本的网盘。文本分段,映射到场景业务内容。查询向量,拿出 5-10 个输入,作为之后的输入。是能力还是知识,如果是能力,就要修正模型,如果是知识,就调整知识库。

以上,在听课过程中各种溜号,争取下次听得专注。



原文链接

长按/扫码,有您的支持,我们会更加努力!







TOP 5 精选
回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。