01 免模型离线强化学习
分布产生偏差,对于分布估计不到的样本过于乐观。分布外偏移,由于分布外的决策及偏移,这样对于“预测”产生干扰。提出的解决方法是,样本内学习。
若样本内学得够好,理论上,分布外会产生决策限制,分布内进行标准强化学习。
02 通过单向信息建模 克服视觉语言的特征污染
任务,视频监控,目标跟踪,目标检测。
跟踪、检测的区别。识别之后,可以不进入训练,持续跟踪。
有噪声进入语言特征。纯视觉信息;视觉及语言信息。视觉信息流、语言信息流。
token 化之后加一层(adapter),进入视觉 token 集合。
应用方面,用在摄像头监测。
03 白帆老师 复旦博士
分为 ToC 以及 ToB。
企业原油数据新城 MCP 放入列表,大模型阅读列表。大模型通过 MCP 接口操作。通过接口暴露能力。
绝大部分智能体访问到统一的数据库。
发现错误的方式:一是前置分析;二是执行异常;三是后置分析。纠错手段,直接抛弃,完全人工、暂停、撤销。
访问控制:一是加个超时机制;
二阶段检索设计。
答疑:权限控制比较感兴趣。是否可以放开智能体的权限。理论上可以做到,事实上,智能体的权限是会被严格控制的。如果人工派单,一天2次导入,使用智能体效率会大幅提升。不审核,有问题直接回退。
这类知识库的建设,概念上很像某种网盘,接受文本的网盘。文本分段,映射到场景业务内容。查询向量,拿出 5-10 个输入,作为之后的输入。是能力还是知识,如果是能力,就要修正模型,如果是知识,就调整知识库。
以上,在听课过程中各种溜号,争取下次听得专注。