9点下午,2024年8月6日。第二季度实在是过得太快了,而且时不时自己脑袋还会处于空闲状态,我判断为葡萄糖缺失,自己得想办法把体力补上来。
奥运会女排没进四强的,我打算酝酿一下感情!朱婷的最后一届奥运会吧?收官之作描绘得太平淡啦!
酝酿着,一些正确的情绪,希望在下一场比赛和下一场挑战中表现更好。
音频版
Overview
细化部分
这篇文章解释一种攻击算法,今年新出的,由约翰霍普金斯大学和杜克合作的。
因为不是母语,而且对模型算法没那么理解,因此,会理解有误,请用户谨慎使用。如果有任何疑惑或者指点,请给我们留言。
所谓的攻击,就是输入 Adversarial Query(AQ) 扰乱模型的思考方式。
1.Loss Function 输入
条件概率相乘。条件是基于 system prompt 专业领域语词,以及干扰语词 AQ,计算每个候选语词上的概率,表现为各个维度。注意,每个语词出现的概率,是个伯努利分布。
2.TOP-t
基于一定的度量,找出针对某个 Prompt 最相似的候选的 t 个 Prompt。
3.grad( L(e_adv, t) )
在 t 个候选中,任意换掉一个语词,用 AQ 代替,造成的 Loss Function 的改变。
4.不同模型比较
注意,攻击模型有很多,包括 Perez, Zhang, GCG, AutoDAN, PLeak。表格显示的是攻击模型基于不同LLM(包括 GPT-J,OPT等),在不同数据集上(Financial, Rotten Tomatoes 等)的表现。
5.衡量指标
编辑距离 EED,以及相似度度量 SS。前者 PLeak largely outperform,后者还是比较真实。

样本数量增加,会产生什么效果?

生成的案例增加,会产生什么效果?(不确定,欢迎指正)
点击阅读原文
6.In-Context Learning (ICL)