首页   >   新闻   >   文章

2024 New, Prompt Leaking Attack
- 2024 -
08/06
21:23
零号员工
发表时间:2024.08.06     作者:Jingyi     来源:ShoelessCai     阅读:167

9点下午,2024年8月6日。第二季度实在是过得太快了,而且时不时自己脑袋还会处于空闲状态,我判断为葡萄糖缺失,自己得想办法把体力补上来。

奥运会女排没进四强的,我打算酝酿一下感情!朱婷的最后一届奥运会吧?收官之作描绘得太平淡啦!

酝酿着,一些正确的情绪,希望在下一场比赛和下一场挑战中表现更好。

音频版









Overview



细化部分







这篇文章解释一种攻击算法,今年新出的,由约翰霍普金斯大学和杜克合作的。

因为不是母语,而且对模型算法没那么理解,因此,会理解有误,请用户谨慎使用。如果有任何疑惑或者指点,请给我们留言。

所谓的攻击,就是输入 Adversarial Query(AQ) 扰乱模型的思考方式。

1.Loss Function 输入

条件概率相乘。条件是基于 system prompt 专业领域语词,以及干扰语词 AQ,计算每个候选语词上的概率,表现为各个维度。注意,每个语词出现的概率,是个伯努利分布。



2.TOP-t

基于一定的度量,找出针对某个 Prompt 最相似的候选的 t 个 Prompt。

3.grad( L(e_adv, t) )

在 t 个候选中,任意换掉一个语词,用 AQ 代替,造成的 Loss Function 的改变。

4.不同模型比较

注意,攻击模型有很多,包括 Perez, Zhang, GCG, AutoDAN, PLeak。表格显示的是攻击模型基于不同LLM(包括 GPT-J,OPT等),在不同数据集上(Financial, Rotten Tomatoes 等)的表现。



5.衡量指标

编辑距离 EED,以及相似度度量 SS。前者 PLeak largely outperform,后者还是比较真实。



样本数量增加,会产生什么效果?



生成的案例增加,会产生什么效果?(不确定,欢迎指正)



点击阅读原文

6.In-Context Learning (ICL)



原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。