知识检索增强系统,是已被用于大模型的技术之一,能有效解决大模型存在的知识更新不及时和幻觉等问题。知识检索增强的存在使得大模型无需通过模型训练来适应下游任务,仅通过外挂的知识库,检索与用户所提的问题最相关的文本,并将这些文本集成为大模型的输入,从而优化模型生成的内容。
该技术虽实用且使用门槛较低,但存在风险。已有研究表明,只需向知识检索增强的知识库中注入一些有害信息,就能诱导大模型产生不当的回答。可见知识检索增强系统本身并不安全。更令人担忧的是,知识库中的信息通常是私有的,会不会存在被泄露的风险?
为了验证这一问题,近日,湖北大学人工智能学院科研助理李钰颖与副教授杨洋、华中科技大学电信学院刘高扬博士与王琛副教授合作设计了一种新的算法,旨在通过成员推断攻击(MIA, Membership Inference Attack)来判断知识检索增强系统的知识库中所储存的信息内容。
图 | 李钰颖
成员推断攻击,是用来测试模型隐私性的一种通用技术。它的工作原理可以理解为是在玩一个猜谜游戏:通过观察模型的损失值、置信度、困惑度等信息,来推测它是否“见过”某个样本。
该团队提出的新算法相对于传统成员推断攻击的优势在于:该算法仅通过一个黑盒的应用程序编程接口(API, Application Programming Interface),无需介入模型训练过程,也无需知道模型内部信息,仅通过模型输出就能有效判断某个信息是否存在知识检索增强的知识库中。
实验结果显示,本方法能够达到80%以上的攻击精度,证明知识检索增强系统的知识库的确存在隐私泄露的风险。目前,相关论文以《眼见为信:针对检索增强生成模型的“黑盒”会员推断攻击》为题发表在论文预印本网站arXiv。
https://arxiv.org/abs/2406.19234
图 | 论文(来源:arXiv)
该研究可能会催生一系列新的安全协议和行业标准,让AI变得更加可信。在未来,这可能会成为数据版权保护的新方法,让数据所有者能更好地维护自己的权益;也可能会衍生出一个APP来检测个人信息是否被不正当用于AI系统,以增强个人对隐私数据的控制力;同时公司和机构也可以定期使用这种技术对知识检索增强系统进行审核,确保没有意外泄漏用户信息或存储不当数据。
图片来源:论文
目前,课题组已经设计出一套攻击方案,并证明了该方案的可行性,但是这一系列研究不会止步于此。该团队正在加紧研究模型的记忆和正向推理过程中信息流动和处理过程,深入探究可能导致隐私泄露的薄弱环节。同时课题组正在研究模型信息回溯和信息整合的内在激励,为从根本上解决大模型数据隐私安全问题提供扎实的理论和实践基础。
本工作由湖北大学人工智能学院、智能感知系统与安全教育部重点实验室以及华中科技大学电子信息与通信学院、智能互联网技术湖北省重点实验室联合发布,该成果将推广至国家电网等信息安全敏感单位,目前正在洽谈中。
图 | MIT Technology Review报道
内容来源:MIT Technology Review与DeepTech深科技专访
(审核:田牧、杨宁欣)