学院新闻

我院最新研究成果被国际顶级安全会议IEEE S&P 2023录用

时间:2023年7月21日 | 来源: | 作者:赵瑞杰、王轶骏

近期,我院网络与系统安全实验室(NSSL-SJTU)团队在文本验证码识别上取得的最新成果已经正式被安全会议IEEE S&P (Oakland) 2023录用。IEEE S&P 全称 IEEE Symposium on Security and Privacy,是网络与信息安全领域四大安全会议之一,被认为是计算机安全领域的最高级别会议,2023年的录取率为17%。

 

题目:GeeSolver: A Generic, Efficient, and Effortless Solver with Self-Supervised Learning for Breaking Text Captchas

作者:赵瑞杰,邓现文,王衍豪,严志聪,韩争光,陈力波,薛质,王轶骏

研究内容

验证码是区分计算机程序和人类的一项重要的安全技术,其中具有代表性的文本验证码由于其易用性在被广泛使用。虽然一些基于深度学习的文本验证码求解器已经显示出优异的结果,但大量人工成本和时间成本的标记过程严重限制了该方法的可用性。此前的一些工作试图使用少量的标记数据建立易于使用的求解器,但是一方面它们复杂的处理过程导致验证码的识别效率低;另一方面,它们仍然面临着无法识别具有复杂安全特征文本验证码的阻碍。为此,本文基于自监督学习提出了一种通用、高效、低成本的文本验证码求解器,方案概览如图1所示。

 

1:GeeSolver验证码求解器方案示意图

本研究通过首次在验证码识别中应用基于掩码自编码器的自监督训练范式,构建了潜在表征提取器,可以从字符的局部信息中提取高质量的潜在表征用来推断出整个字符。图2中的案例表明,训练后的编码器成功地达到预期。

 

2:重构结果

在多个真实文本验证码方案上的实验结果表明,仅需少量标记样本训练的GeeSolver所取得的识别准确率领先于其他先进验证码求解器。得益于出色的局部特征提取能力,GeeSolver能够实现对多种难以攻击的复杂文本验证码方案进行精准识别。此外,本方案使用台式机处理器在25毫秒内完成对单张文本验证码图片识别,具有极高的识别效率。本研究对帮助安全专家重新审视文本验证码的设计和可用性具有重要意义。

 

3:GeeSolver识别性能

 

技术特征

相比传统验证码求解器,GeeSolver的设计符合如下技术特征。

通用性:求解器应采用通用方法来识别具有不同安全特征的各种验证码方案,这是验证码解算器长期可用的前提条件。此外,求解器应该具有较高的攻击成功率,因为不成功的攻击可能会激活相关的保护机制。

高效性:求解器应该在不依赖复杂的预处理机制的情况下破解验证码,以便进行实时验证码识别。

低成本:由于标注验证码是一项耗时且劳动密集型的任务,因此需要提出一种方法来使用少量的标注样本来训练求解器。通过引入自监督训练范式,本方案大幅降低了对标注样本的依赖。

此前的解决方案大多依赖预处理后更清晰或更简单的验证码图像,这降低了求解器识别的难度。随着验证码的安全特征变得更加复杂,这些求解器的性能随之显著下降。 因此,本方案以截然不同的思路训练求解器的潜在特征提取器。在训练期间使用极难识别的高掩蔽率的验证码作为输入,使得编码器能够仅从局部信息中学习到有效的潜在表征来重建目标验证码。由于编码器可以在上述极端情况下提取有用的潜在表征用于重建,因此GeeSolver能够轻松识别具有更丰富信息的文本验证码。

该工作由上海交通大学主导,与奇安信集团合作完成。论文的共同第一作者为网络空间安全学院博士生赵瑞杰(左一)和邓现文(左二),指导老师为薛质教授(右二)和王轶骏老师(右一)。

上海交通大学网络与系统安全实验室(NSSL)主要围绕软件分析和漏洞挖掘、网络对抗与威胁监测、恶意代码检测与分析、人工智能与网络安全等方向开展研究。近3年来,网络与系统安全实验室在相关领域国际顶级学术会议如IEEE S&P、AAAI、ACM CCS、SIGKDD、IJCAI、USENIX Security和重要国际期刊如IEEE TII、IEEE IoTJ等发表学术论文20余篇。

Copyright © 2017 - 2019 上海交通大学网络空间安全学院 沪ICP备05052060号