knights Frontier

논문 리뷰

dudu9 2026. 5. 31. 20:34

 

논문 리뷰 준비를 하며。。。

 

이번에 리뷰해 볼 논문 은 USENIX Security Symposium의

“Are CAPTCHAs Still Bot-hard? Generalized Visual CAPTCHA Solving with Agentic Vision Language Model”

논문 입니다。 끊어서 해석해 보자면

"Are CAPTCHAs Still Bot-hard?" → "CAPTCHA는 아직도 봇이 풀기 어려운가?"

"Generalized Visual CAPTCHA Solving" → "범용적인 비주얼 CAPTCHA 풀이"

"with Agentic Vision Language Model" → "자율 행동하는 Vision Language Model을 이용한"

더보기

"VLM 에이전트로 어떤 비주얼 CAPTCHA든 풀 수 있다 — CAPTCHA는 더 이상 봇에게 어렵지 않다" 로 해석할 수 있습니다。

제목에 담긴 뉘앙스를 해석해 보자면 "아직도 bot-hard하냐?"고 물어보는 건데, 논문 내용이 그 답이 "아니오" 라는 걸 실증하는 구조 입니다。

 

어휘 설명

* Bot-hard = 봇은 못 풀고 인간만 풀 수 있다는 CAPTCHA의 핵심 가정

* Agentic = 단순히 질문에 답하는 AI가 아니라, 스스로 계획 세우고 행동까지 하는 AI 에이전트

* CAPTCHA = Completely Automated Public Turing test to tell Computers and Humans Apart = 컴퓨터와 인간을 구별하기 위한 완전 자동화된 공개 튜링 테스트、 흔히 로그인 할때 자주 볼 수 있는 사람인지 확인하는 시스템 입니다。 밑에 사진 같은 서비스로 이해하면 됩니다。존재하는 이유는 크게 콘서트 티켓 봇의 티켓 싹쓸이를 막기위하여、 비밀번호 무작위 대입으로 인한 계정 탈취를 막기 위하여 정도로 이해할 수 있습니다。

 

ex) captcha 에시 이미지

 

 

 

 

논문이 다루는 주제 

 

이 논문이 다루는 주제는 한줄로 요약하자면 

"VLM(Vision Language Model) 에이전트를 이용해서 어떤 종류의 비주얼 CAPTCHA든 범용으로 풀 수 있다" 입니다。

 

 

 

크게 다음과 같이 3가지의 주제를 다루고 있습니다。

 

1。 CAPTCHA의 핵심 가정에 대한 도전

기존 CAPTCHA는 "AI는 못 풀고, 인간만 풀 수 있다(bot-hard)"는 전제로 만들어졌습니다. 근데 GPT-4 같은 최신 VLM이 나오면서 그 전제가 흔들리고 있는데, 실제로 얼마나 무너졌는지 실험으로 보여주고 있습니다。

 

2。 Hallingan 시스템 설계

  • 1단계 — 목표 파악: "뭘 해야 하는 CAPTCHA인지" 이해
  • 2단계 — 추상화: CAPTCHA 구조를 메타모델로 변환 (프레임, 요소, 키포인트로 분해)
  • 3단계 — 탐색 문제로 환원: 풀이 과정을 Python 코드로 자동 생성해서 실행
  • 어떤 CAPTCHA든 3단계로 풀어버리는 범용 VLM 에이전트를 만들었습니다。

3。 실제 환경에서의 검증

실험실 벤치마크뿐 아니라, 실제 CAPTCHA farm(2Captcha)에 침투해서 30일 동안 미지의 CAPTCHA들을 풀어 봤습니다。

 

 

 


 

 

기존의 CAPTCHA 방식의 한계점

 

한계 1。 특화된 딥러닝 해결기

- 특정 CAPTCHA 유형에만 최적화、 새로운 유형이나 약간의 바뀐 도전 과제가 나오면 거의 무용지물

 

한계 2。 일반 웹 내비게이션 에이전트

- HTML DOM 파싱에 의한 의존 - CATPCHA가 iframe/canvas로 숨기면 실패、 복잡한 시각 추론(객체매칭、 3D공간、 회전 등) 과 연속적 행동(드래그、 슬라이드에 약함。

 

한계 3。 단순 CoT 프롬프팅

- 환각이 심하고、 장기적 계획、탐색 능력 부족

 

한계 4。 공격자-방어자 구조

- 방어자가 생 유형 도입하는 비용보다 공격자가 새 솔버 만드는 비용이 훨씬 적어 구조적으로 방어자에게 유리한 구조이다。

 

 

 

 


 

 

 

왜 이 문제가 중요한가?

 

1. CAPTCHA는 지금 웹 보안의 주류 방어선이다.

2. 

 

 

 

 

 

 

 


 

 

 

논문의 배경 / 문제 정의

 

 

CAPTCAH의 목적

CAPTCAH 는 사용자가 인간인지 봇인지를 구분하기 위한 도전-응답 테스트로、주로 웹사이트에서 자동화된 악용(스팸, 크롤링, 브루트포스 공격 등)을 방지하기 위해 20년 이상 사용되어 온 대표적인 보안 메커니즘 입니다。

 

 

시각 CAPTCHA의 현황 (2024년 기준)

  • 상위 100만 개 웹사이트 중 약 25만 6천 개 이상이 CAPTCHA를 사용
  • 그중 94%가 시각 CAPTCHA (reCAPTCHA v2, hCaptcha, GeeTest 등)
  • 시각 CAPTCHA는 이미지 기반 퍼즐(객체 식별, 슬라이더, 회전, 퍼즐 맞추기 등)을 주로 사용

기본 가정

 

  • 시각 CAPTCHA의 핵심 전제는 “봇에게는 어렵고(bot-hard), 인간에게는 쉽다(human-friendly)”

 

 

기존 공격자들의 대응

"vendors can easily switch to out-of-distribution visual challenge... with very low cost" "defenders can quickly adopt an unseen visual challenge, almost nullifying all the efforts of the attacker"

특정 CAPTCHA 하나만 공략하는 방식이 었기 때문에, 방어하는 쪽(벤더)에서 문제 유형을 조금만 바꾸면 바로 무력화되었습니다。 논문은 이걸 "공격자-방어자 구도에서 방어자가 압도적으로 유리한 상황" 이라고 봤습니다。

 

 

판이 바뀐 계기

"we are now officially in the age beyond CAPTCHAs" "the emergence of large language models such as GPT-4 has further complicated the problem of chatbot detection"

특정 유형만 공략하던 시대에서, 어떤 유형이든 이해하고 풀 수 있는 AI 등장

 

 

논문에서 가장 강조하는 현대적 배경

 

1。 범용 AI 모델(VML)등장

 

2。 에이전트형 AI

단순히 답을 맞추는 것을 넘어, 자율적으로 계획하고 외부 도구를 사용해 실제 웹사이트와 상호작용할 수 있게 됨.

 

3。 CAPTCHA의 구조적 취약점

비밀번호와 달리 여러 번 시도를 허용 (사용자 실수를 고려)

낮은 통과 임계값(1~3회) 정책이 대부분 → 해결률 50%만 되어도 5번 시도 시 성공 확률 96.8%

 

→ 이러한 변화로 인해 공격자가 방어자보다 유리한 상황이 처음으로 발생할 수 있게 되었다는 것이 논문의 핵심 배경