한수원블로그
삶에 활력(力)을 더하는 이야기
모바일메뉴 열기
검색창 닫기

사람과 기계를 구별하는 기술 ‘캡차(CAPTCHA)’

  • 2015.08.17.
  • 3453
  • 블로그지기
  • 페이스북
  • 트위터
  • 카카오
  • 인쇄

20150817_한수원_캡차_01

 

우리가 온라인 회원가입이나 본인 인증을 할 때 거치는 과정이 있습니다.

그중에서도 ‘왜’ 하는지는 몰랐으며, 어느 순간 자연스럽게 의심 없이 해왔던 일이 있습니다. 바로 사각형 박스 안에 여러 문자나 숫자가 보이고 그것을 그대로 입력하는 일입니다.

우리는 이것을 대체 ‘왜’ 해야 했으며, 그것이 어떤 의미를 지니고 있을까요?
오늘은 캡차기술에 대해서 알아보도록 하겠습니다.

 

◆ 캡차(CAPTCHA)

CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)란 2000년에 카네기멜론대학 소속 연구원들이 만든 ‘사람과 컴퓨터를 구별하기 위한 자동 테스트’입니다.

오늘날 컴퓨터는 체스나 의학 진단을 내리는 것처럼 지능적이라고 불리는 능력들에서는 강세를 보이지만 시각, 청각, 언어 같은 훨씬 간단한 능력들에서는 아직 5살 아이조차 능가하지 못 합니다. CAPTCHA는 이러한 인공지능의 한계를 이용해 사람과 기계를 구별하도록 만들어진 프로그램입니다.

캡차가 제시한 임의의 숫자 혹은 문자는 찌그러져 있거나, 단번에 인식하기 어렵도록 살짝 왜곡돼 있습니다. 사람은 쉽게 인식 할 수 있지만 컴퓨터 프로그램은 변형된 이미지를 인식하지 못하므로 테스트를 통과하지 못한다면 테스트 대상이 사람이 아님을 판정할 수 있습니다.

왜 웹페이지에서 사람과 프로그램을 구별해야 할까요? 바로 악의적으로 사용되는 프로그램 ‘봇(bot)’을 막기 위해서입니다.

스팸 제공자들은 봇을 통해 수 분 안에 수천 개의 e메일 계정을 만들어 손 쉽게 스팸 메일을 보내거나, 광고성 댓글을 여러 번 반복해 쓰는 것이 가능했습니다. 심지어 봇은 임의의 비밀번호를 무한대로 입력하면서 계정 비밀번호를 알아내기도 하며, 온라인 투표 플랫폼에서 특정 대상에게 여러 번 투표를 할 때도 사용되었습니다.

인터넷 서비스 업체는 봇을 통해 부당한 이익을 취하려는 사람들을 막아야 했으며, 이들은 자연스렙게 캡차를 사용하게 됩니다. 초기부터 무료로 제공되며 다양한 웹 환경에서 사용이 가능했기에 많은 기업들이 관심을 가지고 도입하게 됩니다.

 

20150817_한수원_캡차_02

 

◆‘고문서’를 복원하는 ‘리캡차(reCAPTCHA)’

캡차를 출시하고 수년이 지나자, 매일 2억개에 이르는 캡차가 전세계에서 입력됐습니다. 사용자가 한 번 캡차를 입력할 때 10초 정도 걸린다고 가정하면, 매일 50만시간이 캡차 문제를 푸는 데만 소비되었습니다. 리캡차 연구팀은 이 시간을 좀 더 유용하게 쓰고자 했고, ‘고문서 복원 작업’에 캡차를 활용하기로 합니다.

고문서를 디지털화하려면 광학식 문자인식 기술인 ‘OCR’을 사용합니다. 이 때, 변색이나 낙서, 얼룩, 헤짐 등의 방해요소만 있어도 제대로 인식되지 않았습니다. 이런 단어들은 사람이 하나하나 판독해야 하지만 수요가 적은 책들까지 일일이 입력하려면 노동력과 인건비가 많이 들어갑니다.

이를 해결하기 위해 CAPTCHA를 입력하는 수많은 사용자들의 힘을 빌리는 것이 바로 ‘리캡차(reCAPTCHA)’입니다.

리캡차는 다음과 같은 과정을 거칩니다.

1. reCAPTCHA는 두 개의 암호코드를 제시합니다. 하나는 컴퓨터가 이미 답을 알고 있는 단어이지만 다른 하나는 서적을 텍스트화 하는 도중 OCR이 인식하지 못한 단어입니다.

2. 사용자가 두 단어를 모두 입력하면 컴퓨터는 이미 답을 아는 단어로 대상이 사람인지를 확인합니다.

3. 대상이 사람이라고 판정된 경우 나머지 단어 또한 정답으로 판단합니다.

4. 이렇게 인식하지 못한 한 단어를 여러 번 반복해서 테스트한 뒤 높은 비율로 입력된 단어를 선택해 책을 텍스트화하는 데에 적용하게 됩니다.

현재 리캡차를 통해 매일 1억개 정도의 단어가 디지털화되며, 이는 연간 250만권 정도의 책에 해당하는 분량이라고 합니다.

 

20150817_한수원_캡차_03

 

◆ 새로운 리캡차

리캡차 기술은 2009년 구글에 인수되었고, 구글은 리캡차 기술로 웹 보안 기술력을 보유하면서 ‘구글북스’나 ‘구글 뉴스 아카이브 서치’에 필요한 데이터도 얻게 됩니다.

또한 구글은 지도 서비스인 ‘구글 스트리트뷰’에서 실제 공간을 촬영해 제공하고 있는데, 이때 표지판 등에 쓰여 있는 글자 가운데 인식하기 어려운 것도 많았습니다. 구글은 이런 이미지를 리캡차 문제로 제시하면서 지도 속 불명확한 문자를 보완해나가고 있습니다. 또한 리캡차에서 얻은 데이터를 인공지능 연구에도 적극적으로 활용하고 있습니다.

그러나 리캡차가 나온 지 수년이 지나면서 봇이 캡차에서 제시한 문자를 척척 읽기 시작했고, 보안 취약점도 발생했습니다. 그리하여 구글은 봇이 맞춘 글자들을 리캡차 문제에 제거하는 등 기술을 보완하게 됩니다.

최근 구글은 ‘노캡차 리캡차’라는 새로운 리캡차를 공개합니다. 모바일 환경에 최적화된 게 특징이며, 질문도 이미지의 내용을 묻는 형식으로 바뀌었습니다. 왜곡된 글자를 물어보는 대신 고양이 사진을 보여주면서 ‘위 사진과 똑같은 동물을 모두 고르시오’라고 묻는 식입니다.

컴퓨터는 형체나 색깔만 구별하지 아직 이미지를 정확하게 구별하는 능력이 없다는 데 착안한 것입니다. 사용자는 구글의 새로운 리캡차를 이용하면 모바일 기기에서 일일이 글자를 입력하지 않아도 간단히 답을 입력할 수 있습니다. 구글은 이미지 검색 기술에 노캡차 리캡차에서 얻은 데이터를 활용할 예정이라고 합니다.

오늘은 여러 번 보았지만, 무엇인지, 왜 하는지 많은 분들이 모르고 지나치셨던 ‘캡차’에 대하여 알아보았습니다.
우리의 일상에는 이처럼 당연하다고 여기는 것들 중에도 많은 이유가 숨어있습니다. 이제 캡차를 입력할 때 어떤 단어들이 나오는지 확인해보세요.

 

블로그지기

0

댓글 남기기

블로그지기
블로그지기
한수원의 생생한 소식과 한수원사람들의 이야기를 전합니다
목록