검색엔진 알고리즘의 변화

검색엔진 알고리즘의 변화 검색엔진 알고리즘의 변화

현재 검색엔진에서는 당연하게 활용되는 프리텍스트 인덱싱 기법, 정보의 관련성에 기반한 대용량 정보 검색 시스템, 다국어 검색 기법, 비정형 데이터에 대한 검색 기법들은 사실 1980년 이전에 이미 개발되어 있었던 기술입니다. 검색엔진의 기본 원리는 인터넷의 출현보다도 훨씬 이전인 1세대 컴퓨터가 등장했던 1940년대 정보 추출(Information Retrieval)의 개념에서 찾아볼 수 있다는 점에서 우리와 80년 이상을 같이 해왔었다고 할 수 있습니다.

1995년경 인터넷 혁명이 시작되고 나서 수 많은 검색엔진이 출몰했습니다. 우리들은 이들 검색엔진들의 성패를 지켜봐왔고 이제 최근에 들어서는 구글, 그리고 국내에서는 네이버와 구글로 검색 시장이 정리되면서 검색엔진 분야에 더 이상 역동적인 변화는 없어진 것이 아닌가라는 생각을 하게된 것 같습니다. 하지만 최근들어 GPT3.5와 함께 출현한 ChatGPT를 보면서 많은 이들이 검색 분야가 또 다시 급변하는 중이라고 보고 있는 것 같습니다.

과연 검색엔진이 어디까지 발전할까요? 그 미래의 모습에 대해 우리의 상상력을 자극해주던 다양한 영화들이 있었습니다. 이런 영화 중에서 필자는 2015년 초 개봉되었던 엑스마키나라는 영화를 가장 좋아합니다. 이 영화는 전 세계 검색엔진의 95%를 점유하고 있는 검색엔진 “블루북”이란 회사의 회장인 네이튼이 블루북의 천재 개발자인 케일렙(Caleb)을 자신의 개인연구소로 초대해서 개발을 마친 인공지능 로봇, 에바(Ava)가 진정한 자의식을 가지고 있는 지를 테스트하는 튜링테스트에 참여시킨다는 에피소드를 중심으로 다루고 있습니다. 이 영화에서 케일렙은 에바가 인공지능으로 움직이는 로봇임을 알면서도 그녀를 좋아하고 사랑하게 되면서 에바의 주장에 빠져 그녀가 원하는데로 그녀의 탈출을 돕게 됩니다. 이 영화는 이 이야기를 통해 궁극적으로 인간을 인공지능과 구분할 수 있게 하는 본질적 차이점이 무엇인지를 우리들에게 묻고있습니다.

네이튼 회장은 어느 날 케일럽에게 에바의 두뇌(영화 속에서는 마인드라고 부름)를 이루는 젤리형태의 하드웨어를 보여주며 이것이 어떤 운영시스템으로 돌아가는지 맞춰보라며 질문합니다. 케일럽이 답을 못하자 네이튼 회장은 에바의 운영시스템이 블루북(검색엔진)이라고 말하주며 이런 이야기를 들려줍니다.

“검색엔진의 출현은 아직 내연기관이 발명 되지 않은 세상에 원유가 등장한 것과 같아. 다른 경쟁사들은 검색엔진을 쇼핑이나 소셜미디어 처럼 돈을 버는 도구라고 생각해서 “검색엔진이 사람들이 무엇을 찾고 있는 지를 보여주는 지도”라고 생각하지만, 사실 “검색엔진은 사람들이 어떻게 생각하는지를 보여주는 지도”라구.”

이 영화 속 대사는 검색엔진이 어떤 질문에 대한 답을 찾기 위한 엔서링 머신”이 될 것이라는 예언을 넘어 인간들이 검색 시퀀스를 기반으로 사람들이 어떤 방식으로 자신의 생각을 구체화하고 행동을 결정하는 지를 보여주는 즉 인간 행동의 숨겨진 의도를 보여주는 “맥락 머신”이 될 것이라 예언하고 있다고 생각합니다.

AI를 내재화한 검색엔진은 전 세계의 모든 컴퓨터 속에 담겨져있는 컨텐츠를 읽고 분석하고 이를 연계하여 인간이 입력한 쿼리라는 요구에 대한 단순한 답변만에서 머물지 않고, 자발적으로 생각하고 판단하여 우리가 원할 것을 요구하기도 전에 미리 제공해줄 수있는 나아가 단순 정보의 제공이 아니라 기대받고 있는 서비스 자체를 제공하는 수준으로 진화해 갈 것입니다. 이런 과정에서 검색엔진이 발전하여 스스로 자의식을 가진 OS로 발전하는 날을 우리 생이 끝나기 전에 만날 지도 모르겠습니다.

물론 현재의 검색엔진은 엑스마키나의 에바의 OS에 모습을 하고 있지도 않을 뿐만 아니라 그런 레벨에 이르지 못하고 있습니다. 하지만 구글이 2015년의 “랭크브레인(Rankbrain)”, 2019년의 버트(BERT), 2022년의 MUM 등을 보면 특히나 최근의 ChatGPT가 보여준 가능성을 보면 이런 영화 속 상상이 실제가 될 그런 날이 멀지 않은 것 같다는 생각을 하게됩니다.

검색은 모든 인터넷 서비스의 가장 기본적이면서도 가장 최정점의 위치에 있는 서비스입니다. 네이버와 구글이 각각 국내와 세계에서 가장 가치가 높은 IT기업인 이유가 거기에 있다고 할 수 있습니다. 검색엔진에 대한 여러 기업들의 투자 노력은 검색 기술이 새로운 챕터로 들어가게 하는 원동력이 되고 있습니다.

그래서 앞으로도 검색 알고리즘은 지속적으로 알고리즘을 업데이트해 갈 것입니다. 검색 발전의 역사는 검색 알고리즘 변천의 역사라고 할 수 있습니다. 알고리즘이란 문제를 해결하기 위한 절차나 방법을 의미하는데, 크롤링, 인덱싱, 그리고 랭킹이라는 검색의 기본 기능 요소를 통해 정보를 찾는 이에게 그가 원하는 정보를 정확하고 빠르게 매칭시켜주려고 각 기능 요소별로 다양한 알고리즘을 채용해왔고 또한 이를 업데이트하면서 발전시켜습니다.

여기서 주목해야하는 것은 바로 구글의 검색 알고리즘이라고 불리는 것들이 사실은 어떤 특정 문제를 해결하는 대응 행위로 만들어지는 것이라는 점입니다. 인터넷이 출현한 이후로 검색엔진이 보편화되고 검색결과페이지가 가지는 상업적 가치에 사람들이 눈을 뜨게되면서 자연스럽게 고도화됨과 동시에 늘어나는 스패밍 행위(의도된 메시지의 노출을 강화하고자 검색 결과의 순위에 영향을 미치기 위해 검색엔진의 가이드 라인을 위반하는 행위를 말함. 검색엔진의 가이드라인을 준수하는 범위에서 검색결과에 긍정적인 영향을 미치려는 노력을 검색엔진최적화(Search Engine Optimization, SEO)함. 스패밍행위를 그래서 블랙햇SEO라고도 부름)가 역설적으로 검색엔진 발전의 원동력이 되어온 것이라 할 수 있습니다.

그런 의미에서 검색엔진 알고리즘의 발전은 스패밍 행위를 막아내기 위한 검색엔진들의 투쟁의 역사라고 할 수 있습니다. 스패밍행위와의 전투 최전선에 있는 검색엔진의 대표인 구글이 그간 진행해온 검색 알고리즘 업데이트의 기록을 보면 이런 점에 바로 동의 할 수 있을 것입니다.

검색엔진 알고리즘의 발전을 필자는 크게 7단계

(1) 정보검색의 시대(1945년-1988년):

인터넷 등장 이전까지의 정보 검색이라 불리던 때로서, 검색의 인덱싱 및 다양한 검색 기법과 관련한 알고리즘이 개발되던 시기.

(2) 웹검색의 탄생기(1989년 ~ 1996년):

웹의 탄생부터 구글의 등장 전까지의 시기로 이 시기에 비교적 작은 단위이지만 웹검색의 기본요소인 크롤링과 인덱싱 그리고 랭킹의 기본 알고리즘이 개발되던 시기

(3) 웹검색 성장기(1997년 ~ 2001년):

검색엔진이 사업적으로 큰 의미를 가지기 시작했으며 초기 단계의 다양한 스패밍행위가 나타나던 시기로 검색 알고리즘을 통해 스패밍행위에 대응을 시작

(4) 웹검색의 성숙기(2002년 ~ 2010년):

가이드라인을 제시하며 컨텐츠 제공자들과 검색결과를 개선하기 위한 노력을 강화하면서 한편으로 급속히 늘어나는 다양한 스패밍행위에 대응하는 알고리즘을 개발과 업데이트가 본격적으로 진행된 시기. 이 시기에 스패밍행위에 대한 대응 노하우가 빠른 속도로 쌓임.

(5) 모바일 검색 성장기(2011년 ~ 2014년):

스패밍행위에 대한 이해와 전반적인 패턴 분석이 마무리되면서 일상적인 알고리즘 업데이트를 통해 스패밍행위를 상시 알고리즘 업데이트를 통해 애자일하게 대응하는 체계로 바뀜. 한편 모바일 검색의 급속한 보급으로 모바일 환경에 최적화된 컨텐츠의 노출을 촉진하는 알고리즘이 강화됨.

(6) 인공지능 도입기(2015년 ~ 2022년):

기존에 검색되었던 적이 없었던 쿼리나 모호성이 강한 쿼리 등에 대해 보다 양질의 검색결과를 낼 수 있도록 인덱싱과 랭킹에 기계학습 인공지능을 도입한 시기. 앞으로의 검색알고리즘의 업데이트는 그 양과 질에서 기존의 업데이트를 크게 넘어설 것임.

(7) 인공지능에 의한 새로운 성장기(2023년~):

마이크로소프트의 지원을 받은 오픈AI가 공개한 ChatGPT의 출현과 마이크로소프트의 검색엔진 Bing의 결합을 통해 검색엔진의 새로운 유현이 제안되고 구글도 이에 대응하기 위해 BARD라는 이름의 인공지능을 기반으로한 검색 서비스를 시작합니다. 이 글을 쓰는 2023년 3월 시점에서 볼 때 어떤 방향으로 검색이 진화해갈지 모르지만, 분명한 것은 새로운 변화가 시작되었다는 점입니다.

정보검색의 시대(1945년에서 인터넷 등장 이전까지)

  • 1945년 “정보검색(IR, Information Retrieval!)”란 단어가 바너바 부쉬(Vannervar Bush)의 논문에서 처음 사용. 이후 1950년대 초반 1세대 컴퓨터가 등장한 시기에 미국에서 빈번히 사용됨.
  • 1949년 워렌 위버(Warren Weaver), 앤드류 부스(Andrew D.Booth)에 의해정보검색과 기계번역에 대한 아이디어가 제시됨. 이 이론들은 1960년대에 이르러 시스템화됨.
  • 1960년대 Free-text indexing기법이 보편화됨.
  • 1966년 시릴 클레버돈(Cyril Cleverdon)에 의해 재현율, 정황율 기준이 확립됨.
  • 1968년 제라드 살튼(Gerard Salton)이 다국어 검색 기법을 제시함. 관련성 피드백(Relevance feedback)등의 새로운 검색 기법 및 BRS라는 대용량 정보검색 시스템이 구현됨.
  • 1970년대 전자문서의 시대로 검색시스템의 상용화가 이뤄짐. Dialog, Orbit, BRS등. 64개국 26,000개의 도서관을 묶은 세계 최대 규모의 도서관 네트웍 OCLC의 등장도 이 시기임. 이 시기에 데이터베이스 시스템이 등장하고 계층모델과 네트웍 모델을 기반으로 향후 관계형과 개체형 등으로 발전을 거듭.데이터베이스는 데이터 관점에서 관리중심, 즉 결정구조를 중시한 SQL-MIS로 발전. 검색엔진은 정보관점에서 검색중심 즉 비정형 구조의 정보와 자유 검색 등을 발전시키는 방향으로 발전.
  • 1980년에 들어오면서 관련 하드웨어 가격이 내려가고 원문 검색에 대한 사용자의 요구가 점점 증대. 이에 맞춰본격적인 전문 검색엔진이 등장.

웹검색의 탄생기(1989년에서 1996년까지,구글 등장 이전까지)

  • 1989년 팀버너스리에 의해 월드와이드웹 제안.팀버너스리가 직접 월드와이드웹의 프로토콜인 http, 마크업랭귀지인 html, 웹브라우저이자 에디터인인Worldwideweb, 최초의 웹서버 소프트웨어인 CERN httpd, 최초의 웹서버이자 최초의 웹페이지 인 hhtp://info.cern.ch을 발표(이 때 팀버너스리가 개발한 서버나 소프트웨어들은 스티브잡스가 애플에서 쫓겨나고 서립한 NeXT사의 워크스테이션에서만 돌아갔다고 함)
  • 1990년 웹서비스 리스트가 늘어나는 웹서버들에 의해 부족하게되자맥길대학(McGill University)에 재학 중이던 앨런 엠티지(Alan Emtage)가 최초의 인터넷 기반의 검색엔진이라 불리는 Archie를 개발해서 FTP(File Transfer Protocol)서버를 검색할 수 있게 해줌.
  • 1993년 모자이크(Mosaic) 브라우저 론치. 몇 달 후에 MIT의 매튜 그레이(Matthew Gray)가 개발한 월드와이드웹 원더러(Wide Web Wanderer) 론치, 당시 웹서버의 수가 130개에 이름. 그리고고퍼(Gopher) 서버에 올려진 자료를 검색하는 검색엔진으로 ‘베로니카(Veronica; Very Easy Rodent Oriented Net-Wide Index to Computerized Archives)’가 등장
  • 1994년 스탠포드 대학원(Stanford University)생이었던 제리양(Jery Yang)과 데이비드 파일로(David Filo)가디렉토리형의 야후의 원형인 “Jerry and Daivd’s Guide to the World Wide Web”를 시작. 카네기멜론대학의 마이클 몰딘이 개발한 Lycos, 웹크롤러(www.webcrawler.com)초기 웹 검색엔진 시작. 당시의 웹서버가 2738개에 이름
  • 1995년 한글과 컴퓨터가 심마니를 론칭. 이 때 코시크(www.kor-seek.com)라는 한글 검색엔진 도 등장. 구글의 창업자 래리페이지와 세르게이 브린이 스텐포드대학에서 만남.
  • 1996년 디지털이퀴프먼트사에서 운영했던 알타비스타 등장.(DEC가 개발한 64비트 알파칩), 김성훈씨가 개발한 카치네(www.kachi.com), 와카노(www.wakano.com), 미스다찾니(www.mochanni.com)등 다양한 검색엔진들이 국내에 소개됨. 래리페이지와 세그레이브린이 구글의 원형이되는 BackRub이라는 검색엔진의 공동 개발에 착수.

웹검색의 성장기(1997년부터 2001년까지, 구글 등장 이후)

  • 1997년 세르게이 브린(Sergey Brin)과 래리 페이지(Larry Page)가 ‘com’의 도메인을 등록. 아이디어랩의 빌그로스가 Goto.com(이후 오버쳐로 이름변경)이란 이름의 검색광고 회사 설립.당시 웹사이트가 10만개를 넘어섬.
  • 1998년 웹검색 서비스 구글 공개, 12월 ‘PC Magazine’에서 Top 100웹사이트 선정에서 검색엔진으로 선정되면서 구글을 ‘매우 관련성 높은 검색 결과를 표시하는 놀라운 재주’를 가진 회사로 소개됨
  • 1999년 한국 최적의 자연어검색 엠파스 등장. Goto.com상장(이후, 야후, 올더웹, 알타비스타, MSN, AOL, 라이코스 등과 검색 광고 계약을 체결)
  • 2000년 구글은한국어, 일본어, 중국어 등 15개 언어로 확장, 350개의 광고주를 모아서 구글 애드워즈 개시(CPC방식이 아님), 12월 구글 툴바(google Toobar) 출시
  • 2001년 구글이13억페이지를 인덱스. Goto.com이 오버추어로 이름 변경.

웹검색의 성숙기(2002년부터 2010년까지, 검색 알고리즘의 발전과 스팸전쟁의 시작)

  • 2002년 구글 애드워즈가 Pay per click 방식을 도입. 페이지랭크 업데이트
  • 2003년
    • 보스톤(Boston, 2003.02) – 알고리즘과 인덱스 리프레쉬를 월단위로 수행(SES Boston 컨퍼런스에서 발표)
    • 카산드라(Cassandra, 2003.04) -링크 퀄리티 이슈, 즉 동일 오너가 보유한 도메인으로부터의 다량의 링크 문제와 히든 텍스트와 링크에 대한 보완 알고리즘
    • 도미닉(Dominic, 2003.05)- 구글 크롤링 로봇 로직과 백링크 인식과 관련한 업데이트
    • 에스메랄다(Esmeralda, 2003.06) – 구글 댄스라 불리던 월단위의 인덱스 재조정이“Everflux”란 이름으로 변경되면서 구글의 주요 기초 구조에 큰 변화가 있었음
    • 프릿츠(Fritz, 2003.07) – 월단위 인덱스 재조정이 종료되고 상시 지속적인 업데이트 방식으로 변경되면서 인덱스가 일단위로 바뀜
    • 서플리멘탈 인덱스(Supplemental Index, 2003.09) – 더 많은 웹 도큐멘트를 인덱스하면서도 퍼포먼스상의 희생이 없도록 일부 결과를 Supplemental Index로 나눠 처리.
    • 플로리다(Florida, 2003.11) – 키워드 스터핑 등의 이전 시대(90년대)의 SEO 기법 등에 대한 패널티 성격의 업데이트.
    • 오픈텍스트, 알타비스타, 잉크토미, 구글 등 타사의 검색엔진을 이용하던 수작업을 통해 생성되는 디렉토리 서비스의 대표주자야후가 키워드 광고 업체인 오버추어(Overture)인수 후 자체 검색엔진 개발 시작
  • 2004년
    • 오스틴(Austin, 2004.01) – 보이지 않는 텍스트나 메타 태그 스터핑 등의 기법을 쓰지만, 플로리다 업데이트에서 제거하지 못했던 웹페이지들에 대한 처리. Hilltop이란 알고르즘을 통해서 페이지 연관성을 좀더 중요하게 고려하기 시작
    • 브랜디(Brandy, 2004.02) – 대규모의 인덱스 확장, 동의어 등을 파악하거나 검색 의도를 이해하게하는 LSI(Latent Semantic Indexing)기법의 도입, 앵커 텍스트의 연관성에 보다 주목하는 알고리즘.
    • 8월에 구글 IPO
  • 2005년
    • 노팔로우(Nofollow, 2005.01) – 아웃바운드 링크를 통해 랭크에 영향을 주려는 시도를 차단하기 위해서, 야후, 마이크로소프트와 함께 구글이 발표.
    • 알레그라(Allegra, 2005.02) – 의심스러웠던 링크들에대한 패널티 시행 및 LSI 변화 등이 있었던 것으로 보이나 명확하지는 않음.
    • 버번(Bourbon, 2005.05) – 중복 컨텐츠와 캐노니컬(www vs non-www)에 대한 업데이트.
    • 개인화 서치(Personalized Search,2005.06) – 서치 히스토리를 기반으로 한 개인화 로직의 반영.
    • XML Sitemaps(2005.06) – 웹마스터 툴에 XML형식의 사이트맵을 업로드함으로서 크롤링과 인덱싱의 효율을 제고
    • 재규어(Jagger, 2005.10) – 저품질의 링크, 특히 상호 링크나 링크 팜 그리고 유로 링크에 대한 제재를 위한 업데이트.
    • 구글 로컬/맵(Google Local/Maps, 2005.10) – 2005년 3월에 오픈한 구글 로컬 비지니스 센터(LBC)에 구글 맵 데이터를 통합하는 업데이트
    • 빅대디(Big Daddy, 2005.12) – URL캐노니컬의 처리와 리다이렉트 등 몇 가지 테크니컬 이슈 등을 처리하기 위한 업데이트로서인프라스트럭처에 대한 업데이트인 관계로 이후 수개월에 걸쳐 진행됨
  • 2006년
    • 서플리멘탈 업데이트(Supplemental Update, 2006.11) – 서플리멘탈 인덱스에 변경을 준 업데이트로 필터링된 웹 페이지들의 처리에 관한 업데이트임. 구글은 패널티는 아니라고 주장함.
  • 2007년
    • 유니버설 서치(Universal Search, 2007.5) – 전형적인 알고리듬 업데이트는 아니지만, 구글이 기존의 웹서치 결과에 뉴스, 비디오, 이미지, 로컬 검색 결과를 통합하면서 기존 웹검색 검색결과 페이지의 기본 포맷에 큰 변화.
  • 2008년
    • 구글 서제스트(Google Suggest, 2008.08) – 검색어 입력창에 단어를 입력하는 순간 관련된 검색어를 드롭박스 형식으로 보여주는 서제스트 기능 개시. 향후 입력중인 구글 검색어에 맞춰 검색 결과가 바뀌는 구글 인스턴트의 초석이됨
  • 2009년
    • 캐노니컬 태그(Rel-canonical tag, 2009.02) – 마이크로소프트, 야후와 함께 구글이 캐노니컬태그를 지원하기로 발표. 이를 통해서 방문자들에게는 영향을 주지 않으면서 검색 로봇에게 URL정규화에 대한 신호를 줄 수 있게 됨.
    • 빈스(Vince, 2009.02) – 빅 브랜드들의 브랜드 관련 키워드의 검색 결과에서 이들 브랜드의 정보가 명확히 검색결과가 나오게한 업데이트로서 광고주들의 입장에서는 중장기적으로 큰 임팩트가 있었던 업데이트.
    • 카페인 프리뷰(Caffeine, 2009.08) – 클롤링의 속도를 높히고 인덱스 확장 그리고 인덱싱과 랭킹에의 반영을 실시간으로 처리할 수 있는 인프라스트럭처 레벨의 업데이트인 카페인의 프리뷰 성격의 업데이트. 카페인 업데이트의 최종 개시는 북미의 경우 2010년 초부터부터 여름까지 지속됨.
    • 리얼타임서치(Real-time Search, 2009.12) – 트위터 피드, 구글 뉴스, 새롭게 인덱스된 컨텐츠 그리고 다른 많은 정보원들을 특정 영역의 키워드 검색결과 페이지에 통합.
  • 2010년
    • 메이데이(May Day, 2010.05) – 롱테일 트래픽에 영향을 준 업데이트로서 저품질 컨텐츠(Thin Contents)를 가진 큰 스케일의 웹사이트에 상당한 트래픽 저하를 가져다 준 업데이트로 향후 판다 업데이트의 출현을 암시하는 듯한 업데이트
    • 카페인(Caffeine Rollout) – 구글의 검색 속도를 높힘과 동시에 크롤링과 인덱싱을 훨씬 강하게 연계시킴으로서 인덱스된 내용이 50% 이상 신선해진 결과를 가져온 업데이트
    • 브랜드 업데이트(Brand Update, 2010.08) – 검색 결과에 동일한 도메인으로부터의 검색결과를 한두개 이상 보여주지 않던 다양성룰이 브랜드 키워드와 관련해서는 조정이되어 명확하게 특정 브랜드와 관련한 정보를 찾는 의도의 키워드의 경우 그 검색 결과에 특정 도메인으로부터의 결과를 다수 보여주도록 조정된 업데이트
    • 구글 인스탄트(Google Instant, 2010.09) – 검색어가 입력 중인 상태에서 바로 검색결과가 보여질 수 있도록 한 업데이트.
    • 인스턴트 프리뷰(Instant Preview, 2010.11) – 검색결과에서 랭딩페이지의 프리뷰를 바로 볼 수 있게 한 업데이트
    • 소셜 시그널(Social Signals, 2010.12) – 트위터와 페이스북의 데이터를 포함해서 랭킹에 반영할 수 있도록 소셜 시그널을 이용하도록 한 업데이트.

모바일 검색의 성장기 (2011년~2014년, 상시화된 스패밍 대응 업데이트와 모바일에 대한 대응의 시기)

  • 2011년
    • 판다(Panda, 2011.04) – 저품질 컨텐츠에 대한 패널티 알고리즘을 담은 업데이트로서 대량의 컨텐츠 팜과 높은 바운스율 등을 가진 낮은 품질의 컨텐츠 등에 대한 패널티 로직을 강화
  • 2012년
    • 일곱개 결과의 검색결과 페이지(7-Result SERPs, 2012.08) – 10개의 검색결과가 보여지는 것이 아니라 7개의 검색결과만 검색결과 페이지에 보여지도록 한 업데이트로 전체 검색어가 아닌 약 18%의 키워드에서 이런 현상이 나타나는 것으로 확인됨.
    • 팽귄(Penguin, 2012.04) – 판다와 함께 패널티 관련 업데이트로 가장 유명한 알고리즘인 펭귄은 키워드 스터핑을 포함한 다양한 스팸밍 요소들에대한 패널티 로직을 고도화. 특히 낮은 품질의 링크나 검색엔진최적화를 지나치게 고려한 것으로 보이는 부자연스러운 앵커텍스트 분포를 가진 컨텐츠에 대한 처리 등의 로직 강화됨.
  • 2013년
    • 허밍버드(Hummingbird, 2013.08) – 대화 서술형의 자연어 검색알고리즘을 지원하는 시멘틱 서치와 날리지 그래프 그리고 모바일 음성 검색 등에 대한 강화를 위한 코어 알고리즘 업데이트. 특히 모바일 음성검색
    • 페이데이 론(Payday Loan, 2013.11) – 특별하게 스팸이 심한 “단기 사채”와 “포르노” 등의 검색 결과에 대응하기 위한 업데이트.
  • 2014년
    • 피존(Pigeon, 2014.07) – 검색결과와 로컬 디렉토리 알고리즘, 그리고 날리지그래프와의 연계도 강화하는 업데이트. 검색자의 위치까지를 고려하기 시작

인공지능 도입기(2015년~2022년, 검색알고리즘과 기계학습 인공지능의 만남)

  • 2015년
    • 랭크 브레인(Rankbrain, 2015.10) – 이 알고리즘은 검색결과를 필터링하여 사용자에게 쿼리에 대한 최상의 답변을 제공하기 위해 만들어진 기계 학습 알고리즘입니다. 컨텐츠의 맥락을 이해하기 위해 기계학습이 사용되었으며, 2013년에 발표된 허밍버드의 신규 구성요소로서 발표된 업데이트임. 이 업데이트를 통해 구글은 모호한 쿼리와 처음본 쿼리에 대해서도 만족스러운 검색결과를 제공할 수 있는 가능성이 높아졌으며, 랭킹에 큰 영향을 미치는 컨텐츠 내부 요소와 링크 등에 의한 외부 요소에 이어 세번째로 큰 영향을 미치는 요소로 자리잡게 됩니다.
  • 2019년
    • BERT 업데이트 – 2016년 이후 가장 큰 메이저 업데이트라고 할 수 있는 BERT알고리즘은 “Bidirectional Encoder Representations from Transformers”의 약자로 양방향 변환기 모델을 사용하여 단어의 의미와 문맥을 파악합니다. 기존의 알고리즘은 단어와 문장을 분석하여 검색 결과를 도출하지만, BERT알고리즘은 문맥을 파악하여 사용자의 의도에 부합하는 검색 결과를 제공합니다. 예를 들어 “한국인이 미국에 갈 때 비자가 필요한가요?”라는 질문과 “미국인이 한국에 갈 때 비자가 필요한가요?”라는 완전히 같은 단어로 구성된 두개의 문장이 완전히 상반되는 의미를 가지고 있다는 것을 이해하고 이 질문의 맥락에 맞춰 검색 결과를 구성할 수 있게 해주는 것이 바로 검색에 BERT알고리즘이 적용되었기 때문입니다.
  • 2022년
    • MUM은 “Multitask Unified Model”의 약자로 다양한 자연어 처리 작업을 동시에 수행하는 모델입니다. 다양한 언어와 미디어 형식으로 검색하여 복잡한 질문에 대한 답을 찾는 어려운 검색에 대해서도 만족스런 검색 결과를 만들어내기 위해 개발된 인공지능 기반 알고리즘입니다. 이 알고리즘의 도입을 통해서 구글은 검색 결과의 정확도와 다양성을 키울 수 있습니다. 그리고 검색 사용자의 검색 쿼리의 의도를 보다 정확하게 파악할 수 있습니다. 따라서 검색 결과의 질이 또한 올라가게 됩니다. 또한 MUM은 다국어 처리에 강점을 가지고 있기 때문에 다양한 언어로 작성된 문서 처리에 강점을 보여줍니다.

인공지능에 의한 새로운 성장기(2023년~, 초거대언어모델과 검색엔진의 만남)

  • 2023년
    • ChatGPT와 마이크로소프트 Bing과의 결합 서비스 그리고 구글의 대응 서비스 BARD의 시작

글을 마무리하며

2011년 이후 모바일 검색의 성장기에 있었던 여러 검색 알고리즘 업데이트 중에서 웹컨텐츠 생산자 측면에서는 스패밍행위에 대한 제제를 담은 업데이트인 판다와 펭귄 업데이트와 함께 모바일 검색과 연관이 깊은 피존과 허밍버드 업데이트가 가장 중요합니다.

그리고 2015년에 있었던 허밍버드 업데이트에 부속된 업데이트인 랭크브레인 업데이트는 인공지능을 통해 검색자들의 피드백을 분석하고 이를 랭킹 조정에 반영한 첫번째 업데이트라는 점에서 이후 진행된 검색엔진 알고리즘의 진화에 큰 의미를 갖는 업데이트였다고 할 수 있습니다.

검색은 인공지능과 결합되면서 더욱 빠른 속도로 발전해가고 있습니다. 이런 발전이 비단 구글만이 아니라, 마이크로소프트의 빙, 그리고 중국의 바이두와 360, 러시아의 얀덱스 등에서 빠르게 일어나고 있습니다.

한편으로 국내 검색 환경을 바라보면 맘이 편치 않습니다. 한때 많은 국민들이 좋아했던 네이버의 통합검색이 소비자들의 니즈 변화에 발맞춰 진화하지 못하고 신뢰와 마켓쉐어를 잃어가는 모습이 한편으로는 아쉬우면서도 구글 마켓 쉐어의 상승이 가져올새로운 환경에는 기대를 가지게 됩니다.

이 글은 짧지 않은 그간의 검색알고리즘 발전의 역사를 정리해 본 것입니다. 5~6년 전에 썼던 이 글을 다시 업데이트하는 이유는 최근 ChatGPT가 주목을 받으면서 꽤 많은 분들이 구글을 중심으로 한 현재의 검색이 곧 사라져 버릴 것이라고 말하고 있는데 저는 이 의견에 동의하지 않기 때문입니다. 수 많은 인간들의 다양한 니즈에 대응하면서 성장해온 지금의 검색엔진의 모습은 단순한 ChatGPT와 같은 챗봇 서비스로 대체될 수 있는 유형의 것이 아니라고 생각합니다.

아무리 시절이 바뀌어도 집의 모양이 비슷하고, 자동차의 모습이 비슷한 이유가 있다고 생각합니다. 검색이라는 행위를 하는 목적과 의도는 아주 다양합니다. 그런 다양한 목적과 의도를 대응하기 위해 우리가 지금 사용하고 있는 검색엔진의 모습이 이루어졌습니다. 검색이 오랜기간 소비자들의 요구에 의해 이런 모습으로 만들어져 온 것임을 감안할 때 ChatGPT와 같은 유형의 서비스가 현재의 검색 바로 대체해버릴 것 같이 이야기하는 것은 지나치게 성급한 주장이라고 생각합니다.

앞으로도 꽤 오랜 기간 현재 검색 서비스의 유형은 그 모습을 그대로 유지하게 될 것이라고 저는 생각합니다. 그리고 챗봇형의 서비스를 현재의 검색이 일부 추가 서비스로 끌어안는 형식으로 검색은 진화해 갈 것이라고 생각합니다. 위에 정리한 내용을 통해서 과거부터 현재까지 검색이 어떻게 발전해왔는 지를 이해하고 이를 기반으로 검색이 앞으로 어떻게 발전해 갈 것인지를 고민해보는 계기가 되면 좋겠습니다.