2024년 5월, 구글에서 놀라운 사건이 발생합니다. 바로 구글의 검색 알고리즘에 관한 내부 문서가 유출이 된 것입니다. 해당 사건은 구글의 검색 순위 결정 과정에 대한 많은 비밀을 드러내어, SEO 전문가들이 구글 검색 알고리즘에 대해 더 깊이 이해할 수 있는 기회를 제공했습니다.
해당 문서에는 어떠한 내용들이 있었는지 그리고 해당 사건이 SEO 업계에 있어 어떤 영향을 끼치게 될지 등에 대해 정리하여 말씀드리도록 하겠습니다.
사건의 배경
이번 유출된 문서들은 구글의 검색 알고리즘이 어떻게 작동하는지에 대한 상세한 내용이 담겨있는 것들이었습니다. 그렇다면 도대체 어떤 경로를 통해 문서가 유출이 된 것일까요?
이번 사건은 실수에서 비롯되었습니다. 2500페이지에 달하는 구글 알고리즘 관련된 문서가 개발자 플랫폼 깃허브에 올라가게 된 것이죠. 이 문서가 공유된 것은 올해 3월이지만, 해당 정보를 해외에서 내놓으라 하는 SEO 전문가 랜드 피쉬킨, 마이클 킹이 여러 관점에서 분석하여 공유함으로써 많은 사람들이 알게 되었습니다.
SEO 업계는 그동안 구글 알고리즘에 대한 원리가 정확히 밝혀지지 않아, 100% 확신을 할 수 없었는데 이번 사건을 통해 비밀이 드러나 정확한 원리를 알게 된 것입니다.
유출 문서 주요 내용
1) 클릭 데이터의 중요성
구글은 그동안 URL을 클릭한 데이터가 검색 순위에 영향을 끼치지 않는다고 주장해왔으나, 유출된 문서에 따르면 해당 데이터는 검색 순위에 영향을 끼치는 것으로 확인되었습니다.
바로 “NavBoost”라는 시스템을 통해 말이죠. 이 시스템은 클릭 수 뿐만 아니라 클릭 유형(goodClicks, badClicks, lastLongestClicks)을 분석하여 검색 순위를 강화하거나 낮추는 역할을 합니다.
2) Chrome 데이터 활용
구글은 Chrome 브라우저의 데이터를 사용하지 않는다고 밝혀왔지만, 문서에서는 ChromeInTotal이라는 모듈이 언급되어 있어 크롬 사용자의 데이터를 활용하여 검색 순위에 영향을 미치는 것으로 확인되었습니다.
3) 사이트 권위 점수
구글은 사이트 권위 점수를 사용하지 않는다고 여러 차례 밝혀왔으나, 유출된 문서에서는 siteAuthority라는 항목이 포함되어 있어, 구글이 특정 사이트의 전반적인 권위를 측정하고 이를 순위 결정에 반영한다는 사실이 확인되었습니다.
4) 화이트리스트
특정 주제(여행, 코로나, 선거)에 한해서는 특정 도메인을 우선적으로 표시하는 화이트리스트가 확인되었습니다.
5) 기타 요소
문서에는 신선도(freshness), 도메인 등록 정보(RegistrationInfo), 페이지 제목(titlematchScore), 사이트 및 페이지 벡터화(embedding) 등 다양한 요소들이 검색 순위에 영향을 미치는 것으로 나타났습니다.
- 신선도: 구글은 페이지의 작성 날짜와 업데이트 주기를 중요한 순위 요소로 사용합니다. 문서에는 bylineDate, syntacticDate, semanticDate 와 같은 속성이 언급되어 있어, 콘텐츠의 최신성을 평가하는데 사용됩니다.
- 도메인 등록 정보: 구글은 도메인 등록 정보를 저장하여 신뢰성을 평가합니다. 이는 도메인의 신뢰성을 판단하는 데 사용됩니다.
- 페이지 제목: 구글은 페이지 제목이 사용자 쿼리와 얼마나 잘 맞는지를 평가합니다. 이는 페이지 제목의 중요성을 강조합니다.
- 사이트 및 페이지 벡터화: 구글은 페이지와 사이트를 벡터화하여 문서가 해당 사이트의 핵심 주제인지 여부를 판단합니다. 이는 site2vecEmbedding과 같은 항목에서 확인할 수 있습니다.
SEO 업계의 반응
이번 유출 사건을 통해 구글이 주장하던 검색 알고리즘과 다른 실상을 파악할 수 있어 더 깊이 이해할 수 있게 되었습니다. 물론 실상을 파악할 수 있었던 점은 긍정적이라 할 수 있었으나, 구글이 공식적으로 부정해왔던 여러 요소들이 실제로 검색 순위에 영향을 미친다는 점에서 논란이 일어나고 있습니다.
특히나 개인적으로도 클릭 데이터가 실제 랭킹에 적용된다는 점과 화이트리스트를 통해 특정 도메인에 우선 노출 시킨다는 점은 충격이었습니다. 특히나 화이트리스트 같은 경우는 말이 좋아서 화이트 이지 어떻게 보면, 차별적인 알고리즘이 아니지 않나 생각이 들기도 합니다.
어찌되었건 이번 사건으로 인해 SEO업계에서는 전략을 재평가하고 개선하는 큰 변화를 가져올 수 있을 것이라는 반응이 모아지고 있는 현황입니다.
결론
어찌 되었건 이번 사건으로 인해 구글이 늘 부정하던 요소들이 알고리즘에 사용이 되었다는 점은 명백한 사실이며 SEO 업계에 많은 변화를 가져올 것입니다.
앞으로 유출된 정보를 바탕으로 보다 정교한 전략을 수립하고, 사용자 경험과 콘텐츠 품질을 최적화하는데 집중할 것입니다. 알고리즘 유출 이후에도 구글의 알고리즘 변화에 대해 지속적인 관심과 연구를 하며 어떤 행보를 보일지 살펴야 할 것입니다.