"분명히 블로그 글을 30개나 올렸는데, 구글에서 검색하면 5개밖에 안 나와요."
지난달 상담에서 들은 말입니다. 사장님은 글을 안 쓴 게 아니었어요. 오히려 부지런히 쓰셨죠. 그런데 25개가 구글에 없었습니다. 검색 결과에 없으면 아무리 좋은 글도 세상에 존재하지 않는 것과 같습니다. 이런 일은 생각보다 자주 일어납니다. 원인은 거의 항상 하나, "크롤링과 색인"을 모른 채 글만 쌓았기 때문입니다.
"크롤링이란 구글봇이 인터넷을 돌아다니며 웹페이지를 찾아 읽어 들이는 과정이다. 이 과정을 통과하지 못한 페이지는 검색 결과에 절대 나오지 않는다." — 야무진SEO
저는 코딩을 모르는 사진작가 출신으로 3년간 30개 사이트를 직접 만들고 운영했습니다. 그 과정에서 가장 많이 마주친 문제가 바로 "글은 올렸는데 검색이 안 되는" 상황이었어요. 처음엔 저도 키워드나 글자수 탓인 줄 알았습니다. 알고 보니 구글봇이 그 페이지를 아예 읽지 못했거나, 읽고도 검색 창고에 넣지 않은 경우가 대부분이었습니다. 오늘은 이 보이지 않는 단계를 사장님 눈높이로 풀어 드리겠습니다.
크롤링 → 색인 → 순위, 이 3단계를 먼저 이해하세요
구글 검색은 한 번에 일어나지 않습니다. 정확히는 세 단계를 거칩니다. 이 순서를 모르면 SEO의 절반은 헛수고가 됩니다.
1단계 크롤링(Crawling) — 구글봇이라는 자동 프로그램이 인터넷의 링크를 따라다니며 웹페이지를 발견하고 읽습니다. 우리 사이트에 새 글이 올라오면, 구글봇이 언젠가 찾아와 그 페이지의 텍스트·이미지·링크를 수집합니다.
2단계 색인(Indexing) — 읽은 페이지를 구글의 거대한 도서관(색인 데이터베이스)에 분류해 저장하는 단계입니다. 색인이 곧 "검색 가능한 상태"입니다. 읽혔어도 색인되지 않으면 검색 결과에 나오지 않습니다.
3단계 순위(Ranking) — 사용자가 검색어를 입력하면, 색인된 페이지 중에서 가장 관련 높은 순서로 줄을 세웁니다. 우리가 흔히 말하는 "상위노출"은 이 마지막 단계의 이야기입니다.
여기서 핵심은 순서입니다. 많은 분들이 곧장 3단계(순위)부터 고민하세요. 키워드를 넣고, 글을 길게 쓰고, 메타 태그를 손봅니다. 그런데 1단계와 2단계를 통과하지 못한 페이지에는 순위 자체가 존재하지 않습니다. 출발선에 서지도 못한 선수의 등수를 따지는 셈이죠.
"순위는 색인된 페이지끼리의 경쟁입니다. 색인 자체가 안 됐다면, 순위 고민은 한 단계 너무 앞서간 것입니다." — 야무진SEO
크롤링 예산이란 무엇인가
규모가 작은 사이트라면 크롤링 예산을 크게 신경 쓰지 않아도 됩니다. 하지만 페이지가 수천, 수만 개로 늘어나는 순간 이야기가 달라집니다.
"크롤링 예산(Crawl Budget)이란 구글봇이 특정 기간 동안 한 사이트를 크롤링하는 데 할당하는 자원의 총량이다. 쉽게 말해 '구글이 우리 사이트를 얼마나 자주, 얼마나 많이 읽어 줄지'의 한도다." — 야무진SEO
구글봇도 무한정 시간을 쓰지 않습니다. 전 세계 수십억 개 페이지를 돌아야 하니까요. 그래서 사이트마다 "이 정도만 읽겠다"는 예산을 정합니다. 이 예산은 크게 두 가지로 정해집니다.
크롤링 속도 한계(Crawl Rate Limit) — 우리 서버가 버틸 수 있는 한도입니다. 서버 응답이 느리거나 오류가 잦으면 구글봇은 "여기 무리하면 안 되겠다" 하고 속도를 줄입니다. 반대로 서버가 빠르고 안정적이면 더 자주 와도 된다고 판단합니다.
크롤링 수요(Crawl Demand) — 구글이 "이 사이트를 얼마나 읽고 싶은가"입니다. 인기 있고 자주 업데이트되는 사이트일수록 수요가 높습니다. 반대로 몇 달째 변화가 없는 페이지는 구글봇도 굳이 자주 오지 않습니다.
여기서 사장님들이 놓치기 쉬운 지점이 있습니다. 예산은 정해져 있는데, 그 예산을 엉뚱한 페이지에 다 써버리면 정작 중요한 새 글이 읽힐 차례가 오지 않는다는 겁니다. 이게 뒤에서 설명할 "크롤링 낭비" 문제의 핵심입니다.
내 페이지가 색인되지 않는 5가지 이유
상담 때 가장 많이 받는 질문이 "왜 색인이 안 되나요?"입니다. 제가 30개 사이트를 운영하며 직접 겪은 원인을 빈도순으로 정리하면 다음과 같습니다.
1. 구글봇이 아직 발견하지 못했다. 새 글은 시간이 걸립니다. 다른 페이지에서 링크로 연결되지 않은 외딴 페이지는 더 오래 걸리거나 영영 발견되지 않기도 합니다. 내부 링크가 없는 페이지가 가장 위험합니다.
2. robots.txt나 noindex로 막아 두었다. 의외로 흔합니다. 사이트 제작 단계에서 검색을 막아 두는 noindex 태그나 Disallow 설정을 그대로 두고 오픈하는 경우죠. 저도 초창기에 사이트를 새로 만들고 두 달간 색인이 0이었던 적이 있습니다. 원인은 개발 중에 걸어 둔 noindex 한 줄이었습니다.
3. 콘텐츠 품질이 낮다고 판단됐다. 구글봇이 읽었지만 "이건 색인할 가치가 없다"고 본 경우입니다. 서치 콘솔에 "발견됨 - 현재 색인되지 않음" 또는 "크롤링됨 - 현재 색인되지 않음"으로 표시됩니다. 내용이 얇거나, 다른 페이지와 너무 비슷하면 이렇게 됩니다.
4. 중복 콘텐츠로 묶였다. 거의 똑같은 페이지가 여러 개면 구글은 그중 하나만 대표로 색인하고 나머지는 버립니다. 내가 올린 페이지가 "대표"가 아니라 "버려진 쪽"이 될 수 있습니다.
5. 모바일에서 제대로 안 보인다. 구글은 모바일 버전을 기준으로 색인합니다(모바일 퍼스트 인덱싱). PC에서만 잘 보이고 모바일에서 깨지는 페이지는 색인에 불리합니다.
이 다섯 가지 중에서 사장님이 직접 확인할 수 있는 건 1번, 2번, 5번입니다. 3번과 4번은 콘텐츠 자체를 손봐야 하는 문제라 시간이 더 걸립니다. 기술 SEO 기초에서 robots.txt와 사이트맵 설정을 더 자세히 다뤘으니 함께 보시면 좋습니다.
색인 생성 요청 — 구글에게 "이 글 좀 읽어 주세요"
새 글을 올리고 무작정 기다릴 필요는 없습니다. 구글에게 직접 "여기 새 글이 있으니 읽어 달라"고 신호를 보낼 수 있습니다. 방법은 두 가지입니다.
방법 1: URL 검사 도구로 색인 생성 요청. 구글 서치 콘솔(Google Search Console)에 사이트를 등록한 뒤, 상단 검색창에 색인하고 싶은 페이지 주소를 붙여넣습니다. 그러면 그 페이지의 현재 색인 상태가 나옵니다. 색인이 안 됐다면 "색인 생성 요청" 버튼을 누르면 됩니다. 구글봇이 우선순위로 그 페이지를 다시 방문하도록 줄을 세워 줍니다.
방법 2: 사이트맵(XML Sitemap) 제출. 사이트맵은 우리 사이트의 전체 페이지 목록을 담은 지도입니다. 이걸 서치 콘솔에 한 번 제출해 두면, 새 글이 올라올 때마다 구글봇이 지도를 보고 새 URL을 발견합니다. 페이지가 많은 사이트일수록 사이트맵은 선택이 아니라 필수입니다.
다만 한 가지 분명히 짚을 게 있습니다. 색인 생성 요청은 "읽어 달라는 부탁"이지 "반드시 색인하겠다는 약속"이 아닙니다. 요청해도 콘텐츠 품질이 낮으면 구글은 색인하지 않습니다. 그래서 요청 버튼을 누르기 전에, 그 페이지가 색인될 가치가 있는지부터 점검해야 합니다.
"색인 생성 요청은 초인종입니다. 문은 열어 줄 수 있지만, 안에 보여 줄 게 없으면 손님은 그냥 돌아갑니다." — 야무진SEO
경쟁사가 잘 안 다루는 진짜 문제 — 중복·저품질 페이지의 크롤링 낭비
크롤링을 다루는 글은 많습니다. 그런데 대부분 "사이트맵 제출하세요", "robots.txt 설정하세요"에서 끝납니다. 정작 중요한 한 가지를 빠뜨립니다. 나쁜 페이지가 좋은 페이지의 크롤링 예산을 갉아먹는다는 사실입니다.
앞서 크롤링 예산은 한도가 정해져 있다고 했습니다. 그런데 사이트에는 굳이 검색에 나올 필요 없는 페이지가 잔뜩 생깁니다. 예를 들면 이런 것들이죠.
- 상품 정렬·필터마다 만들어지는 URL (
?sort=price,?color=red같은 변형) - 거의 똑같은 내용의 태그·카테고리 페이지 수백 개
- 검색 결과 페이지, 빈 페이지, 테스트로 만든 임시 페이지
- 인쇄용 페이지처럼 본문과 중복되는 사본
구글봇이 정해진 예산으로 이런 페이지들을 먼저 다 읽어 버리면, 정작 새로 올린 핵심 글은 한참 뒤에야 읽히거나 아예 그 회차에 못 읽힙니다. 제가 한 쇼핑몰을 진단했을 때, 서치 콘솔의 크롤링 통계에서 구글봇이 가장 많이 방문한 페이지 상위 20개가 전부 필터 조합 URL이었습니다. 정작 신상품 페이지는 한참 밑이었죠. 예산을 쓰레기에 다 쓰고 있던 겁니다.
해결의 방향은 세 가지입니다. 첫째, 검색에 필요 없는 페이지는 robots.txt나 noindex로 정리합니다. 둘째, 중복 페이지는 표준 URL(canonical) 태그로 "이게 대표다"라고 알려 줍니다. 셋째, 얇고 가치 없는 페이지는 과감히 합치거나 지웁니다. 페이지 수를 줄이는 게 오히려 SEO에 이로운 경우가 많습니다.
특히 페이지가 자동으로 대량 생성되는 구조라면 이 문제가 폭발적으로 커집니다. 자동 생성 페이지 전략은 프로그래매틱 SEO에서 따로 다뤘으니 대규모 사이트를 운영하신다면 꼭 확인해 보세요.
그래서 사장님이 오늘 해야 할 일
복잡해 보이지만, 우선순위는 단순합니다. 순서대로 점검하시면 됩니다.
첫째, 구글 서치 콘솔에 사이트가 등록돼 있는지 확인하세요. 없다면 등록부터가 시작입니다. 우리 사이트가 구글에 어떻게 보이는지는 여기서만 정확히 알 수 있습니다.
둘째, 서치 콘솔의 "색인 생성" 보고서를 열어 보세요. 색인된 페이지 수와 "색인되지 않음" 페이지 수가 나옵니다. 색인 안 된 페이지의 이유까지 친절하게 알려 줍니다.
셋째, 중요한 페이지인데 색인이 안 됐다면 URL 검사 도구로 색인 생성을 요청하세요. 단, 그 전에 내용이 충분한지 먼저 보시고요.
넷째, 사이트맵을 제출했는지 확인하세요. 안 했다면 오늘 하시면 됩니다.
이 네 가지만 점검해도 "글은 올렸는데 검색이 안 되는" 문제의 절반 이상이 보입니다. 색인 관리는 화려한 작업은 아닙니다. 하지만 토대가 흔들리면 그 위에 아무리 좋은 콘텐츠를 쌓아도 무너집니다. 페이지를 만들기 전에, 그 페이지가 읽히고 색인되는 길부터 닦아 두는 게 순서입니다.
자주 묻는 질문 (FAQ)
새 글을 올리면 며칠 만에 구글에 나오나요?
정해진 시간은 없습니다. 사이트의 크롤링 수요에 따라 몇 시간부터 몇 주까지 차이가 큽니다. 자주 업데이트하고 내부 링크가 잘 연결된 사이트는 빠르고, 오래 방치된 사이트는 느립니다. 급하다면 서치 콘솔에서 색인 생성을 요청하면 우선순위가 올라갑니다.
크롤링과 색인은 같은 말 아닌가요?
다릅니다. 크롤링은 구글봇이 페이지를 "읽는" 단계이고, 색인은 읽은 내용을 검색 가능한 형태로 "저장하는" 단계입니다. 크롤링됐어도 색인은 안 될 수 있습니다. 서치 콘솔에 "크롤링됨 - 현재 색인되지 않음"이라는 상태가 바로 그 경우입니다.
작은 사이트도 크롤링 예산을 신경 써야 하나요?
페이지가 수백 개 이하인 사이트라면 크롤링 예산 자체는 거의 문제가 안 됩니다. 구글봇이 충분히 다 읽을 수 있으니까요. 다만 중복·저품질 페이지가 쌓이면 작은 사이트에서도 색인 품질이 떨어질 수 있어, 페이지를 깔끔하게 관리하는 원칙은 똑같이 유효합니다.
robots.txt로 막으면 색인도 안 되나요?
robots.txt는 "크롤링을 막는" 도구이지 "색인을 막는" 도구가 아닙니다. 미묘하지만 중요한 차이입니다. 다른 사이트에서 링크가 많이 걸리면, 크롤링을 막은 페이지도 주소만 색인에 노출될 수 있습니다. 확실히 색인에서 빼려면 robots.txt가 아니라 페이지에 noindex 태그를 써야 합니다.
색인 생성 요청을 여러 번 누르면 더 빨리 되나요?
아닙니다. 반복해서 누른다고 우선순위가 더 올라가지 않습니다. 오히려 같은 페이지를 단기간에 여러 번 요청하는 건 의미가 없습니다. 한 번 요청한 뒤에는 콘텐츠 품질을 높이고 내부 링크를 보강하는 게 훨씬 효과적입니다.
검색이 안 되는 페이지는 없는 페이지와 같습니다. 그리고 그 원인은 대부분 화려한 순위 알고리즘이 아니라, 그 앞 단계인 크롤링과 색인에 있습니다. 오늘 구글 서치 콘솔을 열어 "색인 생성" 보고서 한 번만 확인해 보세요. 생각보다 많은 페이지가 검색 창고 밖에서 기다리고 있을 겁니다.
직접 확인했는데 어디서부터 손대야 할지 막막하다면, 무료 SEO 진단을 신청해 보세요. 색인이 누락된 페이지가 몇 개인지, 크롤링 예산이 어디서 새고 있는지 구체적으로 짚어 드립니다.