Signal Layer — 기계가 읽는 계층을 설계하라

존재하는 것과 발견되는 것은 다르다

기업이 보도자료를 발행한다. 제품 정보를 업데이트한다. 브랜드 스토리를 축적한다. 이 콘텐츠는 웹사이트에 “존재한다.” 그러나 존재한다고 발견되는 것은 아니다.

Ahrefs의 연구(2025)에 따르면, AI Overview 인용의 일부가 기존 검색 순위 상위 100위권 밖 URL에서 발생한다. 구조화, 엔티티 명확성, 최신성이 기존 순위를 넘어서는 변수가 되고 있다는 뜻이다. 반대로, 검색 순위가 높아도 구조가 없으면 AI가 건너뛸 수 있다.

Signal Layer는 이 간극을 메우는 계층이다. 콘텐츠가 검색엔진과 AI에게 “발견 가능한 형태”로 존재하게 만드는 구조. 이 글은 “AI-Ready 웹 아키텍처의 세 계층” 시리즈의 두 번째 글로, Signal Layer의 네 가지 영역을 구체적으로 다룬다.

1. 구조화 데이터 — 기계에게 명함을 건네는 것

Schema.org 구조화 데이터는 웹페이지의 콘텐츠를 기계가 이해할 수 있는 형태로 표현하는 표준이다. HTML이 인간에게 보여주기 위한 것이라면, Schema는 기계에게 읽히기 위한 것이다.

엔티티와 @id

Schema의 세계에서 모든 것은 엔티티(entity)다. 기업, 제품, 기사, 인물, 이벤트 — 현실 세계의 존재를 데이터로 표현한 단위다. 각 엔티티에는 @id라는 고유 식별자를 부여한다.

{
  "@type": "Organization",
  "@id": "https://example.com/#organization",
  "name": "기업명",
  "url": "https://example.com"
}

@id는 URL 형태를 쓰지만, 실제로 접속 가능한 페이지일 필요는 없다. 핵심은 같은 @id를 사이트 전체에서 일관되게 재사용하는 것이다. AI에게 디지털 식별자를 부여하는 것이라 이해하면 된다.

@graph — 엔티티들의 관계망

@graph는 하나의 JSON-LD 블록 안에 여러 엔티티를 묶어서 선언하는 컨테이너다. 이 안에서 엔티티들이 @id로 서로 연결되면서 지식 그래프가 만들어진다.

Organization이 WebSite의 publisher이고, WebSite에서 NewsArticle이 발행되고, NewsArticle의 author가 Person이다. 이 관계가 @graph 안에서 선언되면, AI는 “이 기업이 이 사이트를 운영하고, 이 사람이 이 기사를 썼다”는 맥락을 파악한다.

기업 사이트에 필수인 Schema 타입

타입	용도	적용 대상
Organization	기업 본체 정보	이름, 로고, 설립일, 대표자, 소재지
WebSite	사이트 메타 정보	검색 기능, SearchAction
NewsArticle / BlogPosting	뉴스룸·블로그 기사	각 기사 페이지
FAQPage	FAQ 콘텐츠	AI 인용률이 가장 높은 타입
BreadcrumbList	사이트 내 경로	AI가 정보 구조를 이해하는 데 활용
Product	제품·서비스	주요 제품 페이지

적용 우선순위는 Organization → WebSite → FAQPage → NewsArticle → BreadcrumbList → Product 순이다. Organization과 WebSite는 사이트 전체에 한 번, 나머지는 해당 페이지마다 적용한다.

2. 검색 최적화 — SEO와 AEO의 통합

SEO(Search Engine Optimization)와 AEO(Answer Engine Optimization)는 별개가 아니라 연속선 위에 있다.

SEO는 “검색 결과 상위에 노출되는 것”이 목표다. 키워드 최적화, 내부 링크, 메타태그, 사이트맵이 핵심 수단이다. AEO는 “AI의 답변에 출처로 인용되는 것”이 목표다. Answer-first 구조, 구조화 데이터, 엔티티 명확성이 핵심 수단이다.

Google의 공식 문서는 AI Features에서도 “기존 SEO 기본기가 그대로 유효하다”고 명시한다. SEO의 기반 위에 AEO가 추가되는 구조다.

SEO 기반 설계

기술 SEO. 사이트맵(XML Sitemap)이 모든 주요 페이지를 포함하는지 확인한다. 중복 콘텐츠에 canonical 태그를 설정한다. HTTPS를 적용한다. Core Web Vitals(LCP 2.5초 이내, CLS 0.1 이내, INP 200ms 이내)를 충족한다.

온페이지 SEO. H1~~H3 헤딩이 논리적으로 구성되어 있는지 확인한다. title 태그(50~~60자)와 meta description(140~155자)이 각 페이지에 고유하게 설정되어 있는지 확인한다. 핵심 키워드가 제목과 첫 문단에 자연스럽게 포함되어 있는지 확인한다.

내부 링크. 주제별 허브 페이지에서 하위 콘텐츠로, 하위 콘텐츠에서 허브로 양방향 링크를 구성한다. 앵커 텍스트에 키워드를 포함한다. “자세히 보기”가 아니라 “기업 뉴스룸 구축 사례 보기”처럼 구체적으로.

AEO 추가 설계

Answer-first 구조. 모든 콘텐츠의 첫 2~3문장에 핵심 답변을 배치한다. AI는 글의 앞부분에서 답변 재료를 추출한다. 배경 설명이나 서론은 핵심 답변 뒤에 놓는다.

질문-답변 매핑. H2, H3 헤딩을 질문 형태로 작성한다. 각 섹션의 첫 문장이 그 질문에 대한 독립적인 답변이 되도록 한다. AI가 섹션 단위로 답변을 발췌할 수 있는 구조다.

구체적 수치와 시점. “대규모 투자”가 아니라 “1조 2천억 원 투자.” “최근”이 아니라 “2026년 3월 기준.” 모호한 표현은 AI 답변 재료로 채택되지 않는다.

3. 크롤링 제어 — 문을 열되, 범위를 정한다

AI 엔진이 콘텐츠를 수집하려면 먼저 접근할 수 있어야 한다. 크롤링 제어는 “어떤 콘텐츠를 어떤 크롤러에게 열어줄 것인가”를 결정하는 영역이다.

robots.txt. 기본 크롤러(Googlebot) 외에 AI 크롤러(GPTBot, PerplexityBot, ClaudeBot, Google-Extended)의 접근 정책을 명시적으로 설정한다. 무조건 차단하는 것도, 무조건 허용하는 것도 올바른 전략이 아니다. 공개 콘텐츠는 허용하되, 내부 관리 페이지나 중복 콘텐츠는 차단하는 것이 기본이다.

llms.txt. AI 크롤러를 위한 사이트 안내 파일이다. robots.txt가 “접근 제어”라면, llms.txt는 “맥락 제공”이다. 사이트의 구조, 주요 콘텐츠 영역, 핵심 엔티티를 AI에게 요약해서 전달한다.

사이트맵. XML 사이트맵에 모든 주요 페이지가 포함되어 있는지, 마지막 수정일(lastmod)이 정확한지, 삭제된 페이지가 남아 있지 않은지 점검한다.

4. 콘텐츠 피드와 API — 콘텐츠를 배포하는 경로

Signal Layer의 핵심은 콘텐츠 피드와 API 배포다. 콘텐츠를 자사 웹사이트에만 가두지 않고, 외부 플랫폼과 AI 에이전트가 구조화된 형태로 소비할 수 있게 하는 것이다.

RSS/JSON Feed. 뉴스룸, 블로그 등 정기 발행 콘텐츠를 구독 가능한 피드로 제공한다. RSS는 전통적인 구독 채널이고, JSON Feed는 개발자 친화적인 형식이다. 두 형식 모두 제공하는 것이 바람직하다.

Open API. 제품 카탈로그, 매장 정보, FAQ 등 구조화된 데이터를 외부 서비스가 조회할 수 있는 API를 제공한다. AI 에이전트가 기업의 제품 정보를 실시간으로 참조하고 답변에 반영할 수 있는 경로다.

이것이 “콘텐츠 인프라”의 실체다. 콘텐츠가 웹사이트라는 하나의 그릇에 담겨 있는 것이 아니라, 여러 경로로 유통되는 구조. 웹사이트는 콘텐츠의 “원본 저장소”이고, 피드와 API는 그 콘텐츠가 외부로 흘러나가는 “배관”이다.

Signal Layer 설계 체크리스트

Signal Layer를 설계할 때 확인해야 할 항목을 정리한다.

구조화 데이터:

Organization + WebSite Schema가 사이트 전체에 일관되게 적용되어 있는가
각 콘텐츠 페이지에 적합한 Schema 타입(NewsArticle, FAQPage 등)이 적용되어 있는가
@id가 사이트 전체에서 일관되게 사용되는가
Google Rich Results Test에서 오류가 없는가

검색 최적화:

XML 사이트맵이 모든 주요 페이지를 포함하는가
각 페이지에 고유한 title 태그와 meta description이 있는가
H1~H3 헤딩이 논리적 구조를 이루는가
핵심 답변이 각 섹션의 첫 문장에 있는가

크롤링 제어:

robots.txt에 AI 크롤러 정책이 명시되어 있는가
삭제된 페이지가 사이트맵에 남아 있지 않은가
JavaScript 렌더링 의존 콘텐츠에 대한 폴백이 있는가

콘텐츠 피드:

RSS 또는 JSON Feed가 제공되는가
피드에 전체 본문이 포함되는가 (요약만 제공하면 AI 인용 효과 감소)

다음 글에서

이 글은 “AI-Ready 웹 아키텍처의 세 계층” 시리즈의 두 번째 글이다. 다음 글에서는 Surface Layer — 고객이 경험하는 계층을 다룬다. 렌더링 아키텍처 선택, 디자인 시스템, 성능 최적화의 설계 원칙을 정리할 예정이다.