Skip to content

Google 搜索与 SEO 指南

摘要

本文系统梳理了 Google 搜索的工作原理与 SEO 实践:从 Crawling、Indexing、Serving 三阶段拆解核心流程,说明 AI(如 BERT、RankBrain、MUM)在理解语义与排序中的作用,并澄清 Gemini 与搜索系统的关系;同时覆盖 AEO/GEO/SEO 的共性逻辑,抓取预算的影响因素与优化方向,图片/视频的索引要点与结构化数据最佳实践,以及多语多区域站点的本地化策略(含 hreflang 与 canonical)。最后,附上 Honest Results Policy、官方报表模板、Search Console 气泡图分析与 Google Trends 等工具与案例,便于排错和持续优化。

Google 搜索如何运作

共 7515 字阅读需 16 分钟

Google 搜索如何运作(1)

Google 搜索系统通过 “Crawling → Indexing → Serving” 三阶段完成网页抓取、理解与结果呈现。AI(如 BERT、RankBrain)在其中帮助理解语言和优化排序。而 Gemini 虽非搜索功能,但共用相同的底层技术和索引基础。

1. Crawling(检索)

作用:让搜索引擎获取最新网页内容。

由 Googlebot 完成网页抓取

受 Scheduling(抓取调度) 与 Robots.txt 规则控制

AI 的参与:在调度(Scheduling)中利用 AI 决定何时抓取、抓哪些页面

每个网站的检索频率是不同的,取决于网站反应速度、大致内容质量、潜在报错等信号

2. Indexing(建立索引)

作用:理解网页内容、提取信号并构建可被检索的数据库。

Google 建立一个巨大的索引数据库(但非无限)

包含 信号计算(Calculating signals)

不仅理解单词,还要理解语义与上下文

AI 的参与:使用 BERT 等模型提升语义理解

  • Statistical models

    • 统计模型在 Google 已使用了 超过 20 年

    • 擅长捕捉垃圾信息(spam)

    • 最初用于解决“Did you mean:”(你是不是想找:)功能

    • 简言之:统计模型擅长规则化、基于历史数据的搜索优化和纠错。

  • BERT(Bidirectional Encoder Representations from Transformers)

    • 是一个 深度学习模型(deep learning model)

    • 使用 transformers 来理解句子中单词的上下文

    • 通过考虑整句话的单词序列而不是单个处理单词,来更好理解含义

    • 简言之:BERT 擅长理解自然语言的语境,提升搜索结果的相关性。

3. Serving(提供搜索结果)

作用:在用户查询时返回最精准、最相关的搜索结果。

AI 的参与:使用 RankBrain 等模型优化结果排序与相关性

综合数百个信号(Hundreds of signals)

  • 网页:文字、链接、段落等
  • 图片:解析度、色彩、相关文字等
  • 新闻/文章:新鲜度、原创性、多元性等
  • 区域:位置、类型、评分、评论、营业时间等
  • 视频:语言、语音转录的文字等

根据用户的搜索意图与时机提供最有用的结果

RankBrain

作用: 帮助谷歌理解搜索查询的含义以及它们与网页的关联。

主要功能: 解读用户搜索(尤其是新的或不常见的查询)背后的意图,并将其与最相关的结果进行匹配。

MUM

  • 作用: 擅长跨不同模态(如文本、图像、音频和视频)理解信息。
  • 主要功能:
    • 多语言性: 能处理超过75种语言的信息。
    • 解答复杂问题: 能够为复杂的问题提供更全面、更细致入微的答案。

4. Gemini 与 Search 的关系

  • Gemini(AI 模型)并非搜索系统的一部分,但使用与搜索相同的技术,如:
    • 数据抓取(Crawlers)
    • 分词(Tokenization)
    • 去重(Deduplication)
  • 依托搜索索引(Search index) 作为其知识基础(Grounding on Search Index)

1. Crawling(检索)

图片、视频都需要按格式命名,方便爬取

2. Indexing(建立索引)

当出现相似内容时,利用canonical告诉搜索引擎真正重要的那个页面是哪个(权威/原始版本的URL),其他相似或重复内容的页面应算其副本且不要单独收录或分散权重

3. Serving(提供搜索结果)

  • 搜索引擎会忽略解读a, the, of等无含义的冠词和介词
  • 不同语言的有不同的处理模型,比如中文的炸鸡会分别搜“炸”和“鸡”

AEO, GEO, SEO?

底层逻辑都是SEO,本质是提供高质量内容换取高排名。

  • 共同基础 (SEO): GEO 和 AEO 都是建立在 SEO 基础之上的。一个没有做好基础 SEO(如网站速度、移动友好性)的网站,很难在 GEO 或 AEO 上取得好成绩。
  • 用户意图为王: 三者都极度依赖对“用户意图”的深刻理解。它们都试图在用户寻找信息或解决方案时,提供最相关、最优质的内容。
  • 内容质量核心: 无论是哪种优化,高质量、原创且相关的内容始终是成功的基石。
  • 最终目的: 三者是一致的:提高在线可见性,吸引相关的目标用户,并最终实现业务目标(如获取流量、产生潜在客户或完成销售)。

高质量内容四大支柱

1. 投入心力(Effort)

是否花心思创作可读性高的内容,假如完全用AI生成的内容评分会很低

2. 原创性(Originality)

内容是否独特,其他网站无法提供。相似的内容,越早发布越有优势。内容呈现要精美,不要有量产感,需表达个人意见和看法。

3. 才能/技能(Talent or Skill)

创作这些内容需要达到何种程度的才能和技能,对所说事物的心得、理解、一手经验

4. 准确性(Accuracy)

内容中事实的准确程度,不要为了原创而虚构

高质量内容定义 - EEAT

其中可信度是最重要的

1. Experience(经验)

2. Expertise(专业知识)

3. Authoritativeness(公信力)

4. Trust(可信度)

低质量内容定义

Spam policy:https://developers.google.com/search/docs/essentials/spam-policies

Spam updates: https://status.search.google.com/products/rGHU1u87FJnkP6W2GwMi/history

1. Cloaking (障眼法/伪装)

定义:向用户和搜索引擎呈现不同的内容。

目的:操纵搜索排名并误导用户。

2. Doorways (门页/桥页)

定义:创建专门针对特定、相似搜索查询排名的网站或页面。

特点:这些页面会将用户引导至并非最终目的地、用处不大的中间页。

3. Scraped Content (采集的内容)

定义:网站的大部分内容是从其他地方“抓取”(Scraped)来的。

特点:网站本身没有提供额外的服务或内容,无法为用户提供附加价值。

定义:谷歌将链接作为判定网页相关性的重要因素。任何意图操纵谷歌搜索结果排名的链接都可能被视为链接垃圾。

5. Hacked Content (被黑客入侵的内容)

定义:由于网站存在安全漏洞,导致内容未经许可被放置在网站上。

关键点:清理工作很困难(可能需要6-18个月去恢复),预防才是关键 (goo.gle/hack-tips),根据6大原则去做就无需担心。

《Google 搜索品质评估人员指南》

PDF

Google 搜索生态的持续进化

人类的好奇心好比婴儿,每天都有15%的搜索内容是全新的,搜索生态需持续进化以满足用户需求

需评估是否全站内容都是以人为本(写给人看),而非单个页面

Google Search核心更新:https://developers.google.com/search/blog

1. 持续测试

有一批SEO志愿者会为Google和其他搜索引擎持续评估内容和需求,提供建议

2. 持续优化SERP

提高内容的可读性,配以精准的配图和视频,多元呈现内容

3. 持续解决不同用户不断变化的需求

有的用户希望得到链接自己调查、有的希望得到一个快答案、有的希望提供完整调查结果,Google会全方面满足用户需求

4. 奖励高质量内容

只是喂给搜索引擎爬的内容得不到高评分

5. 流量结构会波动

并非越久越占优势,创造更多流量机会给新站点

本地化索引 Localization

1. 相同内容的聚合

  • 当主要内容相同时,页面会“聚合” (cluster)。
    • 包括那些仅有样板文字 (boilerplate-only)(如页眉、页脚)进行本地化的情况
    • 巧妙的地理位置重定向 (geo-redirecting) 通常也会导致页面聚合
  • 针对以上问题,使用 hreflang 备用标签 (hreflang alternates)

(注:hreflang 标签的作用是告诉谷歌,这些内容相似的页面是针对不同语言或地区用户的,不应将它们视为重复内容。)

2. 官方建议

  • 使用重定向 (redirects) 来告知Google网站进行了改版。
  • 向Google发送有意义的 HTTP 结果代码 (meaningful HTTP result codes)。
  • 检查 rel=canonical 规范链接
  • 使用 hreflang 链接来帮助Google处理本地化内容
  • 向论坛 (forums) 报告网站被劫持的案例
  • 对于安全页面 (secure pages),确保其依赖项 (dependencies) 也是安全的
  • 保持规范化信号 (canonical signals) 的明确性,避免模棱两可

3. 语言、国家和域名(详见右图)

  • Google不会通过hreflag或者HTML tag来判断网站语言,也不会通过URL的语言参数判断,而是用网站内容来判断语言
  • 不同语言应该有不同URL且需区分语言,例子:语言-国家.域名.com zh-hk.example.com
  • 不同国家地区的版本,用ccTLD会更好,如.com.au
  • 语言网站的阐述需明显,文本和图片都需要为该语言

使用本地化URL:https://developers.google.com/search/docs/specialty/international/managing-multi-regional-sites

Pagination:https://developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls

1. 相同内容的聚合

2. 官方建议

3. 语言、国家和域名

图片索引

1. 注意事项

  • 如仅将内容放图片中,搜索引擎无法理解内容,图片的网址也需要被爬取到
  • 假如不希望被爬取的文字或者图片,就用robots.txt来防止消耗爬取预算
  • 图片可设置为large,因为discover的用户喜欢

2. 支持的图片格式

  • Google 图片支持以下格式:AVIF、BMP、GIF、JPEG、PNG、WebP、SVG
  • 最佳做法: 使用 AVIF 和 WebP 等高品质的现代格式,以在品质和压缩之间取得良好平衡。

视频索引

1. 视频在SEO中的重要性

  • 视频内容为王:用户对视频内容的偏好与日俱增
  • 提高参与度:提高点击率、更长的页面停留时间以及更多的转化
  • 更广泛的触及范围:能够吸引积极搜索视频内容的海量观众
  • Google 的整合搜索:视频会出现在Google综合搜索结果、图片搜索和专属的视频标签页中。

2. 视频SEO成功的关键因素

  • 高品质视频内容: 引人入胜、内容丰富且制作精良的视频是基础
  • 专属观看网页: 为视频创建专属的观看页面
  • 吸引人的标题和说明: 针对搜索意图和用户点击进行优化
  • 相关缩略图: 确保缩略图引人注目且能代表视频内容
  • 影片标记/结构化资料: 协助 Google 理解您的视频内容
  • 快速载入网页: 确保嵌入视频的网页能够快速加载
  • 加入 Sitemap (网站地图): 协助 Google 找到您所有的视频内容

3. 支持的视频格式

  • 普遍支持的格式: MP4、MOV、AVI、WMV、MPEG、FLV、WebM、3GP。
  • 最佳做法: MP4 与大多数浏览器和设备的兼容性最佳,因此通常建议使用这种格式
  • 编码注意事项: 使用标准转码器(例如 MP4 采用 H.264)

4. 如何让 Google 更容易发现视频

  • 以显眼的方式嵌入影片: 确保你的影片在页面上易于浏览,Search Console 会显示错误,方便排查
  • 建立视频 Sitemap (网站地图): 协助 Google 找到所有的视频网址,尤其是嵌入式视频的网址
  • 新增带有相关资讯(标题、说明、缩略图、播放网址)的 <video:video> 标记
  • 在周围使用具有描述性的文字: 嵌入式影片周围的文字可提供背景资讯
  • 考虑使用影片代管平台: YouTube、Vimeo 等都提供内置的探索功能
  • 宣传影片: 透过社群媒体、电子邮件清单和其他管道分享

5. 案例:印尼视频平台Vidio

印尼视频平台Vidio如何生成video-on-demand(VOD)视频

https://developers.google.com/search/case-studies/vidio-case-study

6. 查看视频数据

Google Search Console → Indexing → Videos

https://support.google.com/webmasters/answer/9495631?hl=en

Google 搜索中的视频展示位

复合式搜索结果 Rich Results

1. 注意事项

  • 不会直接影响排名:结构化资料不会直接提高你的排名,但可能会吸引更多使用者访问网站,间接带来正面影响
  • 不保证结果:实施结构化资料并不能保证系统会显示你的复合式搜索结果。最终结果是由 Google 的算法决定。
  • 无需结构化资料即可显示:有时不需要加入代码,Google 就能产生网站名称等复合式搜索结果
  • 需要维护:这项工作并非一劳永逸,必须监控结构化资料是否有错误并持续更新

2. 测试效果

Rich result report overview:https://search.google.com/test/rich-results

测试链接:https://search.google.com/test/rich-results

分享产品数据指南:https://developers.google.com/search/docs/specialty/ecommerce/share-your-product-data-with-google

Google Search支持的结构化数据:https://developers.google.com/search/docs/appearance/structured-data/search-gallery

抓取预算 Crawl Budget

1. 抓取预算 = Crawl Rate Limit & Crawl Demand

  • Crawl Rate Limit(抓取速率限制)是一个全站范围的指标,由所有谷歌抓取工具 (Google crawlers) 共享。主要驱动因素:
    • 连接时间 (Connect time) 的变化
    • 首字节时间 (Time to first byte) 的变化
    • HTTP 429 或 5xx 状态码(即“请求过多”或服务器错误)
  • 如果以上这些指标(即服务器问题)增加,hostload(服务器负载)就会被调整,结果是谷歌的抓取速率将会减慢

2. 消耗抓取预算的因素

  • 无限的 URL 空间 (Infinite URL spaces)
  • 与服务器负载无关的服务器错误 (Server errors unrelated to server load)
  • 无用的页面和资源 (Useless pages and resources)

“无限URL空间”或“无用页面”的示例,这些通常由URL参数(问号?后面的部分)生成:

  • 日历 (Calendars) (例如: ?d=7&m=2&y=27)
  • 产品过滤器 (Product filters) (例如: ?color=1&size=s)
  • 版本化的资源 (Versioned resources) (例如: ?v=2537474)

同一个网页内容,但不同的url结构,会消耗爬取预算,只需告诉搜索引擎想让它爬取的内容链接

假如网站很小,没必要担心爬取预算,假如有1000+url就需要注意了

3. Crawl Budget VS HTTP Status Codes

List of HTTP status codes: https://en.wikipedia.org/wiki/List_of_HTTP_status_codes

HTTP状态码,反映网页状态:

  • 1XX:不会影响爬取预算
  • 2XX:成功,会消耗预算
  • 3XX:跳转,会消耗预算per hop
  • 4XX:错误,不会消耗预算
  • 500:不能索引,会消耗预算

爬取频率不会影响某个URL或网站的排名

Honest Results Policy

Google不会为任何网站提供特殊待遇

https://search-off-the-record.libsyn.com/honestly-about-googles-honest-results-policy-and-more-0

官方报表模板

1. 排查 Google 搜索流量下降报表

Google 搜索如何运作(2)

https://developers.google.com/search/docs/monitor-debug/debugging-search-traffic-drops

2. 利用 Search Console 气泡图优化 SEO

https://developers.google.com/search/docs/monitor-debug/bubble-chart-analysis

3. Google Trend教学系列

youtube.com/playlist?reload=9&list=PLKoqnv2vTMUO8MUpCbVIiBaDZYrpNF8f-

Google不介意内容是AI还是人工生成,只在乎是否高质量内容,是否真实和与用户的提问相关

Released under the MIT License.