周四,谷歌云在全球范围内遭遇严重宕机,导致多项大型互联网服务瘫痪或中断。
谷歌云的状态页面显示:“我们正经历多个 GCP 产品的服务问题”,并指出宕机始于太平洋时间上午 10:51。“我们的工程团队正在持续调查此问题。”
当天晚些时候,谷歌表示客户 “仍在经历不同程度的影响”,工程师正在努力恢复服务,但公司尚未给出修复的预计时间。
此次宕机对谷歌而言是一次挫折,该公司正试图在云基础设施领域追赶规模更大的竞争对手亚马逊网络服务(AWS)和微软 Azure。由托马斯・库里安(Thomas Kurian)领导的云业务部门近年来一直是谷歌增长较快的业务板块之一,并受益于人工智能产品和服务的需求。
电商软件供应商 Shopify 作为谷歌云的重要客户,在 X 平台(原推特)上发帖称,其 “注意到影响多项服务的问题”。而 ChatGPT 的开发者 OpenAI 则表示,其在单点登录 “及其他登录方式” 上遇到了一些问题。该公司在社交媒体发帖称,“工程团队正在努力缓解这些问题”。
Downdetector 网站显示,太平洋时间上午 11:30 左右,谷歌云的报告事件超过 1.3 万起,但到下午早些时候,这一数字大幅下降。
谷歌发言人在一封电子邮件中表示:“我们目前正在调查部分谷歌云服务的中断问题”,并指引查看仪表盘获取最新信息。
据媒体2 月报道,谷歌母公司 Alphabet 一直在大幅削减成本,在销售、客户体验、内部交易和市场拓展团队实施了裁员。
尽管 Downdetector 也显示了亚马逊网络服务(AWS)的中断报告,但该公司发言人表示其服务没有问题。
谷歌的状态页面称,此次事件已导致其 13 项云服务在美国、欧洲和亚洲出现问题。其他似乎遭遇中断的网络服务包括亚马逊的 Twitch、CoreWeave 的 Weights and Biases、Elastic、GitLab、LangChain、微软的 GitHub、Replit 以及 Intuit 的 Mailchimp。
太平洋时间上午晚些时候,云安全和内容分发网络巨头 Cloudflare 在其状态页面上称,公司正遭遇问题。该公司股价周四下跌 5%。
Cloudflare 发言人表示:“这是谷歌云宕机导致的”,并补充说,使用谷歌云的 “有限” 服务受到了影响,其核心服务仍正常运行。
Cloudflare 的页面称:“我们看到许多服务出现间歇性故障,正在持续调查,并将在评估每项服务的影响后更新此列表。”
谷歌趋势显示,用户对 “Firebase” 的搜索量激增。Firebase 是谷歌用于构建和管理网页及移动应用的开发者平台之一。
据统计本次受影响的包含:Twitch、Discord、Google Cloud、Google、Google Meet、Google Nest、Character Al、Etsy、Khan Academy、Google Drive、Google Maps、Pokemon TCG、Dialpad、Mailchimp、High Level、Amazon Web Services、Open Al、Cloudflare、Anthropic、Breezeline、Dragon Ball、State Farm、Embark Studios、Gmail、Rocket League、DoorDash、Wells Fargo、Marvel、MLB TV、Google Gemini、Fortnite、Spotify、Shopify、Snapchat、Tekken、Box、Equifax、Roll20、Cursor、Looker Studio、Fubo TV、IKEA、reCAPTCHA、GitLab、Steam、Clover POS Systems、AMC Theatres、NPM等,可以说是海外的互联网半壁江山了。
宕机的原因可能与网络供应商 Level 3 的宕机有关,Level 3为谷歌数据中心提供连接和各种其他服务。
有趣的是,这次宕机还影响了谷歌工程师用来相互沟通故障情况的内部工具,想要恢复估计得换个沟通工具来协同了。
这其实不是谷歌云第一次大规模宕机,用Ai整理了一下谷歌云服务自2009年至2025年6月的主要宕机事件,按时间顺序排列:
2009年
- 2009年2月:欧洲数据中心宕机,导致Gmail服务中断超过2小时。
- 2009年5月:系统错误导致流量异常,影响Google News、Gmail和Google Calendar等服务。
- 2009年7月:Google App Engine出现高延迟和错误率,持续数小时。
2010年
- 2010年2月:停电导致Google App Engine宕机超过2小时。
2012年
- 2012年12月:负载均衡器问题导致Gmail等服务中断。
2014年
- 2014年1月:内部错误导致Gmail Web应用服务宕机。
- 2014年10月:多项Google Cloud服务宕机,影响Gmail、Google Hangouts等服务。
2015年
- 2015年2月:Google Compute Engine在多个区域宕机约1小时。
- 2015年3月:配置更新导致Google Compute Engine部分服务中断。
- 2015年8月:比利时雷击导致Google Cloud存储系统下线。
2016年
- 2016年4月:Google Cloud Engine宕机18分钟,影响多个地区用户。
- 2016年8月:软件更新导致Google App Engine宕机2小时。
2017年
- 2017年11月:数据中心故障导致Google Cloud服务离线。
2018年
- 2018年1月:自动化机制失效导致谷歌云宕机93分钟。
- 2018年7月:Google Cloud中断导致Snapchat和Spotify宕机。
2020年
- 2020年12月:Gmail、YouTube等Google服务发生严重宕机,大多数受影响的服务在一小时内恢复。
2022年
- 2022年1月:软件定义网络(SDN)组件维护事件导致谷歌云延迟增加3小时22分钟。
- 2022年3月:谷歌Traffic Director工具更新导致配置数据丢失,服务中断2小时35分钟。
- 2022年7月:伦敦高温导致Google数据中心宕机。
- 2022年8月:爱荷华州数据中心火灾导致地图和搜索服务中断。
2023年
- 2023年4月:洪水、数据中心火灾等导致谷歌多个区域服务中断。
2025年
- 2025年6月:谷歌云全球宕机,影响多项互联网服务,宕机始于太平洋时间上午10:51,工程师正在努力修复,但尚未公布预计恢复时间。
这些事件表明,即使是大型云服务提供商也可能面临各种技术挑战和基础设施问题,导致服务中断。谷歌云在每次宕机后通常会采取措施改进其系统的可靠性和恢复能力。