1.1 部署区域:推荐使用谷歌云香港区域 asia-east2,延迟与出口链路对港澳访问友好。
1.2 原生IP:为VM分配静态外部IP(Static External IP)用于域名A记录,避免NAT引起的端口映射问题。
1.3 网络规划:VPC、子网、路由和防火墙策略先定型;为管理口和业务口做ACL隔离。
1.4 证书与域名:使用Managed SSL或Let's Encrypt自动续期,域名解析用Cloud DNS或第三方DNS。
1.5 备份策略:磁盘快照与镜像定期(例如每日增量、每周全量)保存到Cloud Storage。
2.1 监控平台:使用Cloud Monitoring(Stackdriver)+Ops Agent采集主机级指标。
2.2 关键指标:CPU、内存、磁盘IO、网络入口/出口、连接数、应用错误率。阈值示例:CPU>80% 5分钟触发告警。
2.3 告警策略:分级告警(P1短信+电话,P2邮件+Slack)。
2.4 可视化:Grafana对接Cloud Monitoring API,按服务构建SLO仪表盘。
2.5 自动化:结合Cloud Functions与Run实现自愈脚本(例如重启服务、扩容实例)。
3.1 日志代理:安装Google Cloud Ops Agent统一上报系统日志与应用日志。
3.2 日志结构化:使用JSON格式输出,便于日志洞察与查询。
3.3 存储与保留:默认Coldline/Archive策略,示例保留策略为热存30天,冷存365天。
3.4 检索与告警:Log-based metrics用于异常模式检测(如错误率突增)。
3.5 隐私与合规:对敏感字段做脱敏或不上传,满足地方合规需求。
4.1 CDN层:启用Cloud CDN缓存静态资源,减低源站带宽压力并提高命中率。
4.2 原生IP策略:为业务服务分配静态外部IP并通过负载均衡器(HTTPS LB)做流量分发。
4.3 DDoS防护:使用Cloud Armor规则白名单/速率限制结合WAF策略。
4.4 带宽与弹性:设置自动扩缩容组与后端池健康检查阈值。
4.5 配置示例(参考):下表展示典型单节点配置。
| 项 | 示例配置 |
|---|---|
| 机型 | n2-standard-4 (4 vCPU / 16GB) |
| 系统盘 | SSD 100GB (pd-ssd) |
| 公网带宽 | 200 Mbps 弹性公网带宽 |
| 日志保留 | 热存 30 天 / 冷存 365 天 |
| 防护 | Cloud Armor + Cloud CDN + HTTPS LB |
5.1 案例背景:某在线教育公司在香港部署线上课堂,使用原生静态IP直连教学服务(匿名案例)。
5.2 问题触发:突发流量导致CPU和连接数短时间暴增,日志显示大量非正常请求。
5.3 处置流程:触发P1告警→自动扩容后端实例→Cloud Armor开启速率限制并下发黑名单规则。
5.4 结果数据:峰值流量下降70%,源站CPU在5分钟内从95%降到45%,服务可用性恢复到99.95%。
5.5 事后复盘:优化缓存策略、增加基于日志的Bot检测规则,并将黑名单规则常态化。