🏠 欢迎来到 SRE & 运维工程知识库

Site Reliability Engineering · DevOps · Observability · Automation · Resilience

本知识库由一线 SRE 团队维护，聚焦高可用架构、自动化运维、可观测性实践、故障应急与系统韧性建设，助力工程师构建稳定、高效、智能的现代基础设施。

🌟 核心理念

我们坚信：

类别	工具	用途
监控	Prometheus, VictoriaMetrics	指标采集与告警
日志	Loki, ELK	日志聚合与检索
追踪	Jaeger, Zipkin	分布式链路追踪
配置	Consul, etcd	服务发现与配置中心
CI/CD	GitLab CI, Argo CD	自动化发布流水线
CLI	`jq`, `yq`, `kubectl`, `bpftrace`	运维工程师瑞士军刀

💡 提示：所有工具均有内部封装脚本，见运维工具箱

🌍 构建可靠系统，不止于代码——这是我们的使命。 最后更新：2026年1月22日