🏠 欢迎来到 SRE & 运维工程知识库
Site Reliability Engineering · DevOps · Observability · Automation · Resilience
本知识库由一线 SRE 团队维护,聚焦高可用架构、自动化运维、可观测性实践、故障应急与系统韧性建设,助力工程师构建稳定、高效、智能的现代基础设施。
🌟 核心理念
我们坚信:
- 可靠性是功能,不是附加项
- 自动化是解放人力的第一生产力
- 故障是常态,韧性是答案
- 数据驱动决策,而非直觉
📚 知识体系导航
🔧 基础架构
⚙️ 自动化与工具链
☁️ 云原生与 Kubernetes
👁️ 可观测性(Observability)
🚨 SRE 核心实践
🔒 安全与合规
🛠️ 常用工具速查
| 类别 | 工具 | 用途 |
|---|---|---|
| 监控 | Prometheus, VictoriaMetrics | 指标采集与告警 |
| 日志 | Loki, ELK | 日志聚合与检索 |
| 追踪 | Jaeger, Zipkin | 分布式链路追踪 |
| 配置 | Consul, etcd | 服务发现与配置中心 |
| CI/CD | GitLab CI, Argo CD | 自动化发布流水线 |
| CLI | jq, yq, kubectl, bpftrace |
运维工程师瑞士军刀 |
💡 提示:所有工具均有内部封装脚本,见 运维工具箱
📈 我们的数据(截至 2026 Q1)
- 服务可用性:99.99%(核心业务)
- 平均 MTTR:< 8 分钟
- 自动化覆盖率:92%(部署/扩缩容/巡检)
- 每周 On-Call 告警量:↓ 67%(同比优化)
🌍 构建可靠系统,不止于代码——这是我们的使命。 最后更新:2026年1月22日