Site Reliability Engineering 2

SRE (Site Reliability Engineering) 역할

SRE (Site Reliability Engineering) 역할 SRE(Site Reliability Engineering)은 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안정성을 달성하도록 지원하는 엔지니어링 분야로, 실패 비용을 줄임으로써, 신속하게 올바른 방향으로 이동할 수 있도록 지원한다. 이 과정에서 SRE는 자동화, 수치화, 프로세스화를 진행한다. 특히 SRE 관점은 “근본적인 문제는 소프트웨어의 문제”라고 정의하고 접근한다. SRE가 하는 일은 크게 5가지 정도로 나누어 볼 수 있다. [Metric & Monitoring] 모니터링 지표를 정의하고, 정의된 지표를 모니터링 시스템으로 구성한다. 인사이트를 통해 시스템이 안정적인 상황과 또는 장애가 나는 지표는 무엇인지, 왜인지?..

SRE (Site Reliability Engineering)

SRE (Site Reliability Engineering) 사이트 안정성 엔지니어링(SRE, site Reliability Engineering)은 조직이 해당 시스템, 서비스 및 제품에서 “적절한” 수준의 안정성을 “지속적”으로 달성하도록 지원하는 엔지니어링 분야이다. 여기서 말하는 “적절한” 수준의 안정성은 무엇일까? IT 시스템이 발달할 수록, 더 나은 안정성을 추구 할수록, 안정성을 높이는 데 필요한 노력과 리소스(및 비용)는 빠른 속도로 증가하고 있다. 이를 다르게 표현한다면, 불필요한 안정성 추구는 시간과 돈의 낭비가 발생한다는 것이다. 결론적으로 안정성 수준은 비즈니스 수요에 적절하고 실용적이어야 하는 수준에서 트레이드오프를 해야한다. 예를 들어, 고객이 100% 안정적이지 않은 네트워크..