2024-12-18
온콜 핸드오프 노트에 스팬 ID를 남기는 이유
저자 서준영 · 태그 SRE, OpenTelemetry, 운영
야간 알람이 울릴 때 가장 비싼 비용은 정보 재수집입니다. 관측 가능성: 로그·메트릭·트레이스 과정에서는 온콜 핸드오프 노트에 스팬 ID나 추적 ID 한 줄을 남기는 습관을 강조합니다. 이 식별자가 있으면 다음 담당자가 대시보드를 열었을 때 같은 시점으로 바로 이동할 수 있습니다.
노트에는 증상, 가설, 시도한 조치, 남은 위험 네 칸만 채웁니다. 스크린샷은 보조이며, 반드시 링크 가능한 쿼리나 대시보드 경로를 적습니다. 팀이 처음에는 귀찮아하지만, 두 번째 장애부터 시간 차이가 체감됩니다.
교육 후 일부 팀은 핸드오프 봇을 만들어 스팬 ID를 파싱합니다. 반대로 과도한 자동화는 필수는 아니며, 스프레드시트와 슬랙 고정 메시지만으로도 충분한 경우가 많습니다. 중요한 것은 장애가 끝난 뒤 템플릿을 업데이트해 다음 사람이 같은 실수를 반복하지 않게 하는 것입니다.