Site Reliability Engineer - 클러스터

  • 당근
  • 정규직
  • 경력

당근 SRE팀을 소개해요

당근 SRE팀은 당근에서 개발되는 서비스가 유저들에게 원활하게 제공될 수 있도록 인프라를 디자인해요.
실전 운영 경험을 바탕으로 인프라 지식과 소프트웨어 엔지니어링을 접목해 확장성과 안정성 문제를 효율적으로 해결하는 것에 큰 관심이 있어요. 더 나아가 개발생산성과 안정성을 균형있게 고려해 좋은 개발문화, 좋은 엔지니어링 환경을 만들어나가요. 서비스 성장보다 더 선제적으로 유연하면서도 단단한 인프라를 함께 만들어가실 분을 찾고있어요.
SRE팀 내에서 클러스터파트는 가장 많은 변경사항이 발생하는 쿠버네티스 환경을 설계하고 운영해요. 쿠버네티스의 관측가시성과 서비스 안정성을 확보하기 위해 모니터링 인프라부터 서비스 메쉬, 보안까지 여러 방면에서 정책과 로드맵을 설계하고 적용해요.

이런 일을 해요

  • 대용량 메트릭, 로그 같은 이벤트 소스들을 저장하고 효율적으로 쿼리할 수 있는 모니터링 인프라를 지속적으로 개선해요. 단순히 모니터링 인프라 개선에 그치는 것이 아니라 개발팀에게 꾸준히 그 가치가 전달될 수 있도록 프로세스와 시스템을 개선해요.
  • 마이크로서비스 아키텍쳐는 복잡도가 높아요. 복잡함 속에서 어느정도 일관된 네트워킹 정책을 주입해 관측가시성을 높이고, 간헐적이고 어려운 네트워크 및 인프라 이슈를 개발팀과 함께 트러블 슈팅해요.
  • 더 효율적으로 인프라를 운영하고자 지표를 설정하고 지속적으로 개선해요. 모든 인프라 작업은 gitOps, IaC로 반영되며 인프라 변경사항에 대한 책임을 동료와 나누고 결과에 대한 지표를 관찰해요. 이를 토대로 더 안전하고 좋은 인프라를 만들 수 있다고 믿고 있어요.
  • DevSecOps 환경을 구축하기 위해 인프라 보안을 지속적으로 개선해요. 수많은 관리형 서비스들의 패치 자동화부터 abnormal 트래픽 차단까지 보안팀과 긴밀히 협업해 보다 안전한 인프라를 구성해요.

이런 분을 찾고 있어요

  • 하나 이상의 프로그래밍 언어를 능숙히 사용하는 분
  • 원활한 커뮤니케이션과 뛰어난 문제 해결능력을 지니신 분
  • kubernetes, mesos marathon 등의 Container Orchestration 운영 경험이 있으신 분
  • SRE / DevOps 분야의 best practice를 깊게 고민해보신 분

이런 분이면 더 좋아요!

  • Prometheus, Cortex, Thanos 등의 모니터링 인프라를 운영하며 개선해본 경험이 있으신 분
  • istio, linkerd 서비스 메쉬 환경을 경험하고 개선해보신 분

이렇게 합류해요

1. 서류 전형 → 2. 화상 인터뷰 → 3. 직무 인터뷰 → 4. 컬쳐핏 인터뷰 및 레퍼런스 체크 → 5. 처우협의 →  6. 최종 합격 및 입사

👉당근 합류 여정 가이드 바로가기(🔗)

 

당근 SRE 밋업 세션 구경하기

목록으로 돌아가기