건축적 미친 듯이: 왜 시장 선도 기업이 선도 기술 도입에서 실패하는가

> 상자가 도착했지만, 배송이 3개월 걸려서 왜 이걸 주문했는지 잊어버렸어요.

왜 이걸로 불을 끄지 못할까요?

전문가의 왜곡: 일상이 나쁜 습관을 만든다

저는 이미 IT 분야에서 하루에 수백 번의 전환을 하는 환경에서 집안 습관이 업무 방식을 결정하는 것이 아니라, 오히려 업무가 우리에게 문제 해결에 즉각적인 반응을 하는 습관을 만들어낸다고 말했습니다.

즉각적인 결과를 원하는 충동 구매의 예를 몇 가지 찾아서, 사람들이 주문할 때 “한 번 클릭으로 문제 해결”이라고 생각하며, 그 단계가 문제 해결의 유일한 방법이라고 생각했음을 보여드리겠습니다.

누가 이걸 만들었나요?상상해보십시오. 대기업의 CTO와 PM들은 정확히 같은 방식으로 행동합니다. 그들은 DevOps 팀에게 “급하게 해결해 줄 수 있는 솔루션”을 주문합니다. 기다려온 ‘최신 기술’(Apache Kafka, 객체 저장소 S3, 분할된 데이터베이스, 의미 검색)이 담긴 ‘상자’를 받아들고, 그들이 발견하지 못하는 불쾌한 진실은: 이 제품에는 설치, 설정 및 운영에 대한 설명서가 전혀 없습니다. 배포 스크립트나 확장성, 성능 모니터링 기능도 없습니다. 가장 중요한 것은, DevOps 팀에게 이 기술들이 실제로 도입될 것이라는 사실을 아무도 알리지 않았다는 것입니다.

주문한 지 3개월이 지났지만, 기대했던 완화 대신 CEO는 새로운 문제의 원을 맞닥뜨립니다. 그의 실망은 다음과 같은 말로 표현될 수 있습니다: “상자가 도착했지만, 3개월이 지난 지금은 왜 이걸 주문했는지 잊어버렸다”. 빠른 성공을 추구하는 의도가 운영 혼란으로 이어지며, 전략적 계획의 부족은 기술을 무한한 어려움의 원으로 바꿉니다.## 다음 릴리즈에 Kafka가 필요합니다

어느 테크 리드가 Хаб레(Habr)에 게시된 「실시간 이벤트 스트리밍」 기사 읽고, 고개를 끄덕이며 “우리에게 Kafka가 필요하다”고 단정했습니다. 제안 요청 없이. 아키텍처 검토 없이. DevOps의 참여 없이. 익숙한 상황이신가요?

네, 오픈소스 Kafka입니다. 네, 확장성도 있습니다. 하지만 Kafka를 클러스터에서 운영해본 어떤 팀에게 물어보세요: Kafka의 성숙도는 비선형적이며, 단계 함수처럼 진행됩니다.

  • 0~6개월: “모든 게 잘 작동합니다!” — 분할 파티션의 은폐된 불균형, 브로커 간 부하의 불균형, 제어 불가능한 지연
  • 6~12개월: “왜 지연이 늘어나는 걸까요?” — 수동 재분배, 화재 진압, 분산된 책임
  • 12개월 이상: “누가 이걸 관리하나요? 어떻게 вообще 꺼야 하나요?” — “좀비 생성”과 함께 외부 지원 비용이 무시된 상황

DevOps-준비된 자동화, 모니터링, 그리고 Kafka 생태계 전체의 라이프사이클 관리 없이 Kafka는 데이터 스트림이 아니라 텔레그램 알림의 흐름을 제공합니다.## S3 호환 스토리지? 좋습니다. 이제 보호하세요

Ozon 팀은 Lusca를 S3 호환 스토리지로 재구성하는 데 수개월을 소요했습니다. S3가 복잡하기 때문이 아니라, 이벤트 기반 아키텍처 위에 강력한 일관성을 구현하고, 데이터베이스 배경 작업을 관리하며, 테라바이트 단위의 데이터를 복구하는 일은 깊은 전문 지식과 시간이 필요하기 때문입니다.

더糟한 것은, 만약 여러분이 컨테이너를 배포할 때 DevSecOps 위생을 무시하고, 이미지 스캔을 하지 않으며, 비밀번호 저장소를 사용하지 않으며, L7 네트워크 정책을 적용하지 않는다면, 여러분은 스토리지를 만들지 않습니다. 여러분은 취약점의 벡터와 기술적 부채를 만들게 될 것입니다.화재.

데이터베이스 분할: 되돌아갈 수 없는 점

데이터베이스 분할은 수직 확장, 쿼리 최적화, 캐싱 레벨, 읽기 복제를 모두 완전히 사용한 후에만 수행해야 합니다. 이는 마지막 수단입니다.

잘하지 않으면 “뜨거운” 셰어드, 복제 지연, 셰어드 간 쿼리 실패가 발생합니다. 특히 셰어딩 키를 잘못 선택할 경우 더욱 심각합니다. DevOps 백업, 모니터링, 리밸런싱 도구 없이 진행하면 확장성 대신 장애 회복 능력을 잃게 됩니다.

핵심은 우리가 "분할을 해제할 수 없다"는 점입니다. 이 방식을 도입하면, 그걸 빠져나가려면 수십 배의 고통을 겪어야 합니다.

이제 진짜 문제는 기술적 문제가 아니라 조직적 문제입니다

어떤 벤치마크도 현대 DevOps의 가장 큰 제약이 인지 능력, 메모리, 작업 속도가 아니라, 도로맵 문제로 인한 의사결정 지연이라는 사실을 말하지는 않습니다.일부 기업에서는 DevOps roadmap이 존재하지 않으며, 일부 기업에서는 전혀 없을 정도입니다. 왜냐하면 전략이 허리케인 솔루션의 демо 판매에 넘겨져 있기 때문입니다.

반응형 실행 문화는 어떤 결과를 가져옵니까?

  • CTO가 개발 주문을 서명한 후, 엔지니어들은 사양 대신 “이것을 100대 서버에 자동화하라”는 지시를 받습니다. 문서화 없이, 명확한 아키텍처 없이, 테스트 커버리지 없이.
  • 그리고 3개월 후: “왜 이렇게 느리게 진행되나요? 우리가 왜 이걸 만들었는지 도대체 이유가 뭐죠?”

이것은 리더십이 아니라 책임 회피입니다.

반응형 조직에서 DevOps 팀은 좋은 의지를 소모하며 로그와 그래프 속의 유령을 쫓습니다. **그들이 설계하지 않은 것을 고치고, 그들이 소유하지 않은 것을 보호합니다.**무엇이 고장나면? 책임은 사람에게 있으며, 프로세스에 있지 않습니다. 이것은 DevOps가 아니라 '야스노옵스’라는 예언자 팀입니다. 진정한 DevOps 문화는 누가 실수했는지 묻지 않습니다. 무엇이 실패했는지 파악하고 시스템을 고치는 것이며, 범인을 찾는 것이 아닙니다. 귀하의 경우 시스템은 의사결정 단계에서 DevOps의 참여 부족과 로드맵 부족입니다.

러시아 시장: 속도 대비 안정성

2023~2024년 사이 러시아의 SaaS 시장은 수조 루블로 성장했지만, 이는 안정적이고 예측 가능한 시장이 아니라 빠른 속도로 성장하는 '스프라이트’입니다. 최신 기술로 보이려는 경쟁은 현대적인 기술이 되기 위해 필요한 기초를 파괴합니다.우리는 ГосТех가 설정한 방향으로 움직여야 합니다. 통일된 로깅, 인증된 API, 모니터링, ФСТЭК의 요구 사항 준수, 공급망의 무결성 등에 대한 것입니다. 그러나 급하게 구축되고 즉흥적인 결정들로 이루어진 아키텍처에 표준을 어떻게 통합할 수 있을까요? DevOps 팀이 설계 과정에 참여하지 않았다면, 어떻게 보안을 보장할 수 있을까요?

이런 회사는 여전히 인프라를 부차적인 문제로 여깁니다. 이것은 엔지니어링의 실패가 아니라 기대치 관리의 실패입니다.

상황을 어떻게 바꿀 수 있을까요?

해결책은 입장의 변화입니다:

  • “이제 바로 구축해서 판매할 수 있다” → “우리는 이걸 근시안적으로 소유할 수 있을까요?”
  • 기능 도입 속도 → 플랫폼의 지속성
  • DevOps가 소방대처럼 대응 → DevOps가 공동 아키텍트로 전환

*Note: The term “ГосТех” is transliterated as “GosTech” since there is no direct Korean equivalent, and it is a proper noun (government technology standard). The rest of the text is translated with context-appropriate Korean equivalents.*큰 기업들은 이 길을 걸어왔습니다. 그들은 자신의 roadmap을 공개합니다. 그들은 안정성을 위해 출시 일정을 미룹니다. 그들은 단순히 배포 일정만을 측정하는 것이 아니라 운영 준비도 측정합니다.

그들은 단순한 진리를 이해합니다 - 제어 없이의 속도는 유연성 아닙니다. 그것은 흐름입니다. 그리고 이 흐름은 국가 기밀이 걸린 기업용 소프트웨어에서 특히 용납될 수 없습니다.

위기에서 벗어나기 위해서는 전환 필요

  1. 반응형 관리에서 전략적 계획으로 - DevOps의 roadmap 개발, 초기 단계에서 모든 이해관계자 참여.
  2. 실행자에서 전략적 파트너로 - DevOps를 제품 개발의 필수 요소로 인정.
  3. 무질서한 도입에서 체계적인 전환으로 - 기술 도입을 단계적으로 진행하며, 테스트를 통해 틈새를 반복적으로 파악.
  4. 그리고 그때 “구매” 버튼이 자동으로 눌리지 않게 될 거예요 :slight_smile:현대의 상황, 특히 국방기술(GosTech)의 환경에서는 운영 성숙도를 무시하는 것은 단순한 위험을 넘어서 전략적 오류입니다.