MongoDB > 1. 소개, 장단점, 빅데이터 처리 특화, 불안정성, Sharding, Replica-Set

08 Apr 2023 in Database

본 글은 SW마에스트로 멘토링 이후 별도 학습 후 작성한 글입니다.

1. 서론

1.1. 소개

크로스 플랫폼 도큐먼트 지향 데이터베이스 시스템
JSON과 같은 동적 스키마형 도큐먼트(MongoDB에서는 BSON이라 함) 구조 사용

1.2. 장점

Schema-less 구조
- 다양한 형태의 데이터 저장 가능
- 데이터 모델의 유연한 변화 가능(데이터 모델 변경, 필드 확장 용이)
MySQL에 비해 빠른 Read/Write 성능
- 성능 테스트 : https://www.slideshare.net/WooYeongChoe1/slidshare-mongodbmysqlcrud
Scale Out 구조
- 많은 데이터 저장 가능
- 구조 확장이 용이함
- 애플리케이션을 더 쉽고 빠르게 데이터 통합을 가능하게 함
JSON 구조
- 직관적으로 데이터 구조 이해 가능
데이터 크기
- MySQL : 하나의 row의 최대 크기가 65,535 bytes
- MongoDB: 하나의 document의 최대 크기가 16MB

1.3. 단점

데이터 업데이트 중 장애 발생 시, 데이터 손실 가능
많은 인덱스 사용 시 충분한 메모리 확보 필요
데이터 공간 소모가 RDBMS에 비해 많음(비효율적인 Key 중복 입력)
복잡한 JOIN 연산 사용 시 성능제약이 따름
트랜잭션 지원이 RDBMS 대비 미흡
제공되는 MapReduce 작업이 Hadoop이 비해 성능이 떨어짐

2. 본론

2.1. 빅데이터 처리 특화

Memory Mapped(데이터 쓰기 시에 OS의 가상 메모리에 데이터를 넣은 후 비동기로 디스크에 기록하는 방식)을 사용
방대한 데이터를 빠르게 처리 가능
OS의 메모리를 활용하기 때문에 메모리가 차면 하드디스크로 데이터 처리하여 속도가 급격히 느려짐
하드웨어적인 특면에서 투자 필요

2.2. MongoDB 불안정성

데이터 양이 많을 경우
- 일부 데이터의 손실 가능성 존재 샤딩의 비정상적인 동작 가능성 레플리카 프로세스의 비정상 동작 가능성

=> MongoDB 5.0, 6.0 버전을 거듭하면서 해결됨

2.3. 샤딩

2.3.1. 샤딩이란

데이터를 분산하여 저장하는 개념
- 한 대의 서버에 빅데이터를 저장하게 되면 I/O가 한 대의 서버에서 일어나게 됨
- 서버 여러 대를 두고 분산 저장한다면 I/O가 여러 대에서 일어나기 때문에 효율성 향상

2.3.2. 목적

데이터 분산
- 데이터를 분산하여 순차적으로 저장한다면 한 대 이상에서 트래픽을 감당하기 때문에 부하를 분산하는 효과가 있음
백업과 복구 전략
- 미리 데이터를 분산하여 저장하면 리스크로부터 보호받고 효과적인 시스템 운영이 가능
빠른 성능
- 여러 대의 독립된 프로세스가 병렬로 작업을 동시에 수행하기 때문에 이상적으로 빠른 처리 성능 보장

2.3.3. MongoDB 샤딩 구성 요소

Shard : 분산된 데이터 저장 공간
Mongoos : 라우트 서버로 샤드 서버에게 알맞은 일을 분배함, 올바른 각각의 요청된 일을 알맞은 샤드로 라우팅하고 샤드 서버는 이(빅데이터)를 처리
Config servers : 샤드에 대한 메타 데이터 저장(인덱싱)/관리

2.4. 레플리카 셋(Replica Set)

2.4.1. 정의

데이터베이스의 고가용성 환경을 위해 필요한 기능
DB 노드의 장애가 발생하거나, DB에 문제가 발생하는 경우에도 빠르게 장애에 대응하여 복구하는 시간을 줄일 수 있음
자체적인 복제 기능을 지원하여 서비스 중인 MongoDB 인스턴스에 문제가 생겼을 대, 레플리카 셋의 구성원 중의 하나인 복제 노드가 장애 노드를 즉시 대체

2.4.2. 역할

Primary : 클라이언트에서 DB로 읽기 및 쓰기 작업 수행
- 단 하나만 존재 가능
- 직접적으로 클라이언트와 정보를 주고 받음
- 장애가 발생하거나 네트워크에 문제가 발생하면 실제 레플리카셋이 구성되어 있더라도 세컨더리가 프라이머리로 올라오는 동안 실제 데이터를 읽고 쓰는 것이 일시적 중단될 수 있음
Secondary : 프라이머리로부터 데이터를 동기화
- 장애시 프라이머리로의 역할 전환
- 프라이머리의 장애 상황에서 어떤 세컨더리 노드를 프라이머리로 올릴것인지 투표권을 가지고 있음
- 클라이언트의 읽기 작업을 복제노드로 분산시켜 DB의 읽기 부하를 줄이는 역할
  - 프라이머리와 세컨더리의 동기화 시간을 즉각적이지 않기 때문에 실시간 반영이 필요한 부분에서는 적용이 어려움
- 지연된 읽기 복제 기능
  - 프라이머리에 쓰기 작업을 발생하여 데이터가 생성되어도 일정시간 간격을 두고 복제
  - 사람의 실수를 방지하고, 패치나 배치 작업 이후 DB를 되돌려야 하는 상황이 발생 했을때 지연된 시간만큼 원래 데이터로 복구가 가능
  - 지연된 복제 기능으로 구성된 세컨더리 노드는 투표권이 없고, 장애 발생시 세컨더리 노드가 가지는 기능인 예비 프라이머리 노드의 역할을 하지 않음
    - 수동으로 프라이머리로 승격 가능
Arbiter : 데이터를 동기화하지는 않으며 레플리카 셋의 복구를 돕는 역할 수행
- 투표권만을 가지고 레플리카 셋을 모니터링하는 역할

2.4.3. Heartbeat

레플리카셋 구성언 사이에서 주기적으로 10초에 한 번 씩 ping을 보내 서로의 노드를 확인하는 작업
노드 및 DB의 장애를 파악하는 역할
장애가 발견되면 세컨더리 노드중에 하나를 프라이머리로 승급
- 투표권을 가진 노드들이 프라이머리로 올리게 될 노드를 결정하여 프라이머리로 승급

2.4.4. 참고

레플리카셋은 최소 3대 이상, 홀수로 구성원을 가지는 것을 권장
- ex) 프라이머리의 장애를 감지했을 때, 레플리카셋이 프라이머리와 세컨더리 둘만으로 구성되어 있는 경우 레플리카 셋의 다수의 멤버들이 투표를 할 수 없는 상황이 발생 -> 세컨더리는 고립된 노드로 남기 때문에 레플리카 셋이 정상적으로 동작하지 않음
DB로 사용할 수 있는 노드가 2개로 제한되어 있는 경우 -> 다른 용도의 노드에 Arbiter를 구성해 선거권만 주면 2대의 노드로도 레플리카 셋을 구성하는 것이 가능
- 한개 노드의 장애가 발생했을 때 과반수 이상의 투표권을 가지는 노드가 존재하게 되서 세컨더리 노드를 프라이머리로 올리는 선거인단 역할을 수행
- 데이터를 쌓지 않기 때문에 적은 리소스로도 사용 가능

MongoDB > 1. 소개, 장단점, 빅데이터 처리 특화, 불안정성, Sharding, Replica-Set

1. 서론

1.1. 소개

1.2. 장점

1.3. 단점

2. 본론

2.1. 빅데이터 처리 특화

2.2. MongoDB 불안정성

2.3. 샤딩

2.3.1. 샤딩이란

2.3.2. 목적

2.3.3. MongoDB 샤딩 구성 요소

2.4. 레플리카 셋(Replica Set)

2.4.1. 정의

2.4.2. 역할

2.4.3. Heartbeat

2.4.4. 참고

3. 결론

3.1. Reference

개발자 이진우

Error

1. 서론

1.1. 소개

1.2. 장점

1.3. 단점

2. 본론

2.1. 빅데이터 처리 특화

2.2. MongoDB 불안정성

2.3. 샤딩

2.3.1. 샤딩이란

2.3.2. 목적

2.3.3. MongoDB 샤딩 구성 요소

2.4. 레플리카 셋(Replica Set)

2.4.1. 정의

2.4.2. 역할

2.4.3. Heartbeat

2.4.4. 참고

3. 결론

3.1. Reference

Templates (for web app):

Error