본문으로 건너뛰기

2 - 데이터 수집 생성

데이터 수집 파이프라인을 생성하는 방법을 안내합니다.

생성한 파이프라인의 엔드포인트를 통해 사용자의 데이터를 전송하면 Nzdata가 데이터를 수집/저장하는 모든 과정을 자동으로 처리합니다.

전송 가능한 수집 유형은 Kafka 또는 MQTT를 선택할 수 있습니다.

A. 데이터 수집 생성

데이터 수집을 시작하기 위해 데이터 수집을 생성해야 합니다.

  1. 좌측 메뉴에서 데이터를 클릭합니다.
  2. 하위 메뉴에서 수집을 클릭합니다.
  3. 페이지 우측 상단에 위치한 생성 버튼을 클릭하여 수집 파이프라인 생성 다이얼로그를 시작합니다.

B. 데이터 수집 유형 선택

수집 유형 선택은 데이터 파이프라인을 시작하는 과정입니다. 아래와 같이 데이터의 수집 유형을 선택하여 수집을 시작할 수 있습니다.

Kafka

  • Kafka: Kafka를 사용하여 실시간 데이터를 수집합니다. 대량의 데이터를 고속으로 처리할 경우 사용합니다. 데이터를 적재하기 위해서는 Kafka 에 대한 기본 이해가 필요합니다. 데이터 전송시 사용될 Kafka 토픽과 계정은 테이블 ID로 부터 자동으로 생성됩니다. 별도의 상세 설정은 필요하지 않습니다. Kafka 를 선택한 경우라도 MQTT 토픽과 계정은 생성되며, 실시간 데이터를 읽을 때는 MQTT를 사용합니다.

MQTT

  • MQTT: MQTT를 사용하여 데이터를 수집합니다. 사물 인터넷 환경의 데이터 전송 표준으로서 스마트 센서, 사물 인터넷 등 다양한 디바이스로부터 데이터를 수집할 수 있습니다. 데이터 전송시 사용될 MQTT 토픽과 계정은 테이블 ID로 부터 자동으로 생성됩니다. 별도의 상세 설정은 필요하지 않습니다.

데이터 수집 유형 선택

설정 과정

  • '수집 유형' 드롭다운에서 원하는 유형 (Kafka 또는 MQTT)을 선택합니다.
  • 설정을 완료한 후, 화면 하단의 '다음' 버튼을 클릭하여 데이터 수집 설정의 다음 단계로 넘어갑니다.

도움말

각 설정 옵션 옆에 있는 (?) 아이콘을 클릭하면 해당 옵션에 대한 추가 정보와 도움말을 볼 수 있습니다.

용어 설명

  • Kafka: 실시간으로 스트리밍 데이터를 수집하고 처리하는 데 최적화된 분산 데이터 저장소입니다. 실시간 스트리밍 데이터 파이프라인과 실시간 스트리밍 애플리케이션을 구축하는 데 사용됩니다. 자세한 내용은 Apache Kafka 를 참조하세요.
  • MQTT: 머신 대 머신 통신에 사용되는 표준 기반 메시징 프로토콜 입니다. 뛰어난 확장성과 가벼운 특징으로 인해 사물 인터넷 환경에서 데이터 전송 표준으로 사용됩니다. 자세한 내용은 MQTT를 참조하세요.

C. 데이터 저장 설정

이제는 수집된 데이터의 저장 방식을 설정해야 합니다. 여기서는 테이블 ID 및 이름, 그리고 데이터 유지 기간을 설정할 수 있습니다. 데이터의 저장은 Delta Lake를 사용하여 데이터의 무결성과 일관성을 보장합니다.

데이터 저장 설정

설정 옵션

  • 테이블 ID: 각 데이터 항목을 고유하게 식별할 수 있는 ID를 입력합니다. 알파벳 소문자, 숫자, 밑줄(_)만 허용됩니다.
  • 테이블 이름: 데이터 저장소에서 데이터를 참조할 때 사용될 이름을 입력합니다. 명확하고 기억하기 쉬운 이름을 사용하는 것이 좋습니다.
  • 저장소 유형: 현재 시스템은 'Delta Lake'만을 지원하며, 이 옵션은 변경할 수 없습니다.
  • 데이터 유지 기간: 데이터를 얼마 동안 보관할지 설정합니다. 일, 개월, 년 단위 등의 옵션을 선택할 수 있습니다.

설정 절차

  1. '테이블 ID' 필드에 원하는 ID를 입력합니다.
  2. '테이블 이름' 필드에 데이터를 참조할 때 사용할 이름을 입력합니다.
  3. '데이터 유지 기간'에서 데이터를 얼마 동안 보관할지 선택합니다.

용어 설명

  • Delta Lake: 델타 레이크는 오픈 소스 스토리지 프레임워크로서 다양한 컴퓨팅 엔진과 개발 언어를 지원하고 형식에 구애받지 않는 레이크하우스 아키텍처를 구축할 수 있게 해줍니다. 자세한 내용은 Delta Lake를 참조하세요.

D. 데이터 스키마 설정

수집된 데이터를 효과적으로 관리하기 위해서는 데이터 스키마를 정의해야만 합니다. 이 단계는 수집되는 데이터의 타입, 필드 이름, 그리고 필드에 대한 추가 코멘트를 설정합니다.

Nzdata에서는 UI를 통해 시계열 데이터를 위한 데이터 스키마 설정을 쉽게 지원합니다. 따라서 timestamp (Timestamp 타입) 필드와 date (date 타입) 필드는 자동으로 필수로 설정됩니다. timestamp 필드 의 경우 사용자가 선택한 수집 유형의 엔드포인트에 따라 필수로 전송해 주어야만 하며 Microsecond 서브타입만 지원합니다. date 필드는 전송하지 않아도 자동으로 생성됩니다.

데이터 스키마는 한번 설정 시 변경이 어려울 수 있으므로 신중하게 설정해야 합니다. 예를 들면 아래와 같은 제약사항을 가집니다.

  1. 필드 이름과 데이터 타입은 최초 설정 이후 변경할 수 없습니다. 만약 변경이 필요하다면 새로운 필드를 추가하고 기존 필드를 사용하지 않도록 설정해야 합니다.
  2. 한번 생성된 필드는 삭제할 수 없습니다. 특정 시점이후 사용하지 않으려면 데이터 전송시 해당 필드를 전송하지 않거나 null 값을 전송해야 합니다.

데이터 스키마 설정

설정 옵션

  • Type: 데이터 타입을 선택합니다.
    • String: 문자열 타입
    • Int: 4-byte 정수 타입
    • BigInt: 8-byte 정수 타입
    • Float: 4-byte 부동 소수점 타입
    • Double: 8-byte 부동 소수점 타입
    • Boolean: 참/거짓 값을 저장하는 타입
    • Timestamp: 특정 시점을 나타내는 타입으로 Epoch time 값을 저장합니다. 마이크로초 정수 단위만 지원합니다. (e.g. 1723518644212514)
  • Subtype: 서브 타입은
    • Microsecond: 마이크로초 단위의 시간 정보를 포함합니다. (현재 Timestamp 타입의 서브 타입은 마이크로초 서브타입만 자동으로 선택됩니다. 추가 서브타입은 추후 업데이트를 통해 제공될 예정입니다.)
  • Name: 필드의 이름을 입력합니다. (영문 소문자, 숫자, 밑줄(_)만 입력 가능합니다.) 한번 설정시 변경할 수 없습니다.
  • Comment: 필드에 대한 추가 설명이나 주석을 입력할 수 있습니다.

설정 절차

  1. 'Type' 드롭다운 메뉴에서 적절한 데이터 타입을 선택합니다.
  2. 'Name' 필드에 데이터 필드의 이름을 입력합니다.
  3. 'Comment' 필드에 필드에 대한 추가 설명이나 주석을 입력합니다.

필드 추가

  • 필드 목록에 더 많은 필드를 추가하려면 '필드 추가' 버튼을 클릭합니다. 각 필드는 위와 같은 방법으로 구성할 수 있습니다.

E. 설정 검토

수집 파이프라인 생성을 완료하기 전에, 설정된 모든 정보를 검토하고, 필요한 경우 수정할 수 있습니다. 이 검토 과정은 파이프라인의 정확성과 효율성을 보장하기 위해 중요합니다.

설정 검토

검토 항목

  • 데이터 수집 설정: 수집 유형, 토픽 이름 등 데이터 수집에 대한 설정을 검토합니다.
  • 데이터 저장 설정: 저장소 유형, 테이블 ID, 테이블 이름, 데이터 유지 기간 등의 데이터를 저장에 대한 설정을 검토합니다.
  • 데이터 스키마 설정: 사용자가 설정한 스키마 정의에 맞추어 미리 전송해야 할 데이터 형식을 샘플 형태로 확인할 수 있습니다.
  • 데이타 수집 바로 시작하기: 데이타 수집 바로 시작하기를 체크하고 생성 버튼을 클릭하면 바로 데이터 수집이 시작됩니다.

한번 데이터 수집 파이프라인이 시작되면 이후 스키마 변경이 불가능하니 신중하게 선택하시기 바랍니다. 데이터 파이프라인만 생성하고 수집을 시작하지 않으려면 체크를 해제하고 생성 버튼을 클릭하세요. 나중에 데이터 수집 목록 화면에서 시작 버튼을 클릭하여 데이터 수집을 시작할 수 있습니다.

최종 확인 및 생성

모든 설정이 올바르게 되었는지 확인한 후, 화면 하단의 '생성' 버튼을 클릭하여 데이터 수집 파이프라인의 설정을 완료합니다. 이 버튼을 클릭하면 모든 설정이 시스템에 적용됩니다.

주의 사항

  • 모든 설정을 확인한 후, '생성' 버튼을 클릭하기 전 다시 한 번 설정을 검토하시기 바랍니다. 사용자가 전송하는 데이터와 스키마 설정이 다른 경우 데이터 수집에 에러가 발생할 수 있습니다.
  • 필요한 경우, 이전 단계로 돌아가 설정을 수정할 수 있습니다. 각 단계의 설정이 올바르게 되었는지 확인해 주세요.

E. 생성 완료 및 연결 정보 확인

이제 데이터 수집 파이프라인이 생성되었습니다. 생성된 파이프라인의 연결 정보를 확인할 수 있습니다. 이제 설정된 파이프라인의 엔드포인트로 데이터를 전송하기만 하면 됩니다.

수집된 데이터는 설정된 저장소에 안전하게 저장되고, 필요에 따라 실시간 분석 및 시각화를 통해 다양한 인사이트를 도출할 수 있습니다.

  • 주의: Kafka, MQTT 연결 정보는 해당 화면을 벗어나면 재확인할 수 없습니다. 반드시 연결 정보 다운로드 버튼을 클릭하여 연결 정보를 저장해 두세요.

설정 검토

다음 단계

다음 단계에서는 생성된 데이터 수집 파이프라인을 통해 데이터를 전송하는 방법을 확인할 수 있습니다.