Stream Analytics 코드리스 편집기를 사용하여 Azure Data Lake Storage Gen2로 필터링 및 수집
이 문서에서는 코드리스 편집기를 사용하여 Stream Analytics 작업을 쉽게 만드는 방법을 설명합니다. Event Hubs에서 지속적으로 읽고, 들어오는 데이터를 필터링한 다음, 결과를 Azure Data Lake Storage Gen2에 지속적으로 씁니다.
필수 조건
- Azure Event Hubs 리소스는 공개적으로 액세스할 수 있어야 하며 방화벽 뒤에 있거나 Azure Virtual Network에서 보호될 수 없습니다.
- Event Hubs의 데이터는 JSON, CSV 또는 Avro 형식으로 직렬화되어야 합니다.
실시간 데이터를 필터링하고 수집하는 Stream Analytics 작업 개발
Azure Portal에서 Azure Event Hubs 인스턴스를 찾고 선택합니다.
Event Hubs 창에서 데이터의 Serialization 형식 및 작업이 Event Hubs에 연결하는 데 사용할 인증 방법을 지정합니다. 그런 다음 연결을 선택합니다.
연결이 성공적으로 설정되고 Event Hubs 인스턴스로 이동하는 데이터 스트림이 있는 경우 다음 두 항목이 즉시 표시됩니다.
Azure Data Lake Storage Gen2 타일을 선택합니다. 필터링된 데이터를 보낼 Azure Data Lake Gen2 계정을 선택합니다.
- 드롭다운 메뉴에서 구독, 스토리지 계정 이름 및 컨테이너를 선택합니다.
- 구독을 선택하면 인증 방법 및 스토리지 계정 키가 자동으로 채워집니다. 연결을 선택합니다.
필드에 대한 자세한 내용과 경로 패턴의 예제를 보려면 Azure Stream Analytics의 Blob 스토리지 및 Azure Data Lake Gen2 출력을 참조하세요.
필요에 따라 정적 미리 보기 가져오기/정적 미리 보기 새로 고침을 선택하여 Azure Data Lake Storage Gen2에서 수집할 데이터 미리 보기를 확인합니다.
작업을 시작하려면 작업이 실행되는 SU(스트리밍 단위) 수를 지정합니다. SU는 작업에 할당된 컴퓨팅 및 메모리의 양을 나타냅니다. 세 개로 시작한 다음, 필요에 따라 조정하는 것이 좋습니다.
시작을 선택하면 작업이 2분 이내에 실행되기 시작하고 메트릭이 아래 탭 섹션에서 열립니다.
Stream Analytics 작업 탭의 데이터 처리 섹션 아래에서 작업을 볼 수 있습니다. 작업 상태가 실행 중으로 표시될 때까지 새로 고침을 선택합니다. 메트릭 열기를 선택하여 필요에 따라 모니터링하거나 중지하고 다시 시작합니다.
샘플 메트릭 페이지는 다음과 같습니다.
Data Lake Storage에서 데이터 확인
지정한 컨테이너에 생성된 파일이 표시됩니다.
파일을 다운로드하고 열어 필터링된 데이터만 표시되는지 확인합니다. 다음 예제에서는 SwitchNum이 US로 설정된 데이터를 볼 수 있습니다.
{"RecordType":"MO","SystemIdentity":"d0","FileNum":"548","SwitchNum":"US","CallingNum":"345697969","CallingIMSI":"466921402416657","CalledNum":"012332886","CalledIMSI":"466923101048691","DateS":"20220524","TimeType":0,"CallPeriod":0,"ServiceType":"S","Transfer":0,"OutgoingTrunk":"419","MSRN":"1416960750071","callrecTime":"2022-05-25T02:07:10Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:09.5140000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null} {"RecordType":"MO","SystemIdentity":"d0","FileNum":"552","SwitchNum":"US","CallingNum":"012351287","CallingIMSI":"262021390056324","CalledNum":"012301973","CalledIMSI":"466922202613463","DateS":"20220524","TimeType":3,"CallPeriod":0,"ServiceType":"V","Transfer":0,"OutgoingTrunk":"442","MSRN":"886932428242","callrecTime":"2022-05-25T02:07:13Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:12.7350000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null} {"RecordType":"MO","SystemIdentity":"d0","FileNum":"559","SwitchNum":"US","CallingNum":"456757102","CallingIMSI":"466920401237309","CalledNum":"345617823","CalledIMSI":"466923000886460","DateS":"20220524","TimeType":1,"CallPeriod":696,"ServiceType":"V","Transfer":1,"OutgoingTrunk":"419","MSRN":"886932429155","callrecTime":"2022-05-25T02:07:22Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:21.9190000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
Event Hubs 지역 복제 기능을 사용할 때 고려 사항
Azure Event Hubs는 최근 공개 미리 보기에서 지역에서 복제 기능을 시작했습니다. 이 기능은 Azure Event Hubs의 지역 재해 복구 기능과 다릅니다.
장애 조치(failover) 유형이 강제 이고 복제 일관성이 비동기인 경우 Stream Analytics 작업은 Azure Event Hubs 출력에 대한 출력을 정확히 한 번 보장하지 않습니다.
Azure Stream Analytics는 이벤트 허브의 출력을 사용하는 생산자로서 기본 및 보조 간의 복제 지연이 구성된 최대 지연 시간에 도달할 경우 장애 조치(failover) 기간 동안 및 Event Hubs에 의해 제한되는 동안 작업에 워터마크 지연을 관찰할 수 있습니다.
Azure Stream Analytics는 Event Hubs를 입력으로 사용하는 소비자로서 장애 조치 기간 동안 작업의 워터마크 지연을 관찰할 수 있으며 장애 조치(failover)가 완료된 후 데이터를 건너뛰거나 중복 데이터를 찾을 수 있습니다.
이러한 주의 사항으로 인해 Event Hubs 장애 조치(failover)가 완료된 직후 적절한 시작 시간으로 Stream Analytics 작업을 다시 시작하는 것이 좋습니다. 또한 Event Hubs 지역 복제 기능은 공개 미리 보기 상태이므로 이 시점에서 프로덕션 Stream Analytics 작업에 이 패턴을 사용하지 않는 것이 좋습니다. Event Hubs 지역 복제 기능을 일반적으로 사용할 수 있고 Stream Analytics 프로덕션 작업에서 사용할 수 있기 전에 현재 Stream Analytics 동작이 개선됩니다.
다음 단계
Azure Stream Analytics 및 직접 만든 작업을 모니터링하는 방법에 대해 자세히 알아봅니다.