다음을 통해 공유


선형 상관 관계 컴퓨팅

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터 집합의 열 값 간의 선형 상관 관계 계산

범주: 통계 함수

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 컴퓨팅 선형 상관 관계 모듈을 사용하여 입력 데이터 세트에서 가능한 각 변수 쌍에 대한 Pearson 상관 계수 집합을 계산하는 방법을 설명합니다.

Pearson의 R 테스트라고도 하는 Pearson 상관 계수는 두 변수 간의 선형 관계를 측정하는 통계 값입니다. 계수 값을 검사하여 두 변수 간의 관계 강도와 상관 관계가 양수인지 또는 음수인지를 유추할 수 있습니다.

선형 상관 관계를 구성하는 방법

상관 관계 계수를 계산하기 전에 데이터를 정리하고 변수 간의 관계가 이 모듈에 적합한지 확인하는 것과 같은 몇 가지 필수 구성 요소가 있습니다. 누락된 값도 제거하거나 대체해야 합니다.

이 모듈을 사용할 때 적용되는 제한 사항은 다음과 같습니다.

  • 컴퓨팅 선형 상관 관계 모듈은 숫자 값만 처리할 수 있습니다. 누락 값, 숫자가 아닌 값, 범주 값 등의 기타 모든 값 형식은 NaN으로 처리됩니다.

  • 입력으로 전달된 데이터 집합의 모든 숫자 열에 대해 피어슨 상관 관계가 계산됩니다. 이 분석에 적합한 열을 제외해야 합니다.

  • 누락된 값이 있는 데이터에는 컴퓨팅 선형 상관 관계를 사용할 수 없습니다.

1단계: 선형성 확인

테스트하는 열에 일종의 선형 관계가 필요하지 않은 경우 이 계수를 생성할 필요가 없습니다. 따라서 열을 먼저 테스트하여 올바른 종류의 데이터와 올바른 종류의 배포가 일반적으로 있는지 확인하는 것이 좋습니다.

열 간의 관계가 대략 선형인지 여부를 확인할 수 있는 다양한 방법이 있습니다.

  • 데이터 세트의 시각화 옵션을 사용하여 Studio(클래식)에서 변수의 산점도를 만듭니다. 숫자 변수 열 중 하나를 클릭하고 시각화를 확장한 다음 비교를 클릭합니다. 다른 변수를 선택하면 산점도가 자동으로 생성됩니다. 다른 형식의 플롯이 생성되는 경우 하나 이상의 열에 다른(숫자가 아닌) 데이터 형식이 있다는 의미입니다.

  • 두 변수에 대한 회귀 수식을 계산합니다. R 스크립트 실행 모듈에서 로드하고 사용할 수 있는 이를 지원하는 많은 R 패키지가 있습니다.

2단계: 데이터 정리

누락된 값을 제거하거나 채우고, 이상값을 제거하거나 클리핑하고, 열에 적절한 데이터 형식이 있는지 확인해야 합니다.

이 모듈을 사용하기 전에 자리 표시자를 확인하고 이러한 값을 다른 적절한 값으로 바꾸어야 합니다. 원본에서 데이터 세트를 로드할 때 누락된 값에 대해 NaN을 삽입하면 오류가 발생할 수 있습니다. 자리 표시자 값(예: 999 잘못된 결과)을 -1 발생시킬 수도 있습니다.

데이터를 준비하려면 다음 모듈을 사용할 수 있습니다.

메타데이터 편집을 사용하여 열의 데이터 형식을 조정할 수 있습니다. 분석하려는 열이 기능 열로 표시되는지 확인합니다.

3단계: 계수 생성

  1. 컴퓨팅 선형 상관 관계 모듈을 실험에 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.

  2. 분석하려는 데이터 세트를 추가합니다.

  3. 불필요한 열을 제거하려면 데이터 세트와 컴퓨팅 선형 상관 관계 모듈 사이에 데이터 세트 모듈에서 열 선택 모듈을 추가하는 것이 좋습니다. 계수를 계산하려는 두 개의 숫자 열만 가져오기 위해 데이터 세트 모듈에서 열 선택 모듈을 구성합니다.

    그렇지 않으면 컴퓨팅 선형 상관 관계 모듈은 많은 NaN 열을 생성할 수 있습니다.

  4. 이 모듈에 대해 설정할 매개 변수가 없습니다. 그러나 입력으로 전달하는 열이 요구 사항을 충족하지 않으면 실패합니다.

  5. 실험을 실행합니다.

두 열에 대한 결과

두 개의 기능 열이 지정된 경우 컴퓨팅 선형 상관 관계 모듈은 스칼라 Pearson 제품 순간(샘플) 상관 계수를 반환합니다. Pearson 상관 계수(종종 r로 표시됨)의 값 범위는 +1에서 -1까지입니다.

  • +1 는 강력한 양의 선형 관계를 나타냅니다.

  • -1 는 강력한 음의 선형 상관 관계를 나타냅니다.

  • 0 는 두 변수 간의 선형 관계가 없음을 나타냅니다.

계수의 해석은 모델링하는 문제와 연구 중인 변수에 따라 크게 달라집니다. 따라서 Pearson의 상관 계수를 보고하고 해석할 때 데이터의 컨텍스트를 이해하는 것이 중요합니다.

  • 변수가 관련이 없는 것이 확실하지만 Pearson의 상관 계수가 매우 양수(r > .5 정도)인 경우 추가로 조사해야 합니다.

  • 완벽하게 상관 관계가 있는 것으로 알고 있는 두 변수에서 선형 상관 관계를 사용하고 계수 값이 예상과 다른 경우 데이터의 문제를 나타낼 수 있습니다.

두 개 이상의 열에 대한 결과

행렬(즉, 두 개 이상의 기능 열)이 지정된 경우 컴퓨팅 선형 상관 관계 모듈은 각 기능 열 쌍 간의 Pearson 제품 모멘트 상관 관계 집합을 반환합니다.

따라서 결과는 n 열의 각 조합에 대한 계수를 포함하는 n x n 테이블입니다. 조건에 맞지 않는 열이 있으면 NaN("not a number" 값)이 반환됩니다.

예를 들어 자동차 가격 데이터 세트에서 두 개의 숫자 열 wheel-basecurb-weight 범주 열 make 1개를 전달했다고 가정합니다. 결과는 입력 열의 가능한 모든 조합에 대한 3x3 계수 테이블입니다.

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

이 표에서 행은 각 변수makewheel-basecurb-weight를 해당 순서대로 나타내는 것으로 이해됩니다.

  • 자체 상관 wheel-base 관계에 대한 r 값은 1입니다.
  • 상관 관계에 wheel-basecurb-weight 대한 r 값은 0.776386입니다.
  • make 과 관련된 모든 상관 관계는 문자열 기능이므로 make 자체와의 상관 관계를 포함하여 NaN으로 생성됩니다.

의미 없는 값이 많은 복잡한 테이블을 방지하려면 숫자가 아닌 열을 제거하는 것이 좋습니다.

기계 학습 실험에서 이 모듈을 사용하는 방법을 보려면 Azure AI 갤러리를 참조하세요.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

구현 세부 정보

입력으로 전달된 열에 스칼라가 포함된 경우 입력 배열 xy는 벡터로 처리되며 피어슨 곱 모멘트 상관 관계는 다음과 같이 계산됩니다.

linear correlation formula

이 수식에서 각 배열에는 n 개의 요소가 포함되며 xy 샘플의 수단은 각각 μx 및 μy입니다.

행렬의 경우에는 데이터 행렬(X)이 입력이며 이 행렬의 각 열은 값 벡터를 나타냅니다. 데이터 행렬은 n x m이어야 하며 출력은 m x m 행렬입니다. R은 다음과 같이 정의됩니다.

formula for linear correlation

이 수식에서 μx는 xi 열의 평균 값을 나타냅니다. I,j의 요소는 벡터와 자기 자신의 상관 관계를 나타내므로 항상 1입니다.

예상 입력

Name Type Description
데이터 세트 데이터 테이블 입력 데이터 세트

출력

Name Type Description
결과 데이터 집합 데이터 테이블 상관 관계 행렬입니다.

예외

예외 설명
오류 0003 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0021 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.

추가 정보

통계 함수
전체 모듈 목록