선형 상관 관계 컴퓨팅
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
데이터 집합의 열 값 간의 선형 상관 관계 계산
범주: 통계 함수
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)의 컴퓨팅 선형 상관 관계 모듈을 사용하여 입력 데이터 세트에서 가능한 각 변수 쌍에 대한 Pearson 상관 계수 집합을 계산하는 방법을 설명합니다.
Pearson의 R 테스트라고도 하는 Pearson 상관 계수는 두 변수 간의 선형 관계를 측정하는 통계 값입니다. 계수 값을 검사하여 두 변수 간의 관계 강도와 상관 관계가 양수인지 또는 음수인지를 유추할 수 있습니다.
선형 상관 관계를 구성하는 방법
상관 관계 계수를 계산하기 전에 데이터를 정리하고 변수 간의 관계가 이 모듈에 적합한지 확인하는 것과 같은 몇 가지 필수 구성 요소가 있습니다. 누락된 값도 제거하거나 대체해야 합니다.
이 모듈을 사용할 때 적용되는 제한 사항은 다음과 같습니다.
컴퓨팅 선형 상관 관계 모듈은 숫자 값만 처리할 수 있습니다. 누락 값, 숫자가 아닌 값, 범주 값 등의 기타 모든 값 형식은 NaN으로 처리됩니다.
입력으로 전달된 데이터 집합의 모든 숫자 열에 대해 피어슨 상관 관계가 계산됩니다. 이 분석에 적합한 열을 제외해야 합니다.
누락된 값이 있는 데이터에는 컴퓨팅 선형 상관 관계를 사용할 수 없습니다.
1단계: 선형성 확인
테스트하는 열에 일종의 선형 관계가 필요하지 않은 경우 이 계수를 생성할 필요가 없습니다. 따라서 열을 먼저 테스트하여 올바른 종류의 데이터와 올바른 종류의 배포가 일반적으로 있는지 확인하는 것이 좋습니다.
열 간의 관계가 대략 선형인지 여부를 확인할 수 있는 다양한 방법이 있습니다.
데이터 세트의 시각화 옵션을 사용하여 Studio(클래식)에서 변수의 산점도를 만듭니다. 숫자 변수 열 중 하나를 클릭하고 시각화를 확장한 다음 비교를 클릭합니다. 다른 변수를 선택하면 산점도가 자동으로 생성됩니다. 다른 형식의 플롯이 생성되는 경우 하나 이상의 열에 다른(숫자가 아닌) 데이터 형식이 있다는 의미입니다.
두 변수에 대한 회귀 수식을 계산합니다. R 스크립트 실행 모듈에서 로드하고 사용할 수 있는 이를 지원하는 많은 R 패키지가 있습니다.
2단계: 데이터 정리
누락된 값을 제거하거나 채우고, 이상값을 제거하거나 클리핑하고, 열에 적절한 데이터 형식이 있는지 확인해야 합니다.
이 모듈을 사용하기 전에 자리 표시자를 확인하고 이러한 값을 다른 적절한 값으로 바꾸어야 합니다. 원본에서 데이터 세트를 로드할 때 누락된 값에 대해 NaN을 삽입하면 오류가 발생할 수 있습니다. 자리 표시자 값(예: 999
잘못된 결과)을 -1
발생시킬 수도 있습니다.
데이터를 준비하려면 다음 모듈을 사용할 수 있습니다.
메타데이터 편집을 사용하여 열의 데이터 형식을 조정할 수 있습니다. 분석하려는 열이 기능 열로 표시되는지 확인합니다.
3단계: 계수 생성
컴퓨팅 선형 상관 관계 모듈을 실험에 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.
분석하려는 데이터 세트를 추가합니다.
불필요한 열을 제거하려면 데이터 세트와 컴퓨팅 선형 상관 관계 모듈 사이에 데이터 세트 모듈에서 열 선택 모듈을 추가하는 것이 좋습니다. 계수를 계산하려는 두 개의 숫자 열만 가져오기 위해 데이터 세트 모듈에서 열 선택 모듈을 구성합니다.
그렇지 않으면 컴퓨팅 선형 상관 관계 모듈은 많은 NaN 열을 생성할 수 있습니다.
이 모듈에 대해 설정할 매개 변수가 없습니다. 그러나 입력으로 전달하는 열이 요구 사항을 충족하지 않으면 실패합니다.
실험을 실행합니다.
두 열에 대한 결과
두 개의 기능 열이 지정된 경우 컴퓨팅 선형 상관 관계 모듈은 스칼라 Pearson 제품 순간(샘플) 상관 계수를 반환합니다. Pearson 상관 계수(종종 r로 표시됨)의 값 범위는 +1에서 -1까지입니다.
+1
는 강력한 양의 선형 관계를 나타냅니다.-1
는 강력한 음의 선형 상관 관계를 나타냅니다.0
는 두 변수 간의 선형 관계가 없음을 나타냅니다.
계수의 해석은 모델링하는 문제와 연구 중인 변수에 따라 크게 달라집니다. 따라서 Pearson의 상관 계수를 보고하고 해석할 때 데이터의 컨텍스트를 이해하는 것이 중요합니다.
변수가 관련이 없는 것이 확실하지만 Pearson의 상관 계수가 매우 양수(r > .5 정도)인 경우 추가로 조사해야 합니다.
완벽하게 상관 관계가 있는 것으로 알고 있는 두 변수에서 선형 상관 관계를 사용하고 계수 값이 예상과 다른 경우 데이터의 문제를 나타낼 수 있습니다.
두 개 이상의 열에 대한 결과
행렬(즉, 두 개 이상의 기능 열)이 지정된 경우 컴퓨팅 선형 상관 관계 모듈은 각 기능 열 쌍 간의 Pearson 제품 모멘트 상관 관계 집합을 반환합니다.
따라서 결과는 n 열의 각 조합에 대한 계수를 포함하는 n x n 테이블입니다. 조건에 맞지 않는 열이 있으면 NaN("not a number" 값)이 반환됩니다.
예를 들어 자동차 가격 데이터 세트에서 두 개의 숫자 열 wheel-base
과 curb-weight
범주 열 make
1개를 전달했다고 가정합니다. 결과는 입력 열의 가능한 모든 조합에 대한 3x3 계수 테이블입니다.
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
이 표에서 행은 각 변수make
wheel-base
curb-weight
를 해당 순서대로 나타내는 것으로 이해됩니다.
- 자체 상관
wheel-base
관계에 대한 r 값은 1입니다. - 상관 관계에
wheel-base
curb-weight
대한 r 값은 0.776386입니다. - 열
make
과 관련된 모든 상관 관계는 문자열 기능이므로make
자체와의 상관 관계를 포함하여 NaN으로 생성됩니다.
의미 없는 값이 많은 복잡한 테이블을 방지하려면 숫자가 아닌 열을 제거하는 것이 좋습니다.
예
기계 학습 실험에서 이 모듈을 사용하는 방법을 보려면 Azure AI 갤러리를 참조하세요.
- 데이터 처리 및 분석: 이 샘플은 데이터를 수정하기 위한 여러 기술을 보여 줍니다. 컴퓨팅 선형 상관 관계는 잠재적인 기능 열을 식별하는 데 사용됩니다.
기술 정보
이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.
구현 세부 정보
입력으로 전달된 열에 스칼라가 포함된 경우 입력 배열 x 및 y는 벡터로 처리되며 피어슨 곱 모멘트 상관 관계는 다음과 같이 계산됩니다.
이 수식에서 각 배열에는 n 개의 요소가 포함되며 x 및 y 샘플의 수단은 각각 μx 및 μy입니다.
행렬의 경우에는 데이터 행렬(X)이 입력이며 이 행렬의 각 열은 값 벡터를 나타냅니다. 데이터 행렬은 n x m이어야 하며 출력은 m x m 행렬입니다. R은 다음과 같이 정의됩니다.
이 수식에서 μx는 xi 열의 평균 값을 나타냅니다. I,j의 요소는 벡터와 자기 자신의 상관 관계를 나타내므로 항상 1입니다.
예상 입력
Name | Type | Description |
---|---|---|
데이터 세트 | 데이터 테이블 | 입력 데이터 세트 |
출력
Name | Type | Description |
---|---|---|
결과 데이터 집합 | 데이터 테이블 | 상관 관계 행렬입니다. |
예외
예외 | 설명 |
---|---|
오류 0003 | 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다. |
오류 0020 | 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다. |
오류 0021 | 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.