two_sample_t_test_fl()

아티클
11/23/2024

적용 대상: ✅Microsoft Fabric ✅Azure Data Explorer

이 함수 two_sample_t_test_fl() 는 2 샘플 T-테스트를 수행하는 UDF(사용자 정의 함수)입니다.

참고 항목

비교할 두 데이터 세트에 서로 다른 분산이 있다고 가정하는 경우 네이티브 welch_test()를 사용하는 것이 좋습니다.

필수 조건

클러스터에서 Python 플러그 인을 사용하도록 설정해야 합니다. 이 작업은 함수에 사용되는 인라인 Python에 필요합니다.

데이터베이스에서 Python 플러그 인을 사용하도록 설정해야 합니다. 이 작업은 함수에 사용되는 인라인 Python에 필요합니다.

구문

T | invoke two_sample_t_test_fl(data1, data2, test_statistic,p_value equal_var, )

구문 규칙에 대해 자세히 알아봅니다.

매개 변수

이름	Type	필수	설명
data1	`string`	✔️	테스트에 사용할 첫 번째 데이터 집합을 포함하는 열의 이름입니다.
data2	`string`	✔️	테스트에 사용할 두 번째 데이터 집합을 포함하는 열의 이름입니다.
test_statistic	`string`	✔️	결과에 대한 테스트 통계 값을 저장할 열의 이름입니다.
p_value	`string`	✔️	결과에 대한 p-value를 저장할 열의 이름입니다.
equal_var	`bool`		기본값인 경우 `true` 모집단 분산이 동일하다고 가정하는 표준 독립 2 샘플 테스트를 수행합니다. 이면 `false`모집단 분산이 동일하다고 가정하지 않는 Welch의 t-test를 수행합니다. 위에서 설명한 대로 네이티브 welch_test()를 사용하는 것이 좋습니다.

함수 정의

다음과 같이 해당 코드를 쿼리 정의 함수로 포함하거나 데이터베이스에 저장된 함수로 만들어 함수를 정의할 수 있습니다.

쿼리 정의
저장

다음 let 문을 사용하여 함수를 정의합니다. 사용 권한이 필요 없습니다.

Important

let 문은 자체적으로 실행할 수 없습니다. 그 뒤에 테이블 형식 식 문이 있어야 합니다. 작업 예제 two_sample_t_test_fl()를 실행하려면 예제를 참조 하세요.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

다음을 사용하여 저장 함수를 한 번 정의합니다 .create function. 데이터베이스 사용자 권한이 필요합니다.

Important

예제와 같이 함수를 사용하려면 먼저 이 코드를 실행하여 함수를 만들어야 합니다.

.create-or-alter function with (folder = "Packages\\Stats", docstring = "Two-Sample t-Test")
two_sample_t_test_fl(tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
}

예시

다음 예제에서는 호출 연산자를 사용하여 함수를 실행합니다.

쿼리 정의
저장

쿼리 정의 함수를 사용하려면 포함된 함수 정의 후에 호출합니다.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Important

이 예제를 성공적으로 실행하려면 먼저 함수 정의 코드를 실행하여 함수를 저장해야 합니다.

datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

출력

ID	sample1	sample2	test_stat	p_val
테스트 #1	[23.64, 20.57, 20.42]	[27.1, 22.12, 33.56]	-1.7415675457565645	0.15655096653487446
테스트 #2	[20.85, 21.89, 23.41]	[35.09, 30.02, 26.52], -3.2711673491022579	0.030755331219276136
테스트 #3	[20.13, 20.5, 21.7, 22.02]	[32.2, 32.79, 33.9, 34.22]	-18.5515946201742	1.5823717131966134E-06

다음을 통해 공유

two_sample_t_test_fl()

필수 조건

구문

매개 변수

함수 정의

예시

피드백

추가 리소스