학습 문서 빌드 및 관리
Custom Translator를 사용하면 비즈니스, 산업 및 도메인별 용어와 스타일을 반영하는 번역 모델을 빌드할 수 있습니다. 사용자 지정 모델 학습 및 배포는 쉽고 프로그래밍 기술이 필요하지 않습니다. Custom Translator를 사용하면 병렬 파일, 번역 메모리 파일 또는 zip 파일을 업로드할 수 있습니다.
병렬 문서는 하나(대상)가 다른 하나(소스)의 번역인 문서 쌍입니다. 이 쌍의 문서 하나에는 소스 언어의 문장이 포함되어 있고 다른 문서에는 대상 언어로 번역한 해당 문장이 포함되어 있습니다.
문서를 업로드하기 전에 문서 형식 및 명명 규칙 지침을 검토하여 Custom Translator가 파일 형식을 지원하는지 확인합니다.
문서 세트를 만드는 방법
도메인 내 품질 데이터를 찾는 것이 사용자 분류에 따라 달라지는 어려운 작업인 경우가 많습니다. 사용할 수 있는 데이터를 평가할 때 직접 물어볼 수 있는 몇 가지 질문은 다음과 같습니다.
회사에 사용할 수 있는 이전 번역 데이터가 있나요? 기업은 수년간 인간 번역을 통해 누적된 풍부한 번역 데이터를 보유하고 있는 경우가 많습니다.
방대한 양의 단일 언어 데이터가 있나요? 단일 언어 데이터는 하나의 언어로만 된 데이터입니다. 그렇다면 이 데이터에 대한 번역을 얻을 수 있나요?
온라인 포털을 크롤링하여 원본 문장을 수집하고 대상 문장을 합성할 수 있나요?
각 문서 형식에 대한 교육 자료
원본 | 수행하는 작업 | 따라야 할 규칙 |
---|---|---|
이중 언어 학습 문서 | 시스템에서 용어와 스타일을 학습합니다. | 자유롭게 수행해야 합니다. 도메인 내 인간 번역이 기계 번역보다 낫습니다. 진행하면서 문서를 추가 및 제거하고 BLEU 점수를 개선시켜 보세요. |
튜닝 문서 | 인공신경망 기계 번역 매개 변수를 학습시킵니다. | 엄격해야 합니다. 나중에 번역할 내용을 최적으로 대표하도록 작성합니다. |
테스트 문서 | BLEU 점수를 계산합니다. |
엄격해야 합니다. 나중에 번역하려는 내용을 최적으로 대표하도록 테스트 문서를 작성합니다. |
구 사전 | 항상 지정된 번역을 강제로 적용합니다. | 제한적이어야 합니다. 구 사전은 대/소문자를 구분하며 나열된 단어 또는 구는 지정한 방식으로 번역됩니다. 대부분의 경우 구 사전을 사용하지 않고 시스템에서 학습하도록 하는 것이 좋습니다. |
문장 사전 | 항상 지정된 번역을 강제로 적용합니다. | 엄격해야 합니다. 문장 사전은 대/소문자를 구분하지 않으며 일반적인 도메인 내 짧은 문장에 적합합니다. 문장 사전 일치가 발생하려면 제출된 전체 문장이 원본 사전 항목과 일치해야 합니다. 문장의 일부만 일치하는 경우 항목이 일치하지 않습니다. |
문서 업로드 방법
문서 형식은 프로젝트를 만들 때 선택한 언어 쌍과 연결됩니다.
Custom Translator 포털에 로그인합니다. 기본 작업 영역이 로드되고 이전에 만든 프로젝트의 목록이 표시됩니다.
원하는 프로젝트 이름을 선택합니다. 기본적으로 문서 관리 블레이드가 선택되며 이전에 업로드한 문서의 목록이 표시됩니다.
문서 집합 추가를 선택하고 문서 형식을 선택합니다.
- 학습 집합
- 테스트 세트
- 튜닝 세트
- 사전 세트:
- 구 사전
- 문장 사전
다음을 선택합니다.
참고 항목
사전 세트를 선택하면 사전 형식 선택 대화 상자가 시작됩니다. 하나를 선택하고 다음을 선택합니다.
라디오 단추에서 문서 형식을 선택합니다.
- 병렬 문서의 경우
Document set name
을 입력하고 파일 찾아보기를 선택하여 원본 문서와 대상 문서를 선택합니다. - TM(번역 메모리) 파일이나 ZIP이 있는 여러 집합을 업로드의 경우 파일 찾아보기를 선택하여 파일을 선택합니다.
- 병렬 문서의 경우
업로드를 선택합니다.
이때 Custom Translator는 문서를 처리하고 업로드 알림에 표시된 대로 문장을 추출하려고 합니다. 처리가 완료되면 업로드 성공 알림이 표시됩니다.
업로드 기록 보기
작업 영역 페이지에서 문서 유형, 언어 쌍, 업로드 상태 등 모든 문서 업로드의 기록을 볼 수 있습니다.
업로드 기록 탭에는 Custom Translator 포털 작업 영역 페이지의 기록이 표시됩니다.
이 페이지는 모든 지난 업로드의 상태를 보여 줍니다. 업로드가 최근 업로드부터 가장 오래된 업로드 순으로 표시됩니다. 각 업로드 상태에는 문서 이름, 작성자, 업로드 상태, 업로드 날짜, 업로드된 파일 수, 업로드된 파일 형식 및 언어 쌍이 표시됩니다. 필터를 사용하여 이름, 상태, 언어 및 날짜 범위별로 문서를 빠르게 찾을 수 있습니다.
업로드 내역 세부 정보 페이지에는 파일 업로드 상태, 파일 언어, 오류 메시지(업로드에 오류가 있는 경우)의 일부로 업로드된 파일이 표시됩니다.
다음 단계
- 문서를 훈련하는 방법을 알아봅니다.
- 모델 품질을 테스트하고 평가하는 방법을 알아봅니다.
- 모델을 게시하는 방법을 알아봅니다.
- 사용자 지정 모델을 사용하여 번역하는 방법을 알아봅니다.