Определение подобных строк данных с помощью преобразования "Нечеткое группирование"

Статья
01/02/2025

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача потока данных.

Включение преобразования «Нечеткое группирование» в поток данных

В SQL Server Data Tools (SSDT) откройте проект служб Integration Services, содержащий нужный пакет.
Чтобы открыть пакет, дважды щелкните его в обозревателе решений.
Перейдите на вкладку Поток данных , а затем из области элементовперетащите преобразование «Нечеткое группирование» в область конструктора.
Подключите преобразование «Нечеткое группирование» к потоку данных, перетащив соединитель из источника данных или предыдущего преобразования в преобразование «Нечеткое группирование».
Дважды щелкните преобразование «Нечеткое группирование».
В диалоговом окне редактора преобразования "Нечеткое группирование" на вкладке диспетчер подключений выберите диспетчер соединений OLE DB, который подключается к базе данных SQL Server.

Примечание.

Для преобразования требуется подключение к базе данных SQL Server для создания временных таблиц и индексов.
Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.
Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.

Примечание.

Входные столбцы, используемые для группирования, автоматически помечаются как передаваемые, и эти флажки не могут быть сняты.
Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода .
Можно также обновить имена очищенных столбцов в столбце Псевдоним группы вывода .

Примечание.

По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».
Можно изменить используемый тип соответствия в столбце Тип совпадения .

Примечание.

Хотя бы один из столбцов должен использовать нечеткое соответствие.
Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Оно должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.
Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия .
Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения .
Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения .
Щелкните вкладку Дополнительно , чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).
При желании можно отрегулировать порог подобия при помощи ползунка.
Можно также сбросить флажки разделителей токенов, чтобы игнорировать разделители в данных.
Щелкните OK.
Чтобы сохранить обновленный пакет, выберите пункт Сохранить выбранные элементы в меню Файл .

См. также

Преобразование «Нечеткое группирование»
Преобразования служб Integration Services
Пути служб Integration Services
Задача потока данных

Поделиться через

Определение подобных строк данных с помощью преобразования "Нечеткое группирование"

Включение преобразования «Нечеткое группирование» в поток данных

См. также

Обратная связь

Дополнительные ресурсы