Определение подобных строк данных с помощью преобразования "Нечеткое группирование"
Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure
Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача потока данных.
Включение преобразования «Нечеткое группирование» в поток данных
В SQL Server Data Tools (SSDT) откройте проект служб Integration Services, содержащий нужный пакет.
Чтобы открыть пакет, дважды щелкните его в обозревателе решений.
Перейдите на вкладку Поток данных , а затем из области элементовперетащите преобразование «Нечеткое группирование» в область конструктора.
Подключите преобразование «Нечеткое группирование» к потоку данных, перетащив соединитель из источника данных или предыдущего преобразования в преобразование «Нечеткое группирование».
Дважды щелкните преобразование «Нечеткое группирование».
В диалоговом окне редактора преобразования "Нечеткое группирование" на вкладке диспетчер подключений выберите диспетчер соединений OLE DB, который подключается к базе данных SQL Server.
Примечание.
Для преобразования требуется подключение к базе данных SQL Server для создания временных таблиц и индексов.
Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.
Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.
Примечание.
Входные столбцы, используемые для группирования, автоматически помечаются как передаваемые, и эти флажки не могут быть сняты.
Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода .
Можно также обновить имена очищенных столбцов в столбце Псевдоним группы вывода .
Примечание.
По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».
Можно изменить используемый тип соответствия в столбце Тип совпадения .
Примечание.
Хотя бы один из столбцов должен использовать нечеткое соответствие.
Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Оно должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.
Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия .
Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения .
Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения .
Щелкните вкладку Дополнительно , чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).
При желании можно отрегулировать порог подобия при помощи ползунка.
Можно также сбросить флажки разделителей токенов, чтобы игнорировать разделители в данных.
Щелкните OK.
Чтобы сохранить обновленный пакет, выберите пункт Сохранить выбранные элементы в меню Файл .
См. также
Преобразование «Нечеткое группирование»
Преобразования служб Integration Services
Пути служб Integration Services
Задача потока данных