Поделиться через


Определение подобных строк данных с помощью преобразования "Нечеткое группирование"

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача потока данных.

Включение преобразования «Нечеткое группирование» в поток данных

  1. В SQL Server Data Tools (SSDT) откройте проект служб Integration Services, содержащий нужный пакет.

  2. Чтобы открыть пакет, дважды щелкните его в обозревателе решений.

  3. Перейдите на вкладку Поток данных , а затем из области элементовперетащите преобразование «Нечеткое группирование» в область конструктора.

  4. Подключите преобразование «Нечеткое группирование» к потоку данных, перетащив соединитель из источника данных или предыдущего преобразования в преобразование «Нечеткое группирование».

  5. Дважды щелкните преобразование «Нечеткое группирование».

  6. В диалоговом окне редактора преобразования "Нечеткое группирование" на вкладке диспетчер подключений выберите диспетчер соединений OLE DB, который подключается к базе данных SQL Server.

    Примечание.

    Для преобразования требуется подключение к базе данных SQL Server для создания временных таблиц и индексов.

  7. Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.

  8. Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.

    Примечание.

    Входные столбцы, используемые для группирования, автоматически помечаются как передаваемые, и эти флажки не могут быть сняты.

  9. Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода .

  10. Можно также обновить имена очищенных столбцов в столбце Псевдоним группы вывода .

    Примечание.

    По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».

  11. Можно изменить используемый тип соответствия в столбце Тип совпадения .

    Примечание.

    Хотя бы один из столбцов должен использовать нечеткое соответствие.

  12. Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Оно должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.

  13. Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия .

  14. Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения .

  15. Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения .

  16. Щелкните вкладку Дополнительно , чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).

  17. При желании можно отрегулировать порог подобия при помощи ползунка.

  18. Можно также сбросить флажки разделителей токенов, чтобы игнорировать разделители в данных.

  19. Щелкните OK.

  20. Чтобы сохранить обновленный пакет, выберите пункт Сохранить выбранные элементы в меню Файл .

См. также

Преобразование «Нечеткое группирование»
Преобразования служб Integration Services
Пути служб Integration Services
Задача потока данных