Partager via


WordsSegmenter Classe

Définition

Classe segmenteur capable de segmenter le texte fourni en mots ou en tiges de mots (selon la langue).

public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
Héritage
Object Platform::Object IInspectable WordsSegmenter
Attributs

Configuration requise pour Windows

Famille d’appareils
Windows 10 (introduit dans 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox)
API contract
Windows.Foundation.UniversalApiContract (introduit dans v1.0)

Remarques

Pour les langues qui n’utilisent pas d’espaces entre des mots (comme le japonais, le chinois, le coréen et le thaï), l’utilisation d’un segmenteur est la seule façon d’obtenir des mots individuels pour des scénarios de traitement de texte tels que la recherche mot clé.

La langue fournie lors de la construction de cet objet est mise en correspondance avec les langues avec des analyseurs lexicaux sur le système, et les meilleures règles de segmentation de mots disponibles sont utilisées. La langue ne doit pas nécessairement être l’une des langues prises en charge par l’application. Si aucune règle de langue prise en charge n’est disponible spécifiquement pour cette langue, les règles indépendantes de la langue sont utilisées (une implémentation de la segmentation de texte Unicode Standard Annexe #29 Unicode) et la propriété ResolvedLanguage est définie sur « und » (langue indéterminée).

Pour mot clé scénarios de recherche, il est toujours recommandé de demander un segmenteur dans la langue du contenu du texte.

Pour les scénarios de vérification orthographique, certains segmenteurs de langue (comme l’allemand) peuvent retourner plusieurs segments de tige de mot pour un seul mot composé. En revanche, les API de vérification orthographique peuvent s’attendre à ce que les mots soient conservés ensemble sous la forme d’un seul mot. Pour ces langues, vous pouvez choisir de forcer des règles de segmentation indépendantes de la langue en demandant explicitement le segmenteur « und » (langue indéterminée). Toutefois, cela réduira considérablement la qualité de rupture des langues non espaquées. Par conséquent, il est recommandé d’utiliser l’API Language.Script pour déterminer si la langue de contenu utilise l’un des scripts non espacés suivants :

Script Langage
Bopo Bopomofo
Mec Brahmi
Egyp Hiéroglyphes égyptiens
Goth Gothique
Suspension Hangul
Suspension Hiragana
Suspension Vieux Hangûl
Hani Han
Ital Italique ancien
Java Javanais
Kana Katakana
Khar Kharoshthi
Khmr Khmer
Laoo Lao
Lisu Lisu
Mymr Myanmar
Talu New Tai Lue
Thaï Thaï
Tibt Tibétain
Xsux Cunéiforme
Yiii Yi

Si aucun de ces scripts n’est trouvé, il doit être sûr d’utiliser « und » pour la segmentation du scénario de vérification orthographique.

Constructeurs

WordsSegmenter(String)

Crée un objet WordsSegmenter . Consultez l’introduction dans WordsSegmenter pour obtenir une description de la façon dont la langue fournie à ce constructeur est utilisée.

Propriétés

ResolvedLanguage

Obtient la langue des règles utilisées par cet objet WordsSegmenter .

« und » (indéterminé) est retourné si nous utilisons des règles indépendantes de la langue.

Méthodes

GetTokenAt(String, UInt32)

Détermine et retourne le mot ou la tige de mot qui contient ou suit un index spécifié dans le texte fourni.

GetTokens(String)

Détermine et retourne tous les mots ou les tiges de mot dans le texte fourni.

Tokenize(String, UInt32, WordSegmentsTokenizingHandler)

Appelle le gestionnaire fourni avec deux itérateurs qui itèrent à travers les mots avant et après un index donné dans le texte fourni.

S’applique à