WordsSegmenter Classe
Définition
Important
Certaines informations portent sur la préversion du produit qui est susceptible d’être en grande partie modifiée avant sa publication. Microsoft exclut toute garantie, expresse ou implicite, concernant les informations fournies ici.
Classe segmenteur capable de segmenter le texte fourni en mots ou en tiges de mots (selon la langue).
public ref class WordsSegmenter sealed
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, Windows.Foundation.UniversalApiContract)]
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
class WordsSegmenter final
/// [Windows.Foundation.Metadata.ContractVersion(Windows.Foundation.UniversalApiContract, 65536)]
/// [Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
/// [Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
/// [Windows.Foundation.Metadata.Activatable(Windows.Data.Text.IWordsSegmenterFactory, 65536, "Windows.Foundation.UniversalApiContract")]
class WordsSegmenter final
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, typeof(Windows.Foundation.UniversalApiContract))]
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
public sealed class WordsSegmenter
[Windows.Foundation.Metadata.ContractVersion(typeof(Windows.Foundation.UniversalApiContract), 65536)]
[Windows.Foundation.Metadata.MarshalingBehavior(Windows.Foundation.Metadata.MarshalingType.Agile)]
[Windows.Foundation.Metadata.Threading(Windows.Foundation.Metadata.ThreadingModel.Both)]
[Windows.Foundation.Metadata.Activatable(typeof(Windows.Data.Text.IWordsSegmenterFactory), 65536, "Windows.Foundation.UniversalApiContract")]
public sealed class WordsSegmenter
function WordsSegmenter(language)
Public NotInheritable Class WordsSegmenter
- Héritage
- Attributs
Configuration requise pour Windows
Famille d’appareils |
Windows 10 (introduit dans 10.0.10240.0 - for Xbox, see UWP features that aren't yet supported on Xbox)
|
API contract |
Windows.Foundation.UniversalApiContract (introduit dans v1.0)
|
Remarques
Pour les langues qui n’utilisent pas d’espaces entre des mots (comme le japonais, le chinois, le coréen et le thaï), l’utilisation d’un segmenteur est la seule façon d’obtenir des mots individuels pour des scénarios de traitement de texte tels que la recherche mot clé.
La langue fournie lors de la construction de cet objet est mise en correspondance avec les langues avec des analyseurs lexicaux sur le système, et les meilleures règles de segmentation de mots disponibles sont utilisées. La langue ne doit pas nécessairement être l’une des langues prises en charge par l’application. Si aucune règle de langue prise en charge n’est disponible spécifiquement pour cette langue, les règles indépendantes de la langue sont utilisées (une implémentation de la segmentation de texte Unicode Standard Annexe #29 Unicode) et la propriété ResolvedLanguage est définie sur « und » (langue indéterminée).
Pour mot clé scénarios de recherche, il est toujours recommandé de demander un segmenteur dans la langue du contenu du texte.
Pour les scénarios de vérification orthographique, certains segmenteurs de langue (comme l’allemand) peuvent retourner plusieurs segments de tige de mot pour un seul mot composé. En revanche, les API de vérification orthographique peuvent s’attendre à ce que les mots soient conservés ensemble sous la forme d’un seul mot. Pour ces langues, vous pouvez choisir de forcer des règles de segmentation indépendantes de la langue en demandant explicitement le segmenteur « und » (langue indéterminée). Toutefois, cela réduira considérablement la qualité de rupture des langues non espaquées. Par conséquent, il est recommandé d’utiliser l’API Language.Script pour déterminer si la langue de contenu utilise l’un des scripts non espacés suivants :
Script | Langage |
---|---|
Bopo | Bopomofo |
Mec | Brahmi |
Egyp | Hiéroglyphes égyptiens |
Goth | Gothique |
Suspension | Hangul |
Suspension | Hiragana |
Suspension | Vieux Hangûl |
Hani | Han |
Ital | Italique ancien |
Java | Javanais |
Kana | Katakana |
Khar | Kharoshthi |
Khmr | Khmer |
Laoo | Lao |
Lisu | Lisu |
Mymr | Myanmar |
Talu | New Tai Lue |
Thaï | Thaï |
Tibt | Tibétain |
Xsux | Cunéiforme |
Yiii | Yi |
Si aucun de ces scripts n’est trouvé, il doit être sûr d’utiliser « und » pour la segmentation du scénario de vérification orthographique.
Constructeurs
WordsSegmenter(String) |
Crée un objet WordsSegmenter . Consultez l’introduction dans WordsSegmenter pour obtenir une description de la façon dont la langue fournie à ce constructeur est utilisée. |
Propriétés
ResolvedLanguage |
Obtient la langue des règles utilisées par cet objet WordsSegmenter . « und » (indéterminé) est retourné si nous utilisons des règles indépendantes de la langue. |
Méthodes
GetTokenAt(String, UInt32) |
Détermine et retourne le mot ou la tige de mot qui contient ou suit un index spécifié dans le texte fourni. |
GetTokens(String) |
Détermine et retourne tous les mots ou les tiges de mot dans le texte fourni. |
Tokenize(String, UInt32, WordSegmentsTokenizingHandler) |
Appelle le gestionnaire fourni avec deux itérateurs qui itèrent à travers les mots avant et après un index donné dans le texte fourni. |