Une méthode de sélection de fonctionnalités pour la catégorisation de texte
Une méthode de sélection de fonctionnalités pour la catégorisation de texte

texte
Crédit : Petr Kratochvil/domaine public

Pour la catégorisation de texte, il est nécessaire de sélectionner un ensemble de caractéristiques (termes) avec une discrimination élevée en utilisant la sélection de caractéristiques. Dans la sélection de caractéristiques de texte, Accuracy2 (ACC2) traite les termes avec la même différence absolue de débit de document mais une discrimination différente de manière égale, ce qui est déraisonnable. Les méthodes améliorées existantes (mesure de différence normalisée (NDM), rapport max-min (MMR) et mesure de comparaison trigonométrique (TCM)) basées sur ACC2 peuvent confondre l'importance des termes rares et clairsemés en raison du défi pour la sélection des paramètres.

Pour résoudre les problèmes, une équipe de recherche dirigée par Li Zhang a publié ses nouvelles recherches dans Frontières de l'informatique.

L'équipe a proposé le critère de maximisation de la différence maximale (MDMC), qui introduit un nouveau poids basé sur l'occupation des informations de classe et le combine avec ACC2 pour estimer l'importance des termes. En conséquence, MDMC peut éviter de surestimer les termes clairsemés.

Dans la recherche, ils analysent les distributions de poids des méthodes (ACC2, NDM, MMR, TCM et MDMC) et montrent intuitivement le mécanisme de MDMC pour estimer l'importance des termes, qui est montré dans les ressources en ligne. Les expériences démontrent que MDMC est capable d'attraper plus de termes discriminants sans aucun paramètre que les autres filtres quel que soit le classificateur, et montre sa supériorité sur les autres méthodes de réduction de dimensionnalité (algorithme sinus cosinus amélioré (ISCA), analyse en composantes principales (ACP) et analyse non négative. factorisation matricielle (NMF) ).

Plus d'information: Lingbin Jin et al, Critère de maximisation de la différence maximale : une méthode de sélection de caractéristiques pour la catégorisation de texte, Frontières de l'informatique (2023). DOI : 10.1007/s11704-022-2154-x

Fourni par la presse de l'enseignement supérieur

Citation: Critère de maximisation de différence maximale : une méthode de sélection de caractéristiques pour la catégorisation de texte (2023, 28 avril) récupéré le 28 avril 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation loyale à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans l'autorisation écrite. Le contenu est fourni seulement pour information.




Source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Scroll to Top