Word Frequency Counter en Ligne

Analyse combien de fois chaque mot apparaît dans ton texte, dans ton navigateur.

Traité dans votre navigateur — aucun texte envoyé à un serveur

À quoi ça sert

Comprends ton texte en profondeur

Fonctionne avec tout texte

Articles, scripts, code, transcriptions, e-mails — tout contenu textuel dans n'importe quelle langue européenne.

100 % privé

Ton texte est analysé dans ton navigateur. Jamais envoyé à un serveur ni à un modèle d'IA.

Analyse de qualité

Filtre les mots vides, définis une fréquence minimum et exporte en CSV pour une analyse avancée.

Instantané

Le classement de fréquence se met à jour en temps réel au fil de la saisie ou du collage de texte.

Comment ça marche

Trois étapes, sans complications

Colle ou saisis ton texte

Saisis le texte à analyser. Il peut s'agir d'un article, d'un script, de code source, d'une transcription ou de tout contenu textuel.

Configure l'analyse

Choisis d'ignorer ou non les mots vides, définis un seuil de fréquence minimum et sélectionne si l'analyse est sensible à la casse.

Explore les résultats

Les mots sont affichés triés par fréquence décroissante. Copie le tableau ou télécharge-le en CSV pour l'utiliser dans des tableurs ou outils d'analyse.

FAQ

Des questions ?

Que sont les mots vides et pourquoi les filtrer ?

Les mots vides sont des mots très fréquents avec peu de valeur sémantique : articles (le, la, les, un, une), prépositions (de, à, en, dans, avec), conjonctions (et, ou, mais), pronoms (je, tu, il). Dans tout texte en prose, ces mots dominent le haut du classement de fréquence, occultant les mots à contenu réel. En les filtrant, l'analyse de fréquence révèle les termes thématiquement pertinents : concepts clés, noms propres, termes techniques et verbes principaux.

Fonctionne-t-il avec les langues CJK (chinois, japonais, coréen) ?

Les langues CJK n'utilisent pas d'espaces pour séparer les mots, ce qui signifie que la tokenisation basée sur les espaces (méthode standard pour les langues européennes) ne fonctionne pas correctement. Pour le chinois et le japonais, une segmentation correcte nécessite un analyseur morphologique propre à la langue (comme MeCab pour le japonais ou Jieba pour le chinois). Cet outil applique une tokenisation basée sur les espaces et la ponctuation, donc ses résultats sont indicatifs pour les textes CJK mais pas linguistiquement précis.

Puis-je définir une fréquence minimum pour filtrer les mots rares ?

Oui. Tu peux configurer un seuil de fréquence minimum pour masquer les mots qui apparaissent moins de N fois. C'est utile pour les textes longs où les mots de fréquence 1 (hapax legomena) peuvent représenter 40 à 60 % du vocabulaire total. Filtrer à partir d'un minimum de 2 ou 3 occurrences élimine une grande partie du bruit et te permet de te concentrer sur les mots qui structurent vraiment le contenu.

Qu'est-ce que TF-IDF et en quoi diffère-t-il de la simple fréquence ?

TF-IDF (Term Frequency-Inverse Document Frequency) est une métrique qui pondère la fréquence d'un mot dans un document (TF) par rapport à sa fréquence dans une collection de documents (IDF). Un mot très fréquent dans un document mais aussi très fréquent dans tous les autres documents (comme les mots vides) reçoit un score faible. Un mot fréquent dans un document mais rare dans les autres reçoit un score élevé, indiquant qu'il est caractéristique de ce document. La simple fréquence montre combien de fois chaque mot apparaît ; TF-IDF montre quels mots sont caractéristiques et différenciants pour ce texte spécifique.

Qu'est-ce que la loi de Zipf et que dit-elle sur mes textes ?

La loi de Zipf, formulée par le linguiste George Kingsley Zipf en 1949, stipule que dans tout corpus de langue naturelle, la fréquence d'un mot est inversement proportionnelle à son rang de fréquence. Le mot le plus fréquent apparaît deux fois plus souvent que le deuxième, trois fois plus que le troisième, et ainsi de suite. Cette distribution en loi de puissance se manifeste de façon remarquablement constante dans toutes les langues naturelles et dans de nombreux autres phénomènes (villes par population, entreprises par chiffre d'affaires). Si le classement de fréquence de ton texte suit une courbe de Zipf, c'est un signal que le texte a des caractéristiques de langue naturelle ; des écarts marqués peuvent indiquer un contenu généré artificiellement ou des textes techniques très spécialisés.