Worthäufigkeits-Zähler Online

Analysieren, wie oft jedes Wort in deinem Text vorkommt — im Browser.

In deinem Browser verarbeitet — kein Text wird an einen Server gesendet

Wofür es gedacht ist

Deinen Text in der Tiefe verstehen

Funktioniert mit jedem Text

Artikel, Skripte, Code, Transkripte, E-Mails — beliebige textuelle Inhalte in jeder europäischen Sprache.

100 % privat

Dein Text wird in deinem Browser analysiert. Wird nie an einen Server oder ein KI-Modell gesendet.

Hochwertige Analyse

Stoppwörter filtern, Mindesthäufigkeit festlegen und als CSV für erweiterte Analyse exportieren.

Sofort

Das Häufigkeitsranking aktualisiert sich in Echtzeit während du tippst oder Text einfügst.

So funktioniert es

Drei Schritte, kein Aufwand

Text einfügen oder eintippen

Gib den zu analysierenden Text ein. Es kann sich um einen Artikel, ein Skript, Quellcode, ein Transkript oder beliebige textuelle Inhalte handeln.

Analyse konfigurieren

Wähle, ob Stoppwörter ignoriert werden sollen, lege eine Mindesthäufigkeit fest und bestimme, ob die Analyse Groß-/Kleinschreibung berücksichtigt.

Ergebnisse erkunden

Wörter werden nach absteigender Häufigkeit angezeigt. Tabelle kopieren oder als CSV herunterladen zur Verwendung in Tabellenkalkulationen oder Analysetools.

FAQ

Noch Fragen?

Was sind Stoppwörter und warum werden sie gefiltert?

Stoppwörter sind hochfrequente Wörter mit geringem semantischem Wert: Artikel, Präpositionen, Konjunktionen und Pronomen. In jedem Prosatext dominieren diese Wörter die obersten Positionen des Häufigkeitsrankings und verdecken Wörter mit echtem Inhalt. Durch das Herausfiltern deckt die Häufigkeitsanalyse thematisch relevante Begriffe auf: Schlüsselkonzepte, Eigennamen, Fachbegriffe und Hauptverben.

Funktioniert es auch mit CJK-Sprachen (Chinesisch, Japanisch, Koreanisch)?

CJK-Sprachen verwenden keine Leerzeichen zur Worttrennung, was bedeutet, dass Leerzeichen-basierte Tokenisierung (die Standardmethode für europäische Sprachen) nicht korrekt funktioniert. Für Chinesisch und Japanisch ist korrekte Segmentierung ein sprachspezifischer morphologischer Analyzer erforderlich. Dieses Werkzeug wendet auf Leerzeichen und Interpunktion basierende Tokenisierung an, daher sind seine Ergebnisse für CJK-Texte indikativ, aber linguistisch nicht präzise.

Kann ich eine Mindesthäufigkeit festlegen?

Ja. Du kannst einen Mindesthäufigkeitsschwellenwert konfigurieren, um Wörter auszublenden, die weniger als N-mal vorkommen. Das ist nützlich für lange Texte, bei denen Wörter mit Häufigkeit 1 (Hapax legomena) 40–60 % des Gesamtvokabulars ausmachen können. Das Filtern auf ein Minimum von 2 oder 3 Vorkommen eliminiert viel Rauschen und ermöglicht es, sich auf die Wörter zu konzentrieren, die den Inhalt wirklich strukturieren.

Was ist TF-IDF und wie unterscheidet es sich von einfacher Häufigkeit?

TF-IDF (Term Frequency-Inverse Document Frequency) ist eine Kennzahl, die die Häufigkeit eines Wortes in einem Dokument (TF) gegen seine Häufigkeit in einer Dokumentensammlung (IDF) gewichtet. Ein Wort, das in einem Dokument sehr häufig, aber auch in allen anderen sehr häufig vorkommt (wie Stoppwörter), erhält einen niedrigen Score. Ein Wort, das in einem Dokument häufig, im Rest jedoch selten ist, erhält einen hohen Score und ist damit für dieses spezifische Dokument charakteristisch. Einfache Häufigkeit zeigt, wie oft jedes Wort vorkommt; TF-IDF zeigt, welche Wörter für diesen Text charakteristisch und unterscheidend sind.

Was ist das Zipfsche Gesetz und was sagt es über meine Texte aus?

Das Zipfsche Gesetz, formuliert vom Linguisten George Kingsley Zipf 1949, besagt, dass in jedem natürlichsprachlichen Korpus die Häufigkeit eines Wortes umgekehrt proportional zu seinem Häufigkeitsrang ist. Das häufigste Wort erscheint doppelt so oft wie das zweithäufigste, dreimal so oft wie das dritthäufigste, und so weiter. Diese Potenzgesetzverteilung erscheint bemerkenswert konsistent in allen natürlichen Sprachen. Folgt das Häufigkeitsranking deines Textes einer Zipf-Kurve, ist das ein Signal für natürlichsprachliche Eigenschaften; deutliche Abweichungen können auf künstlich generierten Inhalt oder hochspezialisierte Fachtexte hinweisen.