Licznik Częstotliwości Słów Online

Analizuj, ile razy każde słowo pojawia się w Twoim tekście, w swojej przeglądarce.

Przetworzone w Twojej przeglądarce — żaden tekst nie jest wysyłany na serwer

Do czego służy

Dogłębna analiza Twojego tekstu

Działa z każdym tekstem

Artykuły, scenariusze, kod, transkrypcje, e-maile — dowolna treść tekstowa w każdym języku europejskim.

100% prywatny

Twój tekst jest analizowany w Twojej przeglądarce. Nie jest nigdy wysyłany na żaden serwer ani do modelu AI.

Jakościowa analiza

Filtruj stop-słowa, ustaw minimalną częstotliwość i eksportuj do CSV do zaawansowanej analizy.

Natychmiastowy

Ranking częstotliwości aktualizuje się w czasie rzeczywistym podczas pisania lub wklejania tekstu.

Jak to działa

Trzy kroki, żadnych komplikacji

Wklej lub wpisz swój tekst

Wprowadź tekst do analizy. Może to być artykuł, scenariusz, kod źródłowy, transkrypcja lub dowolna treść tekstowa.

Skonfiguruj analizę

Wybierz, czy ignorować stop-słowa, ustaw minimalny próg częstotliwości i określ, czy analiza ma rozróżniać wielkość liter.

Zbadaj wyniki

Słowa są wyświetlane posortowane według malejącej częstotliwości. Skopiuj tabelę lub pobierz ją jako CSV do użycia w arkuszach kalkulacyjnych lub narzędziach analitycznych.

FAQ

Masz pytania?

Czym są stop-słowa i po co je filtrować?

Stop-słowa to słowa o wysokiej częstotliwości i małej wartości semantycznej: przedimki (ang. the, a, an), przyimki (of, in, with), spójniki (and, or, but), zaimki (I, you, he). W każdym tekście prozatorskim słowa te dominują na czołowych pozycjach rankingu częstotliwości, przesłaniając słowa o rzeczywistej treści. Filtrując je, analiza częstotliwości ujawnia tematycznie istotne terminy: kluczowe pojęcia, nazwy własne, terminy techniczne i główne czasowniki.

Czy narzędzie działa z językami CJK (chińskim, japońskim, koreańskim)?

Języki CJK nie używają spacji do rozdzielania słów, co oznacza, że tokenizacja oparta na białych znakach (standardowa metoda dla języków europejskich) nie działa poprawnie. Dla chińskiego i japońskiego prawidłowa segmentacja wymaga analizatora morfologicznego specyficznego dla danego języka (takiego jak MeCab dla japońskiego lub Jieba dla chińskiego). Narzędzie stosuje tokenizację opartą na spacjach i znakach interpunkcyjnych, więc jego wyniki są orientacyjne dla tekstów CJK, ale nie precyzyjne językowo.

Czy mogę ustawić minimalną częstotliwość, aby odfiltrować rzadkie słowa?

Tak. Możesz skonfigurować minimalny próg częstotliwości, aby ukryć słowa pojawiające się mniej niż N razy. Jest to przydatne dla długich tekstów, w których słowa o częstotliwości 1 (hapax legomena) mogą stanowić 40–60% całkowitego słownictwa. Filtrowanie przy minimum 2 lub 3 wystąpień eliminuje wiele szumu i pozwala skupić się na słowach, które naprawdę strukturyzują treść.

Czym jest TF-IDF i czym różni się od prostej częstotliwości?

TF-IDF (Term Frequency-Inverse Document Frequency) to metryka ważąca częstotliwość słowa w dokumencie (TF) względem jego częstotliwości w kolekcji dokumentów (IDF). Słowo o wysokiej częstotliwości w dokumencie, ale też powszechne we wszystkich innych dokumentach (jak stop-słowa), otrzymuje niski wynik. Słowo częste w jednym dokumencie, a rzadkie w pozostałych, otrzymuje wysoki wynik, wskazując, że jest charakterystyczne dla tego dokumentu. Prosta częstotliwość pokazuje, ile razy każde słowo się pojawia; TF-IDF wskazuje, które słowa są charakterystyczne i różnicujące dla danego tekstu.

Czym jest prawo Zipfa i co mówi mi o moich tekstach?

Prawo Zipfa, sformułowane przez językoznawcę George'a Kingsleya Zipfa w 1949 roku, stwierdza, że w dowolnym korpusie języka naturalnego częstotliwość słowa jest odwrotnie proporcjonalna do jego rangi częstotliwości. Najczęstsze słowo pojawia się dwa razy częściej niż drugie, trzy razy częściej niż trzecie itd. Ten rozkład potęgowy pojawia się zadziwiająco konsekwentnie we wszystkich językach naturalnych i wielu innych zjawiskach (miasta według populacji, firmy według przychodów). Jeśli ranking częstotliwości Twojego tekstu podąża krzywą Zipfa, jest to sygnał, że tekst ma cechy języka naturalnego; wyraźne odchylenia mogą wskazywać na treść generowaną sztucznie lub wysoce specjalistyczne teksty techniczne.