Penghitung Frekuensi Kata Online

Analisis berapa kali setiap kata muncul dalam teks Anda, langsung di browser.

Diproses di browser Anda - tidak ada teks yang dikirim ke server mana pun

Untuk apa alat ini

Pahami teks Anda secara mendalam

Bekerja dengan teks apa pun

Artikel, skrip, kode, transkrip, email, konten tekstual dalam bahasa Eropa mana pun.

100% privat

Teks Anda dianalisis di browser. Tidak pernah dikirim ke server atau model AI mana pun.

Analisis berkualitas

Filter stop word, tetapkan frekuensi minimum, dan ekspor ke CSV untuk analisis lanjutan.

Instan

Peringkat frekuensi diperbarui secara real-time saat Anda mengetik atau menempel teks.

Cara kerjanya

Tiga langkah, tanpa kerumitan

Tempel atau ketik teks Anda

Masukkan teks yang akan dianalisis. Bisa berupa artikel, skrip, kode sumber, transkrip, atau konten tekstual apa pun.

Atur analisis

Pilih apakah akan mengabaikan stop word, tetapkan ambang frekuensi minimum, dan pilih apakah analisis peka terhadap huruf besar-kecil.

Telusuri hasilnya

Kata-kata ditampilkan diurutkan berdasarkan frekuensi menurun. Salin tabel atau unduh sebagai CSV untuk digunakan di spreadsheet atau alat analisis.

FAQ

Ada pertanyaan?

Apa itu stop word dan mengapa perlu difilter?

Stop word adalah kata berfrekuensi tinggi dengan nilai semantik yang kecil: kata sandang, preposisi, konjungsi, dan kata ganti. Dalam teks prosa mana pun, kata-kata ini mendominasi posisi teratas dalam peringkat frekuensi, mengaburkan kata-kata dengan konten nyata. Dengan memfilternya, analisis frekuensi mengungkapkan istilah yang relevan secara tematik: konsep utama, nama diri, istilah teknis, dan kata kerja utama.

Apakah bekerja dengan bahasa CJK (Tionghoa, Jepang, Korea)?

Bahasa CJK tidak menggunakan spasi untuk memisahkan kata, yang berarti tokenisasi berbasis spasi sebagai metode standar untuk bahasa Eropa tidak bekerja dengan benar. Untuk bahasa Tionghoa dan Jepang, segmentasi yang benar memerlukan penganalisis morfologi khusus bahasa seperti MeCab untuk Jepang atau Jieba untuk Tionghoa. Alat ini menerapkan tokenisasi berbasis spasi dan tanda baca, sehingga hasilnya bersifat indikatif untuk teks CJK tetapi tidak tepat secara linguistik.

Bisakah saya menetapkan frekuensi minimum untuk memfilter kata yang jarang muncul?

Ya. Anda dapat mengonfigurasi ambang frekuensi minimum untuk menyembunyikan kata yang muncul kurang dari N kali. Ini berguna untuk teks panjang di mana kata dengan frekuensi 1, yang disebut hapax legomena, dapat mewakili 40 hingga 60 persen total kosakata. Memfilter untuk minimum 2 atau 3 kemunculan menghilangkan banyak kebisingan dan memungkinkan Anda fokus pada kata yang benar-benar membentuk konten.

Apa itu TF-IDF dan bagaimana bedanya dengan frekuensi sederhana?

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metrik yang menimbang frekuensi kata dalam sebuah dokumen terhadap frekuensinya di seluruh kumpulan dokumen. Kata yang sangat sering dalam satu dokumen tetapi juga sering di semua dokumen lain seperti stop word mendapat skor rendah. Kata yang sering dalam satu dokumen tetapi jarang di dokumen lain mendapat skor tinggi, menunjukkan kata itu khas untuk dokumen tersebut. Frekuensi sederhana menunjukkan berapa kali setiap kata muncul; TF-IDF menunjukkan kata mana yang khas dan membedakan teks tertentu itu.

Apa itu Hukum Zipf dan apa yang dikatakannya tentang teks saya?

Hukum Zipf yang dirumuskan oleh ahli linguistik George Kingsley Zipf pada tahun 1949 menyatakan bahwa dalam corpus bahasa alami mana pun, frekuensi sebuah kata berbanding terbalik dengan peringkat frekuensinya. Kata paling sering muncul dua kali lebih sering dari yang kedua, tiga kali lebih sering dari yang ketiga, dan seterusnya. Distribusi power-law ini muncul secara konsisten di semua bahasa alami dan dalam banyak fenomena lain. Jika peringkat frekuensi teks Anda mengikuti kurva Zipf, itu adalah sinyal bahwa teks memiliki karakteristik bahasa alami; penyimpangan yang mencolok dapat menandakan konten yang dibuat secara artifisial atau teks teknis yang sangat terspesialisasi.