URL Extractor
Ekstrak semua URL dari teks atau kode sumber apa pun secara instan.
Mengapa menggunakannya
Temukan semua tautan dalam hitungan detik
HTTP dan HTTPS
Mendeteksi URL dengan kedua skema, termasuk port, jalur, query string, dan fragment.
100% privat
Teks Anda tidak pernah meninggalkan browser. Ideal untuk kode sumber dan data internal.
Tanpa duplikat
Deduplikasi otomatis. Setiap URL muncul hanya sekali dalam hasil.
Instan
Ekstraksi dalam milidetik, terlepas dari panjang teks atau HTML.
Cara kerjanya
Tiga langkah, tanpa kerumitan
Tempelkan teks atau HTML Anda
Tempelkan konten yang ingin Anda ekstrak URL-nya: teks biasa, kode HTML, respons API, log.
Ekstraksi otomatis
Ekstraktor mendeteksi semua URL http dan https, beserta query string, fragment, dan karakter yang dienkode.
Salin daftar URL
Dapatkan daftar URL yang sudah dideduplikasi, satu per baris, siap untuk analisis atau audit.
FAQ
Ada pertanyaan?
Ekstraktor mendeteksi URL dengan skema http:// dan https://. Polanya mencakup domain dengan subdomain, jalur, parameter query string (setelah ?), dan fragment (setelah #). Ekstraktor juga mendeteksi URL dengan port eksplisit (https://example.com:8080/path) dan karakter yang dienkode dalam URL (%20, %2F, dan sebagainya). URL tanpa skema (example.com/path) tidak dideteksi untuk menghindari false positive dalam teks biasa.
Query string seperti https://example.com/search?q=term&page=2 disertakan sepenuhnya dalam hasil. Fragment URL seperti https://example.com/doc#section juga dipertahankan. Karakter yang dienkode dalam format percent-encoding (RFC 3986) seperti %20 untuk spasi dan %2F untuk garis miring dijaga apa adanya seperti yang muncul dalam teks. Hal ini penting untuk URL REST API yang berisi parameter dengan nilai yang kompleks.
Ya. Ekstraktor membandingkan URL lengkap termasuk query string dan fragment untuk menentukan duplikat. Dua URL yang mengarah ke sumber daya yang sama tetapi dengan query string berbeda dianggap berbeda (https://example.com?id=1 dan https://example.com?id=2 adalah URL yang berbeda). Perbandingan bersifat case-sensitive untuk jalur tetapi tidak case-sensitive untuk domain, sesuai standar RFC 3986.
Untuk mengekstrak URL dari halaman web: (1) Di Chrome atau Firefox, tekan Ctrl+U (atau Cmd+U di Mac) untuk melihat kode sumber halaman. (2) Pilih semua dengan Ctrl+A dan salin. (3) Tempelkan ke ekstraktor. Ini akan menangkap semua URL dalam atribut href, src, action, dan data-*, beserta URL dalam komentar dan skrip. Untuk halaman dengan JavaScript dinamis, gunakan tab Network di developer tools untuk menangkap permintaan yang sebenarnya.
Kasus penggunaan yang paling umum adalah: audit SEO untuk menemukan semua tautan di halaman, deteksi tautan rusak dengan membandingkan URL yang diekstrak dengan respons HTTP, analisis log server untuk melihat URL mana yang paling sering diminta, mengekstrak sumber daya (gambar, skrip, gaya) dari halaman HTML, analisis XML sitemap, verifikasi URL dalam dokumentasi teknis, dan mengumpulkan sumber untuk scraping terstruktur.
Struktur URL menurut RFC 3986 dan analisis tautan dalam SEO
Struktur URL (Uniform Resource Locators) didefinisikan oleh RFC 3986 (Uniform Resource Identifier: Generic Syntax), yang diterbitkan pada tahun 2005. Spesifikasi mendefinisikan komponen: skema (http, https, ftp), otoritas (user:password@host:port), jalur, query, dan fragment. RFC 3986 juga mendefinisikan percent-encoding untuk merepresentasikan karakter yang tidak diizinkan langsung dalam URL. RFC ini merupakan evolusi dari RFC 2396 (1998) dan RFC 1738 (1994), RFC pertama yang mendefinisikan format URL.
Perbedaan antara URI, URL, dan URN sering kali membingungkan. URI (Uniform Resource Identifier) adalah konsep yang paling luas: mengidentifikasi suatu sumber daya. URL (Uniform Resource Locator) adalah URI yang juga menentukan cara mengakses sumber daya tersebut (menyertakan skema akses seperti http://). URN (Uniform Resource Name) adalah URI yang mengidentifikasi sumber daya berdasarkan nama dalam namespace tertentu, seperti ISBN atau DOI. Dalam praktiknya, istilah URL dan URI digunakan secara bergantian dalam konteks web.
Analisis tautan adalah teknik SEO yang fundamental. Crawler web seperti Googlebot mengekstrak URL dari halaman untuk menemukan konten baru. PageRank, algoritma asli Google yang dipatenkan pada tahun 1998, menilai halaman berdasarkan kuantitas dan kualitas tautan yang diterimanya. Alat seperti Screaming Frog, Ahrefs, dan Semrush mendasarkan sebagian fungsinya pada ekstraksi URL secara massal dari halaman web untuk membangun graf tautan yang memungkinkan analisis struktur otoritas suatu situs.