URL Extractor
Estrai tutti gli URL da qualsiasi testo o codice sorgente in modo istantaneo.
Perché usarlo
Tutti gli URL estratti in un clic
Compatibile
Riconosce URL con qualsiasi protocollo, query string e frammento secondo RFC 3986.
Privato
Il testo viene elaborato nel tuo browser. Nessun dato lascia il tuo dispositivo.
Preciso
Deduplica automaticamente e gestisce correttamente gli URL nei tag HTML.
Istantaneo
Estrazione immediata anche su testi lunghi. Nessuna registrazione.
Come funziona
Tre passaggi, senza complicazioni
Incolla il tuo testo o codice
Incolla HTML, Markdown, testo normale, codice sorgente o qualsiasi altro contenuto contenente URL.
Avvia l'estrazione
Lo strumento individua automaticamente tutti gli URL validi, compresi i link con protocollo http, https, ftp e altri.
Copia o esporta gli URL
Gli URL estratti appaiono in un elenco pulito, deduplicati e pronti da copiare o esportare.
FAQ
Hai delle domande?
Vengono riconosciuti gli URL conformi a RFC 3986: URL assoluti con protocollo (http://, https://, ftp://), URL con query string e frammenti, e URL con percorsi profondi. I link relativi senza protocollo, come /percorso/pagina o ../altra-pagina, non sono URL assoluti e non vengono estratti di default poiché richiedono la conoscenza del dominio base per essere completi.
Sì. Quando incollate codice HTML sorgente, lo strumento riconosce gli URL sia come testo libero sia come valori degli attributi href, src, action e simili. Gli URL nei tag link, script, img, a e form vengono tutti estratti correttamente.
Gli URL possono contenere caratteri codificati in percent-encoding (come %20 per lo spazio o %2F per la barra). Lo strumento estrae gli URL nella forma in cui appaiono nel testo, senza decodificarli automaticamente. Se hai bisogno di URL decodificati, puoi usare uno strumento di URL decode dopo l'estrazione.
Questo strumento analizza il testo che incolli manualmente. Per estrarre URL da una pagina web devi prima copiare il sorgente HTML della pagina (visualizzabile con Ctrl+U nel browser) e incollarlo qui. In alternativa, gli strumenti di web scraping come wget con l'opzione spider o librerie come BeautifulSoup permettono l'estrazione automatica da pagine remote.
No. L'estrazione avviene interamente nel tuo browser tramite JavaScript client-side. Il testo che incollate non viene mai inviato ad alcun server. Tutta l'elaborazione avviene localmente sul tuo dispositivo.
RFC 3986 e l'analisi dei link: URL, URI e best practice
Gli URL (Uniform Resource Locators) sono un sottoinsieme degli URI (Uniform Resource Identifiers) definiti da RFC 3986 (2005), che ha aggiornato il precedente RFC 2396. La struttura di un URI comprende schema, authority (host e porta), percorso, query string e frammento. RFC 3986 ha standardizzato la sintassi del percent-encoding per i caratteri non ASCII e definito le regole per la risoluzione degli URI relativi rispetto a una base.
L'estrazione e l'analisi degli URL da documenti e pagine web è fondamentale in molti ambiti: audit SEO (verifica dei link interni ed esterni), sicurezza informatica (analisi di log o documenti per rilevare URL malevoli), data engineering (raccolta di sorgenti per pipeline di scraping), e verifica dell'integrità dei contenuti (broken link check). I crawler web come Googlebot si basano sull'estrazione sistematica degli URL per costruire e aggiornare l'indice di ricerca.
Con l'introduzione degli URL internazionalizzati (IRI, Internationalized Resource Identifiers, definiti da RFC 3987), gli URL possono contenere caratteri Unicode nel dominio e nel percorso. I domini internazionalizzati (IDN) usano la codifica Punycode per convertire i caratteri non ASCII nel formato compatibile DNS. Browser moderni e molte librerie HTTP gestiscono la conversione automaticamente, ma gli strumenti di analisi testuale devono essere aggiornati per riconoscere questi formati.