DokumenteBilderMedienPDF-Werkzeuge

URL Extractor

Extrahiere alle URLs aus beliebigem Text oder Quellcode sofort.

In deinem Browser verarbeitet — kein Text wird an einen Server gesendet

Alle Links in Sekunden entdecken

HTTP und HTTPS

Erkennt URLs mit beiden Schemas, einschließlich Ports, Pfade, Query-Strings und Fragmente.

100 % privat

Dein Text verlässt den Browser nie. Ideal für Quellcode und interne Daten.

Keine Duplikate

Automatische Deduplizierung. Jede URL erscheint nur einmal im Ergebnis.

Sofortig

Extraktion in Millisekunden, unabhängig von der Text- oder HTML-Länge.

Drei Schritte, kein Aufwand

1

Füge deinen Text oder HTML ein

Füge den Inhalt ein, aus dem du URLs extrahieren möchtest: Klartext, HTML-Code, API-Antworten, Protokolle.

2

Automatische Extraktion

Das Werkzeug erkennt alle http- und https-URLs, einschließlich Query-Strings, Fragmenten und kodierten Zeichen.

3

Kopiere die URL-Liste

Erhalte die deduplizierte URL-Liste, eine pro Zeile, bereit für Analysen oder Prüfungen.

Noch Fragen?

Das Werkzeug erkennt URLs mit http://- und https://-Schemas. Das Muster umfasst die Domain mit Subdomains, den Pfad, Query-String-Parameter (nach ?) und Fragmente (nach #). Es erkennt auch URLs mit expliziten Ports (https://example.com:8080/pfad) und URL-kodierten Zeichen (%20, %2F usw.). URLs ohne Schema (example.com/pfad) werden nicht erkannt, um falsch-positive Ergebnisse in regulärem Text zu vermeiden.

Query-Strings (https://example.com/suche?q=Begriff&page=2) werden vollständig ins Ergebnis aufgenommen. URL-Fragmente (https://example.com/dok#abschnitt) werden ebenfalls beibehalten. Prozent-kodierte Zeichen gemäß RFC 3986, wie %20 für Leerzeichen und %2F für Schrägstrich, bleiben so erhalten, wie sie im Text erscheinen. Das ist wichtig für REST-API-URLs mit Parametern, die komplexe Werte enthalten.

Ja. Das Werkzeug vergleicht vollständige URLs einschließlich Query-Strings und Fragmenten, um Duplikate zu bestimmen. Zwei URLs, die auf dieselbe Ressource zeigen, aber unterschiedliche Query-Strings haben, gelten als unterschiedlich (https://example.com?id=1 und https://example.com?id=2 sind verschiedene URLs). Der Vergleich ist pfadsensitiv für Groß- und Kleinschreibung, aber nicht für die Domain, gemäß RFC 3986.

Um URLs von einer Webseite zu extrahieren: 1) Drücke in Chrome/Firefox Strg+U (oder Cmd+U auf dem Mac), um den Seitenquellcode anzuzeigen. 2) Wähle alles mit Strg+A aus und kopiere es. 3) Füge es in das Werkzeug ein. Damit werden alle URLs in href-, src-, action- und data-*-Attributen erfasst, plus URLs in Kommentaren und Skripten. Für Seiten mit dynamischem JavaScript kannst du den Netzwerk-Tab der Entwicklertools verwenden.

Die häufigsten Anwendungsfälle sind: SEO-Audits zum Finden aller Links auf einer Seite, Erkennung defekter Links durch Vergleich extrahierter URLs mit HTTP-Antworten, Serverprotokoll-Analyse um zu sehen welche URLs am häufigsten angefragt werden, Extrahieren von Ressourcenquellen (Bilder, Skripte, Stile) aus HTML-Seiten, XML-Sitemap-Analyse, URL-Überprüfung in technischer Dokumentation und Quellensammlung für strukturiertes Scraping.

URL-Struktur nach RFC 3986 und Link-Analyse für SEO

Die Struktur von URLs (Uniform Resource Locators) ist durch RFC 3986 (Uniform Resource Identifier: Generic Syntax) definiert, veröffentlicht 2005. Die Spezifikation definiert die Komponenten: Schema (http, https, ftp), Autorität (benutzer:passwort@host:port), Pfad, Query und Fragment. RFC 3986 definiert auch Prozent-Kodierung zur Darstellung von Zeichen, die in URLs nicht direkt erlaubt sind. Es ist eine Weiterentwicklung von RFC 2396 (1998) und RFC 1738 (1994), dem ersten RFC, der das URL-Format definierte.

Die Unterscheidung zwischen URI, URL und URN wird häufig verwechselt. Ein URI (Uniform Resource Identifier) ist das übergeordnete Konzept: Es identifiziert eine Ressource. Eine URL (Uniform Resource Locator) ist ein URI, der auch angibt, wie auf die Ressource zugegriffen wird (enthält das Zugangsschema wie http://). Ein URN (Uniform Resource Name) ist ein URI, der eine Ressource per Name in einem Namensraum identifiziert, wie ISBN oder DOI. In der Praxis werden die Begriffe URL und URI im Web-Kontext austauschbar verwendet.

Link-Analyse ist eine grundlegende SEO-Technik. Web-Crawler wie Googlebot extrahieren URLs von Seiten, um neue Inhalte zu entdecken. PageRank, Googles ursprünglicher Algorithmus aus dem Jahr 1998, bewertet Seiten nach der Anzahl und Qualität der eingehenden Links. Werkzeuge wie Screaming Frog, Ahrefs und Semrush basieren ihre Funktionalität teilweise auf der massenhaften URL-Extraktion aus Webseiten, um Link-Graphen aufzubauen, die die Autoritätsstruktur einer Website analysierbar machen.