DokumentyObrazyMediaNarzędzia PDF

URL Extractor

Wyodrebnij wszystkie adresy URL z dowolnego tekstu lub kodu zrodlowego natychmiast.

Przetworzone w Twojej przeglądarce — żaden tekst nie jest wysyłany na serwer

Odkryj wszystkie linki w sekundach

HTTP i HTTPS

Wykrywa URL-e z obydwoma schematami, w tym porty, sciezki, ciagi zapytan i fragmenty.

100% prywatnosc

Twoj tekst nigdy nie opuszcza przegladarki. Idealny dla kodu zrodlowego i danych wewnetrznych.

Bez duplikatow

Automatyczna deduplikacja. Kazdy adres URL pojawia sie w wynikach tylko raz.

Natychmiastowo

Wyodrebnianie w milisekundach, niezaleznie od dlugosci tekstu lub HTML.

Trzy kroki, żadnych komplikacji

1

Wklej swoj tekst lub HTML

Wklej zawartosc, z ktorej chcesz wyodrebnic URL-e: zwykly tekst, kod HTML, odpowiedzi API, logi.

2

Automatyczne wyodrebnianie

Narzedzie wykrywa wszystkie adresy URL z http i https, lacznie z ciagami zapytan, fragmentami i kodowanymi znakami.

3

Skopiuj liste URL-i

Otrzymaj deduplikowana liste URL-ow, jeden na linie, gotowa do analizy lub audytu.

Masz pytania?

Narzedzie wykrywa URL-e ze schemami http:// i https://. Wzorzec obejmuje domene z subdomenami, sciezke, parametry ciagu zapytania (po ?) i fragmenty (po #). Wykrywa rowniez URL-e z jawnymi portami (https://przyklad.com:8080/sciezka) i zakodowane znakami URL (%20, %2F itd.). URL-e bez schematu (przyklad.com/sciezka) nie sa wykrywane, aby uniknac falszywie pozytywnych wynikow w zwyklym tekscie.

Ciagi zapytan (https://przyklad.com/szukaj?q=fraza&strona=2) sa wlaczane w wynikach w calosci. Fragmenty URL (https://przyklad.com/dok#sekcja) sa rowniez zachowywane. Znaki zakodowane procentowo zgodnie z RFC 3986, takie jak %20 dla spacji i %2F dla ukosnika, sa zachowywane tak, jak pojawiaja sie w tekscie. Ma to znaczenie dla adresow URL REST API zawierajacych parametry o zlozonych wartosciach.

Tak. Narzedzie porownuje pelne adresy URL, w tym ciagi zapytan i fragmenty, aby wykryc duplikaty. Dwa URL-e wskazujace na ten sam zasob, ale z roznymi ciagami zapytan, sa uznawane za odrebne (https://przyklad.com?id=1 i https://przyklad.com?id=2 to rozne URL-e). Porownywanie jest rozrozniajace wielkosc liter w przypadku sciezki, ale nierozrozniajace w przypadku domeny, zgodnie z RFC 3986.

Aby wyodrebnic URL-e ze strony internetowej: 1) W Chrome lub Firefox nacisnij Ctrl+U (lub Cmd+U na Mac), aby wyswietlic zrodlo strony. 2) Zaznacz wszystko skrotem Ctrl+A i skopiuj. 3) Wklej do narzedzia. Przechwytuje to wszystkie URL-e w atrybutach href, src, action i data-*, a takze URL-e w komentarzach i skryptach. W przypadku stron z dynamicznym JavaScript uzyj karty Siec w narzędziach deweloperskich, aby przechwycic rzeczywiste zadania.

Najczestsze przypadki uzycia to: audyty SEO w celu znalezienia wszystkich linkow na stronie, wykrywanie uszkodzonych linkow przez porownanie wyodrewnionych URL-ow z odpowiedziami HTTP, analiza logow serwera w celu sprawdzenia, ktore adresy URL sa najczesciej zadawane, wyodrebnianie zrodel zasobow (obrazow, skryptow, styli) ze stron HTML, analiza map witryn XML, weryfikacja URL-ow w dokumentacji technicznej oraz zbieranie zrodel do zorganizowanego scrapowania.

Struktura URL wedlug RFC 3986 i analiza linkow w SEO

Struktura adresow URL (Uniform Resource Locators) jest zdefiniowana przez RFC 3986 (Uniform Resource Identifier: Generic Syntax), opublikowany w 2005 roku. Specyfikacja definiuje komponenty: schemat (http, https, ftp), autorytet (uzytkownik:haslo@host:port), sciezke, zapytanie i fragment. RFC 3986 definiuje rowniez kodowanie procentowe dla reprezentowania znakow niedozwolonych bezposrednio w URL-ach. Jest to ewolucja RFC 2396 (1998) i RFC 1738 (1994), pierwszego RFC definiujacego format URL.

Rozroznienie miedzy URI, URL i URN jest czesto mylone. URI (Uniform Resource Identifier) to najszersze pojecie: identyfikuje zasob. URL (Uniform Resource Locator) to URI, ktory rowniez okresla sposob dostepu do zasobu (zawiera schemat dostepu, np. http://). URN (Uniform Resource Name) to URI, ktory identyfikuje zasob po nazwie w przestrzeni nazw, np. ISBN lub DOI. W praktyce terminy URL i URI sa uzywane zamiennie w kontekscie webowym, choc technicznie URL-e sa podzbiorem URI.

Analiza linkow to fundamentalna technika SEO. Crawlery internetowe, takie jak Googlebot, wyodrebniaja URL-e ze stron w celu odkrywania nowych tresci. PageRank, oryginalny algorytm Google opatentowany w 1998 roku, ocenia strony na podstawie ilosci i jakosci otrzymywanych linkow. Narzedzia takie jak Screaming Frog, Ahrefs i Semrush czerpiac czesc swojej funkcjonalnosci z masowego wyodrebniania URL-ow ze stron internetowych, aby budowac grafy linkow umozliwiajace analize struktury autorytetu witryny.