URL Extractor
Извлекайте все URL-адреса из любого текста или исходного кода мгновенно.
Зачем использовать
Найдите все ссылки за секунды
HTTP и HTTPS
Обнаруживает URL с обеими схемами, включая порты, пути, строки запроса и фрагменты.
100% конфиденциально
Ваш текст никогда не покидает браузер. Идеально подходит для исходного кода и внутренних данных.
Без дубликатов
Автоматическая дедупликация. Каждый URL появляется в результате только один раз.
Мгновенно
Извлечение за миллисекунды — независимо от длины текста или HTML.
Как это работает
Три шага — никаких сложностей
Вставьте текст или HTML
Вставьте содержимое, из которого нужно извлечь URL: обычный текст, HTML-код, ответы API, логи.
Автоматическое извлечение
Экстрактор обнаруживает все URL с протоколами http и https, включая строки запроса, фрагменты и закодированные символы.
Скопируйте список URL
Получите список URL без дубликатов — по одному на строку, готовый для анализа или аудита.
FAQ
Остались вопросы?
Экстрактор обнаруживает URL со схемами http:// и https://. Шаблон включает домен с поддоменами, путь, параметры строки запроса (после ?) и фрагменты (после #). Также обнаруживаются URL с явным указанием порта (https://example.com:8080/path) и URL-кодированные символы (%20, %2F и др.). URL без схемы (example.com/path) не обнаруживаются во избежание ложных срабатываний в обычном тексте.
Строки запроса (https://example.com/search?q=term&page=2) включаются в результат полностью. Фрагменты URL (https://example.com/doc#section) также сохраняются. Символы в формате percent-encoding согласно RFC 3986 — например %20 для пробела и %2F для косой черты — сохраняются в том виде, в котором присутствуют в тексте. Это важно для URL REST API, содержащих параметры со сложными значениями.
Да. Экстрактор сравнивает полные URL, включая строки запроса и фрагменты, для определения дубликатов. Два URL, указывающих на один ресурс, но с разными строками запроса, считаются разными (https://example.com?id=1 и https://example.com?id=2 — это разные URL). Сравнение чувствительно к регистру для пути, но нечувствительно для домена — в соответствии со стандартом RFC 3986.
Чтобы извлечь URL с веб-страницы: 1) в Chrome или Firefox нажмите Ctrl+U (или Cmd+U на Mac) для просмотра исходного кода страницы. 2) Выделите всё с помощью Ctrl+A и скопируйте. 3) Вставьте в экстрактор. Это захватит все URL в атрибутах href, src, action и data-*, а также URL в комментариях и скриптах. Для страниц с динамическим JavaScript используйте вкладку Network в инструментах разработчика для перехвата фактических запросов.
Наиболее распространённые сценарии: SEO-аудит для поиска всех ссылок на странице, обнаружение битых ссылок путём сравнения извлечённых URL с HTTP-ответами, анализ серверных логов для определения наиболее запрашиваемых URL, извлечение источников ресурсов (изображений, скриптов, стилей) из HTML-страниц, анализ XML-карты сайта, проверка URL в технической документации и сбор источников для структурированного парсинга.
Структура URL согласно RFC 3986 и анализ ссылок в SEO
Структура URL (Uniform Resource Locators) определена в RFC 3986 (Uniform Resource Identifier: Generic Syntax), опубликованном в 2005 году. Спецификация определяет компоненты: схема (http, https, ftp), полномочие (user:password@host:port), путь, запрос и фрагмент. RFC 3986 также определяет percent-encoding для представления символов, недопустимых непосредственно в URL. Это развитие RFC 2396 (1998) и RFC 1738 (1994) — первого RFC, определившего формат URL.
Различие между URI, URL и URN часто вызывает путаницу. URI (Uniform Resource Identifier) — наиболее широкое понятие: он идентифицирует ресурс. URL (Uniform Resource Locator) — это URI, который дополнительно указывает способ доступа к ресурсу (включает схему доступа, например http://). URN (Uniform Resource Name) — это URI, идентифицирующий ресурс по имени в пространстве имён, как ISBN или DOI. На практике термины URL и URI используются взаимозаменяемо в веб-контексте, хотя технически URL являются подмножеством URI.
Анализ ссылок (link analysis) — фундаментальная SEO-техника. Поисковые роботы, такие как Googlebot, извлекают URL со страниц для обнаружения нового контента. PageRank — оригинальный алгоритм Google, запатентованный в 1998 году, — оценивает страницы по количеству и качеству ссылок, которые они получают. Такие инструменты, как Screaming Frog, Ahrefs и Semrush, основывают часть своей функциональности на массовом извлечении URL из веб-страниц для построения графов ссылок, позволяющих анализировать структуру авторитетности сайта.