Narzędzie do generowania pliku robots.txt

Przygotowałem generator pliku robots.txt w odpowiedzi na rosnący problem masowego scrapowania treści przez boty AI. Od 2023 roku obserwujemy bum crawlerów trenujących modele językowe – GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended i dziesiątki innych systematycznie pobierają zawartość stron internetowych bez wyraźnej zgody właścicieli.

Jako osoba zarządzająca własnymi projektami web, zauważyłem, że ręczne tworzenie i aktualizowanie plików robots.txt stało się skomplikowane i czasochłonne dla przeciętnego użytkownika. Lista botów do zablokowania rośnie co miesiąc, dokumentacja jest rozproszona, a każda pomyłka może skutkować albo utratą SEO (blokada Googlebota), albo brakiem ochrony przed AI (pominięcie kluczowych crawlerów).

Dlatego stworzyłem narzędzie, które:

  • Agreguje aktualną listę 27+ najpopularniejszych botów
  • Wyjaśnia, co robi każdy bot (nie wszyscy wiedzą czym różni się GPTBot od ChatGPT-User)
  • Ostrzega przed botami ignorującymi robots.txt (jak Bytespider czy Baiduspider)
  • Oferuje gotowe presety dla typowych scenariuszy
  • Generuje poprawny składniowo plik w kilka kliknięć

Zapraszam do testowania generatora pod linkiem:

generator robots.txt by Jakub Sawa

  • Czym jest robots.txt i jak działa
  • Które boty blokować (a których nie)
  • Jak wdrożyć plik na swojej witrynie
  • Jak przetestować czy wszystko działa
  • Jakie są ograniczenia robots.txt (spoiler: to nie jest zabezpieczenie!)

Generator jest darmowy i nie wymaga rejestracji. Kod działa całkowicie po stronie przeglądarki (client-side), więc Twoja konfiguracja nigdzie nie jest wysyłana.

Czym jest robots.txt

robots.txt to plik tekstowy umieszczany w głównym katalogu witryny internetowej (np. https://twoja-strona.pl/robots.txt), który informuje roboty internetowe (boty, crawlery, spidery) o tym, które części witryny mogą lub nie mogą indeksować. Zobacz pełny poradnik o robots.txt.

Podstawowe fakty:

  • Standard od 1994 roku – Robots Exclusion Protocol
  • Dobrowolna zgodność – boty mogą przestrzegać zasad, ale nie muszą
  • Pierwsza linia obrony – nie jest to zabezpieczenie, tylko prośba
  • Publiczny dokument – każdy może przeczytać Twój robots.txt

Jak to działa?

  1. Bot (np. Googlebot) odwiedza Twoją stronę
  2. Najpierw sprawdza https://twoja-strona.pl/robots.txt
  3. Czyta instrukcje dla swojego User-Agent
  4. Przestrzega (lub nie) podanych zasad

Po co używać generatora?

Problem, który rozwiązuje:

W 2024-2025 nastąpiła eksplozja botów AI:

  • OpenAI (GPTBot) – trenuje GPT-4/5
  • Anthropic (ClaudeBot) – trenuje Claude
  • Google (Google-Extended) – trenuje Gemini
  • Meta, Bytedance, Cohere, Perplexity… i dziesiątki innych

Bez odpowiedniego robots.txt:

  • Twoje treści są automatycznie wykorzystywane do treningu AI
  • Boty pobierają masowo Twoje artykuły, zdjęcia, kod
  • Zużywasz bandwidth i zasoby serwera
  • Tracisz kontrolę nad swoimi treściami

Co daje generator?

  • Prostota – zamiast ręcznie pisać kod, klikasz checkboxy
  • Aktualność – baza 27+ najważniejszych botów (aktualizowana)
  • Edukacja – tooltips wyjaśniają co robi każdy bot
  • Bezpieczeństwo – ostrzeżenia o botach ignorujących robots.txt
  • Szybkość – gotowy plik w 2 minuty

Kto powinien używać tego narzędzia?

Zdecydowanie TAK:

  • Właściciele blogów – chroń swoje artykuły przed AI
  • Twórcy contentu – kontroluj wykorzystanie Twoich treści
  • Administratorzy stron – zarządzaj ruchem botów
  • Firmy SaaS – blokuj crawlery od dashboardów
  • E-commerce – kontroluj dostęp do produktów
  • Developerzy – chroń dokumentację API

Ostrożnie:

  • Strony małe/nowe – blokowanie wyszukiwarek = brak SEO
  • Katalogi/portale – tracisz widoczność w Google
  • Strony edukacyjne – AI może zwiększać zasięg

Nie dla:

  • Witryn wymagających zabezpieczenia – robots.txt NIE jest narzędziem blokującym i zabezpieczającym serwisy online
  • Danych wrażliwych – użyj uwierzytelniania, nie robots.txt

Jak używać generatora – krok po kroku

Krok 1: Wybierz preset (lub konfiguruj ręcznie)

Dostępne presety:

  • Niestandardowe – pełna kontrola, sam zaznaczasz boty
  • Zezwól wszystkim – brak blokad (dla nowych stron)
  • Blokuj AI (zezwól wyszukiwarkom) – blokujesz szkolenie AI, ale Google/Bing mogą indeksować
  • SEO-friendly – tylko wyszukiwarki + narzędzia SEO
  • Privacy-first – tylko Google i Bing, reszta zablokowana
  • Blokuj wszystkim – totalna blokada (dla dashboardów/aplikacji)

Rekomendacja dla większości: Wybierz „Blokuj AI (zezwól wyszukiwarkom)”

Krok 2: Opcjonalnie – importuj istniejący robots.txt

Jeśli masz już robots.txt:

  1. Kliknij „Importuj plik”
  2. Wybierz swój plik
  3. Generator automatycznie wczyta ustawienia
  4. Edytuj według potrzeb

Krok 3: Skonfiguruj zaawansowane opcje

Sitemap URL:

  • Dodaj link do mapy witryny (jeśli masz)
  • Przykład: https://twoja-strona.pl/sitemap.xml
  • Pomaga botom znaleźć wszystkie strony

Crawl-delay (sekundy):

  • Opóźnienie między żądaniami bota
  • 0 = wyłączone
  • 5-10 sekund = standardowe
  • Google IGNORUJE, działa tylko dla Yandex i Bing

Zablokowane ścieżki:

  • Dodaj foldery do blokady dla WSZYSTKICH botów
  • Przykłady: /admin/, /api/*, /private/, /wp-admin/

Dozwolone ścieżki:

  • Wyjątki od blokad
  • Przykład: blokujesz /wp-admin/ ale pozwalasz /wp-admin/admin-ajax.php

Krok 4: Przejrzyj kategorie botów

Rozwiń sekcje i zaznacz/odznacz boty według potrzeb:

  • Wyszukiwarki – Google, Bing, DuckDuckGo, Baidu, Yandex
  • Szkolenie Modeli AI – GPTBot, ClaudeBot, CCBot…
  • Odpowiedzi AI w Czasie Rzeczywistym – ChatGPT-User, PerplexityBot…
  • Archiwizacja – Internet Archive
  • Komercyjne – Amazon, Facebook, Apple
  • SEO & Analytics – Ahrefs, Semrush, Majestic

Krok 5: Generuj i pobierz

  1. Kliknij „Generuj robots.txt” – podgląd w prawym panelu
  2. Sprawdź wygenerowany kod
  3. Kliknij „Kopiuj” albo „Pobierz jako plik”

Krok 6: Wdróż na stronie

Instrukcje poniżej w sekcji Wdrożenie.

Szczegółowy opis funkcji

Bulk Actions – szybkie akcje

„Wszystkie AI”

  • Zaznacza WSZYSTKIE boty AI (training + chat)
  • Pozostawia wyszukiwarki, SEO i komercyjne

„Żadne AI”

  • Odznacza wszystkie boty AI
  • Szybki sposób na otwarcie treści dla AI

Import istniejącego robots.txt

Co importuje:

  • User-agent declarations
  • Disallow rules (blokady)
  • Allow rules (wyjątki)
  • Sitemap URL
  • Crawl-delay (jeśli obecny)

Czego NIE importuje:

  • Komentarze (są usuwane)
  • Nieznane dyrektywy
  • Boty spoza listy generatora

Jak działa:

  1. Parser czyta plik linia po linii
  2. Dla każdego User-agent: sprawdza czy bot jest w bazie
  3. Jeśli Disallow: / to bot zostaje odznaczony
  4. Częściowe blokady (Disallow: /admin/) trafiają do „Zablokowane ścieżki”
  5. Allow rules trafiają do „Dozwolone ścieżki”

Tooltips edukacyjne

Ikony:

  • (niebieska) – informacja o bocie
  • (pomarańczowa) – bot ignoruje robots.txt
  • (czerwona) – bot bardzo agresywny, użyj firewall

Sekcje zwijane

Kliknij nagłówek kategorii, aby zwinąć/rozwinąć.

Domyślnie zwinięte:

  • SEO & Analytics (rzadziej używane)

Kategorie botów – co blokować?

Wyszukiwarki (Search Engines)

Googlebot – NIE BLOKUJ (chyba, że strona prywatna)

  • Największa wyszukiwarka świata
  • Blokada = znikniesz z Google
  • Respektuje robots.txt

Bingbot – NIE BLOKUJ

  • Drugi po Google
  • Ważny dla Copilot (AI Microsoft)
  • Respektuje robots.txt

DuckDuckBot – NIE BLOKUJ

  • Wyszukiwarka prywatności
  • Mały ruch, ale lojalni użytkownicy
  • Respektuje robots.txt

Baiduspider – BLOKUJ (jeśli nie masz treści po chińsku)

  • Chińska wyszukiwarka
  • CZĘSTO IGNORUJE robots.txt
  • Bardzo agresywny
  • Dla blokady użyj firewall (IP: AS4134, AS4837)

YandexBot – BLOKUJ (jeśli nie celujesz w Rosję)

  • Rosyjska wyszukiwarka
  • Respektuje robots.txt
  • Wspiera crawl-delay

Decyzja: NIE blokuj Google/Bing, chyba że to aplikacja/dashboard. Blokuj Baidu/Yandex jeśli nie masz tam klientów.

Szkolenie Modeli AI (Training)

GPTBot – BLOKUJ (jeśli nie chcesz być w GPT-5)

  • OpenAI, trenuje GPT-4/5
  • Najczęściej blokowany bot AI
  • Respektuje robots.txt
  • Blokowany przez: NYTimes, BBC, Medium

ClaudeBot – BLOKUJ

  • Anthropic, trenuje Claude
  • Respektuje robots.txt
  • Spory ruch w 2024-2025

Google-Extended – BLOKUJ

  • Trenuje Gemini/Bard
  • ODDZIELNY od Googlebot – możesz blokować AI ale pozwolić search
  • Respektuje robots.txt

CCBot – BLOKUJ

  • Common Crawl – publiczny dataset
  • Dane używane przez WIELE firm AI (nie tylko OpenAI)
  • Respektuje robots.txt
  • Blokada = blokujesz pośrednio dziesiątki firm

anthropic-ai – BLOKUJ

  • Starszy bot Anthropic (bulk training)
  • Respektuje robots.txt

Bytespider – BLOKUJ + FIREWALL

  • ByteDance/TikTok, trenuje Doubao AI
  • IGNORUJE robots.txt w około 70% przypadków
  • Bardzo agresywny (może powodować DDOS)
  • Użyj blokady IP: AS4134, AS4837, AS55967
  • Zgłaszany przez adminów jako „most annoying bot”

Meta-ExternalAgent – BLOKUJ

  • Meta, trenuje LLaMA
  • Gwałtowny wzrost w 2025 (+305%)
  • Respektuje robots.txt

cohere-ai – BLOKUJ

  • Trenuje modele Cohere
  • Mniejszy ruch
  • Respektuje robots.txt

Omgilibot – BLOKUJ

  • Komercyjny scraper (Webz.io)
  • Sprzedaje dane firmom AI
  • Respektuje robots.txt

Decyzja: BLOKUJ WSZYSTKIE jeśli nie chcesz być w AI. Wyjątek: jeśli chcesz być cytowany w ChatGPT/Claude dla promocji.

Odpowiedzi AI w Czasie Rzeczywistym (Chat/RAG)

ChatGPT-User – BLOKUJ (ale może nie działać)

  • OpenAI, live browsing w ChatGPT
  • NIE respektuje robots.txt konsekwentnie
  • Różni się od GPTBot (GPTBot = training, ChatGPT-User = chat)
  • User może „Browse with Bing” i ominąć blokadę

PerplexityBot – BLOKUJ

  • Perplexity AI, real-time answers
  • Cytuje źródła (może być promocją)
  • Ogromny wzrost w 2025 (+157,490%!)
  • Respektuje robots.txt

Claude-Web – BLOKUJ

  • Anthropic, Claude browsing
  • Real-time web access
  • Respektuje robots.txt

DuckAssistBot – POZWÓL (opcjonalnie)

  • DuckDuckGo AI answers
  • NIE używa danych do treningu (tylko do odpowiedzi)
  • Privacy-focused
  • Respektuje robots.txt

Decyzja: Blokuj jeśli nie chcesz aby AI cytowało Twoje treści w odpowiedziach. Pozwól jeśli chcesz więcej ruchu/promocji.

Archiwizacja (Archive)

ia_archiver – BLOKUJ (ale może nie zadziałać)

  • Internet Archive / Wayback Machine
  • Od 2017 częściowo ignoruje robots.txt
  • Dla .gov/.mil zawsze archiwizuje
  • Dla reszty – losowo
  • Jeśli chcesz usunąć archiwum: email do [email protected]

Decyzja: Blokuj jeśli masz wrażliwe treści historyczne. Pozwól jeśli chcesz archiwum dla potomnych.

Komercyjne (Commercial)

Amazonbot – BLOKUJ (jeśli nie sprzedajesz na Amazon)

  • Amazon Shopping + AI assistant
  • Respektuje robots.txt

FacebookBot – BLOKUJ (jeśli nie korzystasz z Facebook)

  • Link previews na Facebooku
  • Indeksowanie dla Meta Search
  • Respektuje robots.txt

Applebot – NIE BLOKUJ

  • Siri, Spotlight Search
  • Mały ruch
  • Respektuje robots.txt

SEO & Analytics

AhrefsBot – BLOKUJ (jeśli nie używasz Ahrefs)

  • SEO backlink checker
  • Bardzo agresywny – duże zużycie bandwidth
  • Respektuje robots.txt
  • Blokowany przez około 30% stron

SemrushBot – BLOKUJ (jeśli nie używasz Semrush)

  • SEO analytics
  • Średnio agresywny
  • Respektuje robots.txt

MJ12bot – BLOKUJ (jeśli nie używasz Majestic)

  • Backlink analysis
  • Respektuje robots.txt

Decyzja: Blokuj jeśli nie płacisz za te narzędzia. Pozwól jeśli używasz ich do analizy.

Najczęstsze scenariusze użycia

1. Blog osobisty / Portfolio

Cel: Chronisz swoje artykuły, ale chcesz być w Google.

Konfiguracja:

  • Preset: „Blokuj AI (zezwól wyszukiwarkom)”
  • Zaznaczone: Google, Bing, DuckDuckGo
  • Odznaczone: Wszystkie AI (training + chat)
  • Odznaczone: Archiwizacja
  • Odznaczone: SEO bots

robots.txt:

User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

[...]

User-agent: *
Disallow: /

2. E-commerce

Cel: Tylko Google i Bing, reszta blokada (chronimy produkty/ceny).

Konfiguracja:

  • Preset: „Privacy-first (tylko Google/Bing)”
  • Zaznaczone: Tylko Googlebot, Bingbot
  • Odznaczone: Wszystko inne
  • Zablokowane ścieżki: /checkout/, /cart/, /account/

3. SaaS Dashboard / Aplikacja webowa

Cel: Całkowita blokada (to nie strona publiczna).

Konfiguracja:

  • Preset: „Blokuj wszystkim”
  • Odznaczone: Wszystkie boty
  • Opcjonalnie: używaj uwierzytelniania (lepsze zabezpieczenie)

robots.txt:

User-agent: *
Disallow: /
Code language: HTTP (http)

WAŻNE: robots.txt to za mało! Dodaj login/password lub rate limiting.

4. Dokumentacja API publiczna

Cel: Chcesz być w AI (ChatGPT będzie polecać Twoje API).

Konfiguracja:

  • Preset: „Zezwól wszystkim”
  • Zaznaczone: Wszystkie boty (search + AI + chat)

robots.txt:

User-agent: *
Disallow:

Sitemap: https://docs.twoja-firma.pl/sitemap.xml
Code language: JavaScript (javascript)

5. Witryna firmowa z częścią prywatną

Cel: Blog publiczny, ale admin panel zablokowany.

Konfiguracja:

  • Preset: „SEO-friendly”
  • Zaznaczone: Wyszukiwarki + SEO tools
  • Odznaczone: AI bots
  • Zablokowane ścieżki: /admin/, /dashboard/, /api/internal/*

Ważne ograniczenia i ostrzeżenia

robots.txt NIE JEST zabezpieczeniem!

Co robots.txt MOŻE:

  • Prosić grzeczne boty o nie indeksowanie
  • Zmniejszyć ruch od botów przestrzegających zasad
  • Chronić przed niezamierzonym indeksowaniem (np. dev environment)

Czego robots.txt NIE MOŻE:

  • Zablokować złośliwych botów (ignorują go)
  • Chronić danych wrażliwych
  • Zastąpić uwierzytelniania/firewall
  • Usunąć już zindeksowanych stron z Google
  • Zagwarantować prywatności

Boty ignorujące robots.txt

Potwierdzone problemy:

  • Bytespider (ByteDance/TikTok) – około 70% ignoruje
  • Baiduspider (Baidu) – częste ignorowanie
  • ChatGPT-User (OpenAI) – niekonsekwentne przestrzeganie
  • Internet Archive – od 2017 częściowo ignoruje

Rozwiązanie: Firewall / IP blocking / Rate limiting

Blokowanie wyszukiwarek = utrata SEO

Jeśli zablokujesz Googlebot:

  • Znikniesz z wyników Google w ciągu tygodni
  • Stracisz 90%+ ruchu organicznego
  • Nie ma cofania – re-indeksacja zajmuje miesiące

Blokuj Google TYLKO jeśli:

  • To aplikacja/dashboard (nie strona publiczna)
  • To dev/staging environment
  • To witryna prywatna/wewnętrzna

robots.txt vs noindex

robots.txt: „Nie skanuj tej strony”
noindex: „Nie pokazuj tej strony w wynikach”

Problem: Jeśli zablokujesz w robots.txt, Google NIE zobaczy tagu noindex!

Prawidłowe użycie:

  • Blokuj w robots.txt: pliki/foldery techniczne (/admin/, /api/)
  • Użyj noindex: strony które istnieją, ale nie mają być w Google (thank-you pages, polityka cookies)

Wdrożenie pliku robots.txt

Krok 1: Archiwizacja (jeśli masz już robots.txt)

ZAWSZE zrób backup przed zmianami!

# SSH/Terminal
cp robots.txt robots.txt.backup-2025-10-03

# Lub pobierz przez przeglądarkę
https://twoja-strona.pl/robots.txt
# Ctrl+S, zapisz jako robots.txt.old
Code language: PHP (php)

Krok 2: Umieszczenie pliku

Lokalizacja: Główny katalog witryny (root)

Prawidłowo:

https://twoja-strona.pl/robots.txt
https://www.twoja-strona.pl/robots.txt
Code language: JavaScript (javascript)

Nieprawidłowo:

https://twoja-strona.pl/blog/robots.txt (zła lokalizacja)
https://twoja-strona.pl/Robots.txt (case sensitive!)
https://twoja-strona.pl/robots.TXT (zła nazwa)
Code language: JavaScript (javascript)

Krok 3: Upload

Metoda 1: FTP/SFTP

1. Połącz z serwerem (FileZilla, Cyberduck)
2. Przejdź do public_html/ lub www/
3. Upload robots.txt
4. Uprawnienia: 644 (rw-r--r--)
Code language: JavaScript (javascript)

Metoda 2: cPanel File Manager

1. Zaloguj do cPanel
2. File Manager → public_html
3. Upload robots.txt
Code language: JavaScript (javascript)

Metoda 3: WordPress (plugin)

1. Zainstaluj "Yoast SEO" lub "All in One SEO"
2. Tools → File Editor → robots.txt
3. Wklej kod, Save
Code language: JavaScript (javascript)

Metoda 4: Bezpośrednia edycja (SSH)

nano /var/www/html/robots.txt
# Wklej zawartość
# Ctrl+X, Y, Enter
Code language: PHP (php)

Krok 4: Weryfikacja

Sprawdź czy działa:

1. Otwórz: https://twoja-strona.pl/robots.txt
2. Sprawdź czy widzisz swój kod
3. Sprawdź encoding (UTF-8, nie UTF-8 BOM!)
Code language: JavaScript (javascript)

Błędy do uniknięcia:

  • Plik się nie wyświetla → źle umieszczony lub uprawnienia
  • Pokazuje HTML strony 404 → ścieżka nieprawidłowa
  • Dziwne znaki → encoding problem (użyj UTF-8 bez BOM)

Testowanie i walidacja

1. Google Search Console

Najlepsze narzędzie do testowania!

1. Zaloguj: https://search.google.com/search-console
2. Dodaj swoją witrynę (jeśli jeszcze nie masz)
3. Po lewej: Legacy tools → robots.txt Tester
4. Wklej URL do przetestowania
5. Wybierz bot (Googlebot, Googlebot-Image...)
6. Kliknij "Test"
Code language: JavaScript (javascript)

Rezultat:

  • „Allowed” = bot może skanować
  • „Blocked” = bot zablokowany

2. Ręczne testy

Test 1: Czy plik dostępny?

curl https://twoja-strona.pl/robots.txt
# Powinien zwrócić zawartość pliku
Code language: PHP (php)

Test 2: Czy syntax poprawny?

Online validator:
https://en.ryte.com/free-tools/robots-txt/
Code language: JavaScript (javascript)

Test 3: Czy blokada działa?

1. Zablokuj test URL w robots.txt
2. Google Search ConsoleURL Inspection
3. Request Indexingpowinno być zablokowane
Code language: CSS (css)

3. Monitoring efektów

Śledzenie przez około 2 tygodnie:

Google Analytics / Server Logs:

  • Czy spadł ruch od botów AI?
  • Czy Google nadal indeksuje?
  • Czy bandwidth się zmniejszył?

Search Console:

  • Czy liczba indeksowanych stron się NIE zmieniła? (Google nadal działa)
  • Czy „Coverage” pokazuje błędy? (być może za dużo zablokowałeś)

FAQ

Q: Czy robots.txt chroni moje treści przed AI?

A: Częściowo. Grzeczne boty (GPTBot, ClaudeBot, Google-Extended) przestrzegają. Złośliwe/agresywne boty (Bytespider, niektóre scrapers) ignorują. To pierwsza linia obrony, nie pancerz.

Q: Czy mogę zablokować AI ale pozwolić Google?

A: TAK! Blokujesz GPTBot/ClaudeBot/Google-Extended, ale NIE blokujesz Googlebot. To są różne boty.

Q: Co jeśli zablokowałem Google przez pomyłkę?

A: Natychmiast usuń blokadę. Google Search Console → Request Indexing dla ważnych stron. Re-indeksacja zajmie 1-4 tygodnie.

Q: Czy mogę ukryć robots.txt?

A: NIE. Musi być w https://domena.pl/robots.txt. Nie możesz go przenieść, zmienić nazwy ani wymagać logowania.

Q: Czy robots.txt usuwa mnie z Google?

A: Zależy. Disallow: / dla Googlebot = tak, znikniesz. Disallow: /admin/ = tylko /admin/ nie będzie skanowany.

Q: Jak zablokować boty NAPRAWDĘ (nie tylko robots.txt)?

A:

  1. Firewall (IP blocking) – najbezpieczniejsze
  2. Rate limiting (max 10 req/min z jednego IP)
  3. .htaccess / Nginx config (blokada User-Agent)
  4. Cloudflare Bot Fight Mode / WAF
  5. Uwierzytelnianie (login/password)

Q: Czy ChatGPT nadal będzie cytować moją stronę po zablokowaniu?

A: Zależy kiedy zablokowałeś. Jeśli GPTBot już wcześniej ściągnął dane (przed blokadą), są w modelu. Nowe dane nie będą pobierane.

Q: Ile czasu zajmuje wdrożenie robots.txt?

A:

  • Upload: 5 minut
  • Boty czytają przy następnej wizycie: 1-48 godzin
  • Pełny efekt: 1-2 tygodnie

Q: Czy mogę mieć różne robots.txt dla subdomen?

A: TAK. https://blog.domena.pl/robots.txt i https://shop.domena.pl/robots.txt to osobne pliki.

Q: Co jeśli bot nie jest na liście generatora?

A: Możesz ręcznie dodać do wygenerowanego pliku:

User-agent: NowyBot
Disallow: /
Code language: HTTP (http)

Q: Czy robots.txt wpływa na pozycje w Google?

A:

  • Blokowanie Googlebot = tracisz pozycje (znikasz)
  • Blokowanie AI botów = NIE wpływa na SEO
  • Blokowanie /admin/ = NIE wpływa na SEO

Q: Czy mogę zablokować tylko część strony dla AI?

A: TAK. Przykład:

User-agent: GPTBot
Disallow: /premium/
Disallow: /paid-content/
Allow: /
Code language: HTTP (http)

Q: Co z botami mobilnymi?

A: Większość botów ma jedną nazwę dla desktop/mobile (Googlebot, GPTBot). Wyjątki: Googlebot-Mobile (stary, deprecated).

Podsumowanie

Zapamiętaj:

  1. robots.txt to prośba, nie zabezpieczenie – grzeczne boty przestrzegają, złośliwe ignorują
  2. Blokuj AI, nie wyszukiwarki – chroń treści przed treningiem, ale zostaw SEO
  3. Bytespider i Baiduspider ignorują robots.txt – użyj firewall do blokady
  4. Google-Extended ≠ Googlebot – możesz osobno blokować AI Google
  5. ZAWSZE testuj w Google Search Console przed wdrożeniem
  6. Archiwizuj stary robots.txt przed każdą zmianą
  7. Efekty widoczne po 1-2 tygodniach – bądź cierpliwy

Zalecenia dla typowych użytkowników:

Blog/Portfolio:

  • Preset: „Blokuj AI (zezwól wyszukiwarkom)”
  • Monitoruj: czy Google nadal indeksuje

E-commerce:

  • Preset: „Privacy-first (tylko Google/Bing)”
  • Dodaj: /checkout/, /cart/, /account/ do zablokowanych ścieżek

Firma/SaaS:

  • Preset: „SEO-friendly” dla strony marketingowej
  • Preset: „Blokuj wszystkim” dla aplikacji/dashboardu

Dokumentacja publiczna:

  • Preset: „Zezwól wszystkim” (chcesz być w AI)

Kiedy potrzebujesz więcej niż robots.txt:

Jeśli masz:

  • Dane wrażliwe (hasła, API keys, dane osobowe)
  • Panel administracyjny
  • Płatne treści
  • Aplikację webową

Użyj:

  1. Uwierzytelnianie (login/password)
  2. IP whitelisting
  3. Rate limiting
  4. WAF (Web Application Firewall)
  5. Cloudflare Bot Fight Mode

robots.txt to pierwszy krok, nie jedyny.

Dodatkowe zasoby

Dokumentacja oficjalna:

  • Google: https://developers.google.com/search/docs/crawling-indexing/robots/intro
  • OpenAI: https://platform.openai.com/docs/bots/gptbot
  • Anthropic: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web
  • Cloudflare: https://developers.cloudflare.com/bots/

Narzędzia:

  • Google Search Console: https://search.google.com/search-console
  • Robots.txt Tester: https://www.google.com/webmasters/tools/robots-testing-tool
  • Validator: https://en.ryte.com/free-tools/robots-txt/

Monitorowanie botów:

  • Dark Visitors: https://darkvisitors.com/ (lista wszystkich AI botów)
  • Server logs: Sprawdź /var/log/apache2/access.log lub /var/log/nginx/access.log

Wsparcie

Potrzebujesz pomocy?

Znalazłeś błąd w generatorze? Napisz z opisem problemu, a naprawimy.

Sugestie nowych funkcji? Zawsze słuchamy feedbacku użytkowników.

Changelog (Historia wersji)

v1.0 (Październik 2025)

  • Pierwsze wydanie
  • 27 botów w bazie
  • 6 presetów
  • Import robots.txt
  • Allow/Disallow paths
  • Crawl-delay
  • Sitemap URL
  • Tooltips edukacyjne
  • Kolapsowalne sekcje
  • Download/Copy funkcjonalność

Licencja i odpowiedzialność

robots.txt Generator by Jakub Sawa

Używasz generatora na własną odpowiedzialność.

Autor nie ponosi odpowiedzialności za:

  • Utratę ruchu SEO spowodowaną błędną konfiguracją
  • Nieautoryzowany dostęp do danych (robots.txt nie jest zabezpieczeniem)
  • Działania botów ignorujących robots.txt
  • Konsekwencje biznesowe decyzji o blokowaniu/odblokowaniu botów

Generator służy celom edukacyjnym i pomocniczym.

Zawsze:

  • Testuj przed wdrożeniem
  • Archiwizuj stary plik
  • Monitoruj efekty
  • Konsultuj z webmasterem/DevOps/SEO jeśli masz wątpliwości

To koniec poradnika. Powodzenia w konfigurowaniu robots.txt!

Pamiętaj: robots.txt to narzędzie w Twoich rękach. Używaj go mądrze, testuj ostrożnie, monitoruj regularnie.

Podobne wpisy