Narzędzie do generowania pliku robots.txt
Przygotowałem generator pliku robots.txt w odpowiedzi na rosnący problem masowego scrapowania treści przez boty AI. Od 2023 roku obserwujemy bum crawlerów trenujących modele językowe – GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended i dziesiątki innych systematycznie pobierają zawartość stron internetowych bez wyraźnej zgody właścicieli.
Jako osoba zarządzająca własnymi projektami web, zauważyłem, że ręczne tworzenie i aktualizowanie plików robots.txt stało się skomplikowane i czasochłonne dla przeciętnego użytkownika. Lista botów do zablokowania rośnie co miesiąc, dokumentacja jest rozproszona, a każda pomyłka może skutkować albo utratą SEO (blokada Googlebota), albo brakiem ochrony przed AI (pominięcie kluczowych crawlerów).
Dlatego stworzyłem narzędzie, które:
- Agreguje aktualną listę 27+ najpopularniejszych botów
- Wyjaśnia, co robi każdy bot (nie wszyscy wiedzą czym różni się GPTBot od ChatGPT-User)
- Ostrzega przed botami ignorującymi robots.txt (jak Bytespider czy Baiduspider)
- Oferuje gotowe presety dla typowych scenariuszy
- Generuje poprawny składniowo plik w kilka kliknięć
Zapraszam do testowania generatora pod linkiem:
generator robots.txt by Jakub Sawa
- Czym jest robots.txt i jak działa
- Które boty blokować (a których nie)
- Jak wdrożyć plik na swojej witrynie
- Jak przetestować czy wszystko działa
- Jakie są ograniczenia robots.txt (spoiler: to nie jest zabezpieczenie!)
Generator jest darmowy i nie wymaga rejestracji. Kod działa całkowicie po stronie przeglądarki (client-side), więc Twoja konfiguracja nigdzie nie jest wysyłana.
Czym jest robots.txt
robots.txt to plik tekstowy umieszczany w głównym katalogu witryny internetowej (np. https://twoja-strona.pl/robots.txt), który informuje roboty internetowe (boty, crawlery, spidery) o tym, które części witryny mogą lub nie mogą indeksować. Zobacz pełny poradnik o robots.txt.
Podstawowe fakty:
- Standard od 1994 roku – Robots Exclusion Protocol
- Dobrowolna zgodność – boty mogą przestrzegać zasad, ale nie muszą
- Pierwsza linia obrony – nie jest to zabezpieczenie, tylko prośba
- Publiczny dokument – każdy może przeczytać Twój robots.txt
Jak to działa?
- Bot (np. Googlebot) odwiedza Twoją stronę
- Najpierw sprawdza
https://twoja-strona.pl/robots.txt - Czyta instrukcje dla swojego User-Agent
- Przestrzega (lub nie) podanych zasad
Po co używać generatora?
Problem, który rozwiązuje:
W 2024-2025 nastąpiła eksplozja botów AI:
- OpenAI (GPTBot) – trenuje GPT-4/5
- Anthropic (ClaudeBot) – trenuje Claude
- Google (Google-Extended) – trenuje Gemini
- Meta, Bytedance, Cohere, Perplexity… i dziesiątki innych
Bez odpowiedniego robots.txt:
- Twoje treści są automatycznie wykorzystywane do treningu AI
- Boty pobierają masowo Twoje artykuły, zdjęcia, kod
- Zużywasz bandwidth i zasoby serwera
- Tracisz kontrolę nad swoimi treściami
Co daje generator?
- Prostota – zamiast ręcznie pisać kod, klikasz checkboxy
- Aktualność – baza 27+ najważniejszych botów (aktualizowana)
- Edukacja – tooltips wyjaśniają co robi każdy bot
- Bezpieczeństwo – ostrzeżenia o botach ignorujących robots.txt
- Szybkość – gotowy plik w 2 minuty
Kto powinien używać tego narzędzia?
Zdecydowanie TAK:
- Właściciele blogów – chroń swoje artykuły przed AI
- Twórcy contentu – kontroluj wykorzystanie Twoich treści
- Administratorzy stron – zarządzaj ruchem botów
- Firmy SaaS – blokuj crawlery od dashboardów
- E-commerce – kontroluj dostęp do produktów
- Developerzy – chroń dokumentację API
Ostrożnie:
- Strony małe/nowe – blokowanie wyszukiwarek = brak SEO
- Katalogi/portale – tracisz widoczność w Google
- Strony edukacyjne – AI może zwiększać zasięg
Nie dla:
- Witryn wymagających zabezpieczenia – robots.txt NIE jest narzędziem blokującym i zabezpieczającym serwisy online
- Danych wrażliwych – użyj uwierzytelniania, nie robots.txt
Jak używać generatora – krok po kroku
Krok 1: Wybierz preset (lub konfiguruj ręcznie)
Dostępne presety:
- Niestandardowe – pełna kontrola, sam zaznaczasz boty
- Zezwól wszystkim – brak blokad (dla nowych stron)
- Blokuj AI (zezwól wyszukiwarkom) – blokujesz szkolenie AI, ale Google/Bing mogą indeksować
- SEO-friendly – tylko wyszukiwarki + narzędzia SEO
- Privacy-first – tylko Google i Bing, reszta zablokowana
- Blokuj wszystkim – totalna blokada (dla dashboardów/aplikacji)
Rekomendacja dla większości: Wybierz „Blokuj AI (zezwól wyszukiwarkom)”
Krok 2: Opcjonalnie – importuj istniejący robots.txt
Jeśli masz już robots.txt:
- Kliknij „Importuj plik”
- Wybierz swój plik
- Generator automatycznie wczyta ustawienia
- Edytuj według potrzeb
Krok 3: Skonfiguruj zaawansowane opcje
Sitemap URL:
- Dodaj link do mapy witryny (jeśli masz)
- Przykład:
https://twoja-strona.pl/sitemap.xml - Pomaga botom znaleźć wszystkie strony
Crawl-delay (sekundy):
- Opóźnienie między żądaniami bota
- 0 = wyłączone
- 5-10 sekund = standardowe
- Google IGNORUJE, działa tylko dla Yandex i Bing
Zablokowane ścieżki:
- Dodaj foldery do blokady dla WSZYSTKICH botów
- Przykłady:
/admin/,/api/*,/private/,/wp-admin/
Dozwolone ścieżki:
- Wyjątki od blokad
- Przykład: blokujesz
/wp-admin/ale pozwalasz/wp-admin/admin-ajax.php
Krok 4: Przejrzyj kategorie botów
Rozwiń sekcje i zaznacz/odznacz boty według potrzeb:
- Wyszukiwarki – Google, Bing, DuckDuckGo, Baidu, Yandex
- Szkolenie Modeli AI – GPTBot, ClaudeBot, CCBot…
- Odpowiedzi AI w Czasie Rzeczywistym – ChatGPT-User, PerplexityBot…
- Archiwizacja – Internet Archive
- Komercyjne – Amazon, Facebook, Apple
- SEO & Analytics – Ahrefs, Semrush, Majestic
Krok 5: Generuj i pobierz
- Kliknij „Generuj robots.txt” – podgląd w prawym panelu
- Sprawdź wygenerowany kod
- Kliknij „Kopiuj” albo „Pobierz jako plik”
Krok 6: Wdróż na stronie
Instrukcje poniżej w sekcji Wdrożenie.
Szczegółowy opis funkcji
Bulk Actions – szybkie akcje
„Wszystkie AI”
- Zaznacza WSZYSTKIE boty AI (training + chat)
- Pozostawia wyszukiwarki, SEO i komercyjne
„Żadne AI”
- Odznacza wszystkie boty AI
- Szybki sposób na otwarcie treści dla AI
Import istniejącego robots.txt
Co importuje:
- User-agent declarations
- Disallow rules (blokady)
- Allow rules (wyjątki)
- Sitemap URL
- Crawl-delay (jeśli obecny)
Czego NIE importuje:
- Komentarze (są usuwane)
- Nieznane dyrektywy
- Boty spoza listy generatora
Jak działa:
- Parser czyta plik linia po linii
- Dla każdego
User-agent:sprawdza czy bot jest w bazie - Jeśli
Disallow: /to bot zostaje odznaczony - Częściowe blokady (
Disallow: /admin/) trafiają do „Zablokowane ścieżki” - Allow rules trafiają do „Dozwolone ścieżki”
Tooltips edukacyjne
Ikony:
- (niebieska) – informacja o bocie
- (pomarańczowa) – bot ignoruje robots.txt
- (czerwona) – bot bardzo agresywny, użyj firewall
Sekcje zwijane
Kliknij nagłówek kategorii, aby zwinąć/rozwinąć.
Domyślnie zwinięte:
- SEO & Analytics (rzadziej używane)
Kategorie botów – co blokować?
Wyszukiwarki (Search Engines)
Googlebot – NIE BLOKUJ (chyba, że strona prywatna)
- Największa wyszukiwarka świata
- Blokada = znikniesz z Google
- Respektuje robots.txt
Bingbot – NIE BLOKUJ
- Drugi po Google
- Ważny dla Copilot (AI Microsoft)
- Respektuje robots.txt
DuckDuckBot – NIE BLOKUJ
- Wyszukiwarka prywatności
- Mały ruch, ale lojalni użytkownicy
- Respektuje robots.txt
Baiduspider – BLOKUJ (jeśli nie masz treści po chińsku)
- Chińska wyszukiwarka
- CZĘSTO IGNORUJE robots.txt
- Bardzo agresywny
- Dla blokady użyj firewall (IP: AS4134, AS4837)
YandexBot – BLOKUJ (jeśli nie celujesz w Rosję)
- Rosyjska wyszukiwarka
- Respektuje robots.txt
- Wspiera crawl-delay
Decyzja: NIE blokuj Google/Bing, chyba że to aplikacja/dashboard. Blokuj Baidu/Yandex jeśli nie masz tam klientów.
Szkolenie Modeli AI (Training)
GPTBot – BLOKUJ (jeśli nie chcesz być w GPT-5)
- OpenAI, trenuje GPT-4/5
- Najczęściej blokowany bot AI
- Respektuje robots.txt
- Blokowany przez: NYTimes, BBC, Medium
ClaudeBot – BLOKUJ
- Anthropic, trenuje Claude
- Respektuje robots.txt
- Spory ruch w 2024-2025
Google-Extended – BLOKUJ
- Trenuje Gemini/Bard
- ODDZIELNY od Googlebot – możesz blokować AI ale pozwolić search
- Respektuje robots.txt
CCBot – BLOKUJ
- Common Crawl – publiczny dataset
- Dane używane przez WIELE firm AI (nie tylko OpenAI)
- Respektuje robots.txt
- Blokada = blokujesz pośrednio dziesiątki firm
anthropic-ai – BLOKUJ
- Starszy bot Anthropic (bulk training)
- Respektuje robots.txt
Bytespider – BLOKUJ + FIREWALL
- ByteDance/TikTok, trenuje Doubao AI
- IGNORUJE robots.txt w około 70% przypadków
- Bardzo agresywny (może powodować DDOS)
- Użyj blokady IP: AS4134, AS4837, AS55967
- Zgłaszany przez adminów jako „most annoying bot”
Meta-ExternalAgent – BLOKUJ
- Meta, trenuje LLaMA
- Gwałtowny wzrost w 2025 (+305%)
- Respektuje robots.txt
cohere-ai – BLOKUJ
- Trenuje modele Cohere
- Mniejszy ruch
- Respektuje robots.txt
Omgilibot – BLOKUJ
- Komercyjny scraper (Webz.io)
- Sprzedaje dane firmom AI
- Respektuje robots.txt
Decyzja: BLOKUJ WSZYSTKIE jeśli nie chcesz być w AI. Wyjątek: jeśli chcesz być cytowany w ChatGPT/Claude dla promocji.
Odpowiedzi AI w Czasie Rzeczywistym (Chat/RAG)
ChatGPT-User – BLOKUJ (ale może nie działać)
- OpenAI, live browsing w ChatGPT
- NIE respektuje robots.txt konsekwentnie
- Różni się od GPTBot (GPTBot = training, ChatGPT-User = chat)
- User może „Browse with Bing” i ominąć blokadę
PerplexityBot – BLOKUJ
- Perplexity AI, real-time answers
- Cytuje źródła (może być promocją)
- Ogromny wzrost w 2025 (+157,490%!)
- Respektuje robots.txt
Claude-Web – BLOKUJ
- Anthropic, Claude browsing
- Real-time web access
- Respektuje robots.txt
DuckAssistBot – POZWÓL (opcjonalnie)
- DuckDuckGo AI answers
- NIE używa danych do treningu (tylko do odpowiedzi)
- Privacy-focused
- Respektuje robots.txt
Decyzja: Blokuj jeśli nie chcesz aby AI cytowało Twoje treści w odpowiedziach. Pozwól jeśli chcesz więcej ruchu/promocji.
Archiwizacja (Archive)
ia_archiver – BLOKUJ (ale może nie zadziałać)
- Internet Archive / Wayback Machine
- Od 2017 częściowo ignoruje robots.txt
- Dla .gov/.mil zawsze archiwizuje
- Dla reszty – losowo
- Jeśli chcesz usunąć archiwum: email do [email protected]
Decyzja: Blokuj jeśli masz wrażliwe treści historyczne. Pozwól jeśli chcesz archiwum dla potomnych.
Komercyjne (Commercial)
Amazonbot – BLOKUJ (jeśli nie sprzedajesz na Amazon)
- Amazon Shopping + AI assistant
- Respektuje robots.txt
FacebookBot – BLOKUJ (jeśli nie korzystasz z Facebook)
- Link previews na Facebooku
- Indeksowanie dla Meta Search
- Respektuje robots.txt
Applebot – NIE BLOKUJ
- Siri, Spotlight Search
- Mały ruch
- Respektuje robots.txt
SEO & Analytics
AhrefsBot – BLOKUJ (jeśli nie używasz Ahrefs)
- SEO backlink checker
- Bardzo agresywny – duże zużycie bandwidth
- Respektuje robots.txt
- Blokowany przez około 30% stron
SemrushBot – BLOKUJ (jeśli nie używasz Semrush)
- SEO analytics
- Średnio agresywny
- Respektuje robots.txt
MJ12bot – BLOKUJ (jeśli nie używasz Majestic)
- Backlink analysis
- Respektuje robots.txt
Decyzja: Blokuj jeśli nie płacisz za te narzędzia. Pozwól jeśli używasz ich do analizy.
Najczęstsze scenariusze użycia
1. Blog osobisty / Portfolio
Cel: Chronisz swoje artykuły, ale chcesz być w Google.
Konfiguracja:
- Preset: „Blokuj AI (zezwól wyszukiwarkom)”
- Zaznaczone: Google, Bing, DuckDuckGo
- Odznaczone: Wszystkie AI (training + chat)
- Odznaczone: Archiwizacja
- Odznaczone: SEO bots
robots.txt:
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
[...]
User-agent: *
Disallow: /
2. E-commerce
Cel: Tylko Google i Bing, reszta blokada (chronimy produkty/ceny).
Konfiguracja:
- Preset: „Privacy-first (tylko Google/Bing)”
- Zaznaczone: Tylko Googlebot, Bingbot
- Odznaczone: Wszystko inne
- Zablokowane ścieżki:
/checkout/,/cart/,/account/
3. SaaS Dashboard / Aplikacja webowa
Cel: Całkowita blokada (to nie strona publiczna).
Konfiguracja:
- Preset: „Blokuj wszystkim”
- Odznaczone: Wszystkie boty
- Opcjonalnie: używaj uwierzytelniania (lepsze zabezpieczenie)
robots.txt:
User-agent: *
Disallow: /
Code language: HTTP (http)
WAŻNE: robots.txt to za mało! Dodaj login/password lub rate limiting.
4. Dokumentacja API publiczna
Cel: Chcesz być w AI (ChatGPT będzie polecać Twoje API).
Konfiguracja:
- Preset: „Zezwól wszystkim”
- Zaznaczone: Wszystkie boty (search + AI + chat)
robots.txt:
User-agent: *
Disallow:
Sitemap: https://docs.twoja-firma.pl/sitemap.xml
Code language: JavaScript (javascript)
5. Witryna firmowa z częścią prywatną
Cel: Blog publiczny, ale admin panel zablokowany.
Konfiguracja:
- Preset: „SEO-friendly”
- Zaznaczone: Wyszukiwarki + SEO tools
- Odznaczone: AI bots
- Zablokowane ścieżki:
/admin/,/dashboard/,/api/internal/*
Ważne ograniczenia i ostrzeżenia
robots.txt NIE JEST zabezpieczeniem!
Co robots.txt MOŻE:
- Prosić grzeczne boty o nie indeksowanie
- Zmniejszyć ruch od botów przestrzegających zasad
- Chronić przed niezamierzonym indeksowaniem (np. dev environment)
Czego robots.txt NIE MOŻE:
- Zablokować złośliwych botów (ignorują go)
- Chronić danych wrażliwych
- Zastąpić uwierzytelniania/firewall
- Usunąć już zindeksowanych stron z Google
- Zagwarantować prywatności
Boty ignorujące robots.txt
Potwierdzone problemy:
- Bytespider (ByteDance/TikTok) – około 70% ignoruje
- Baiduspider (Baidu) – częste ignorowanie
- ChatGPT-User (OpenAI) – niekonsekwentne przestrzeganie
- Internet Archive – od 2017 częściowo ignoruje
Rozwiązanie: Firewall / IP blocking / Rate limiting
Blokowanie wyszukiwarek = utrata SEO
Jeśli zablokujesz Googlebot:
- Znikniesz z wyników Google w ciągu tygodni
- Stracisz 90%+ ruchu organicznego
- Nie ma cofania – re-indeksacja zajmuje miesiące
Blokuj Google TYLKO jeśli:
- To aplikacja/dashboard (nie strona publiczna)
- To dev/staging environment
- To witryna prywatna/wewnętrzna
robots.txt vs noindex
robots.txt: „Nie skanuj tej strony”
noindex: „Nie pokazuj tej strony w wynikach”
Problem: Jeśli zablokujesz w robots.txt, Google NIE zobaczy tagu noindex!
Prawidłowe użycie:
- Blokuj w robots.txt: pliki/foldery techniczne (/admin/, /api/)
- Użyj noindex: strony które istnieją, ale nie mają być w Google (thank-you pages, polityka cookies)
Wdrożenie pliku robots.txt
Krok 1: Archiwizacja (jeśli masz już robots.txt)
ZAWSZE zrób backup przed zmianami!
# SSH/Terminal
cp robots.txt robots.txt.backup-2025-10-03
# Lub pobierz przez przeglądarkę
https://twoja-strona.pl/robots.txt
# Ctrl+S, zapisz jako robots.txt.old
Code language: PHP (php)
Krok 2: Umieszczenie pliku
Lokalizacja: Główny katalog witryny (root)
Prawidłowo:
https://twoja-strona.pl/robots.txt
https://www.twoja-strona.pl/robots.txt
Code language: JavaScript (javascript)
Nieprawidłowo:
https://twoja-strona.pl/blog/robots.txt (zła lokalizacja)
https://twoja-strona.pl/Robots.txt (case sensitive!)
https://twoja-strona.pl/robots.TXT (zła nazwa)
Code language: JavaScript (javascript)
Krok 3: Upload
Metoda 1: FTP/SFTP
1. Połącz z serwerem (FileZilla, Cyberduck)
2. Przejdź do public_html/ lub www/
3. Upload robots.txt
4. Uprawnienia: 644 (rw-r--r--)
Code language: JavaScript (javascript)
Metoda 2: cPanel File Manager
1. Zaloguj do cPanel
2. File Manager → public_html
3. Upload robots.txt
Code language: JavaScript (javascript)
Metoda 3: WordPress (plugin)
1. Zainstaluj "Yoast SEO" lub "All in One SEO"
2. Tools → File Editor → robots.txt
3. Wklej kod, Save
Code language: JavaScript (javascript)
Metoda 4: Bezpośrednia edycja (SSH)
nano /var/www/html/robots.txt
# Wklej zawartość
# Ctrl+X, Y, Enter
Code language: PHP (php)
Krok 4: Weryfikacja
Sprawdź czy działa:
1. Otwórz: https://twoja-strona.pl/robots.txt
2. Sprawdź czy widzisz swój kod
3. Sprawdź encoding (UTF-8, nie UTF-8 BOM!)
Code language: JavaScript (javascript)
Błędy do uniknięcia:
- Plik się nie wyświetla → źle umieszczony lub uprawnienia
- Pokazuje HTML strony 404 → ścieżka nieprawidłowa
- Dziwne znaki → encoding problem (użyj UTF-8 bez BOM)
Testowanie i walidacja
1. Google Search Console
Najlepsze narzędzie do testowania!
1. Zaloguj: https://search.google.com/search-console
2. Dodaj swoją witrynę (jeśli jeszcze nie masz)
3. Po lewej: Legacy tools → robots.txt Tester
4. Wklej URL do przetestowania
5. Wybierz bot (Googlebot, Googlebot-Image...)
6. Kliknij "Test"
Code language: JavaScript (javascript)
Rezultat:
- „Allowed” = bot może skanować
- „Blocked” = bot zablokowany
2. Ręczne testy
Test 1: Czy plik dostępny?
curl https://twoja-strona.pl/robots.txt
# Powinien zwrócić zawartość pliku
Code language: PHP (php)
Test 2: Czy syntax poprawny?
Online validator:
https://en.ryte.com/free-tools/robots-txt/
Code language: JavaScript (javascript)
Test 3: Czy blokada działa?
1. Zablokuj test URL w robots.txt
2. Google Search Console → URL Inspection
3. Request Indexing → powinno być zablokowane
Code language: CSS (css)
3. Monitoring efektów
Śledzenie przez około 2 tygodnie:
Google Analytics / Server Logs:
- Czy spadł ruch od botów AI?
- Czy Google nadal indeksuje?
- Czy bandwidth się zmniejszył?
Search Console:
- Czy liczba indeksowanych stron się NIE zmieniła? (Google nadal działa)
- Czy „Coverage” pokazuje błędy? (być może za dużo zablokowałeś)
FAQ
Q: Czy robots.txt chroni moje treści przed AI?
A: Częściowo. Grzeczne boty (GPTBot, ClaudeBot, Google-Extended) przestrzegają. Złośliwe/agresywne boty (Bytespider, niektóre scrapers) ignorują. To pierwsza linia obrony, nie pancerz.
Q: Czy mogę zablokować AI ale pozwolić Google?
A: TAK! Blokujesz GPTBot/ClaudeBot/Google-Extended, ale NIE blokujesz Googlebot. To są różne boty.
Q: Co jeśli zablokowałem Google przez pomyłkę?
A: Natychmiast usuń blokadę. Google Search Console → Request Indexing dla ważnych stron. Re-indeksacja zajmie 1-4 tygodnie.
Q: Czy mogę ukryć robots.txt?
A: NIE. Musi być w https://domena.pl/robots.txt. Nie możesz go przenieść, zmienić nazwy ani wymagać logowania.
Q: Czy robots.txt usuwa mnie z Google?
A: Zależy. Disallow: / dla Googlebot = tak, znikniesz. Disallow: /admin/ = tylko /admin/ nie będzie skanowany.
Q: Jak zablokować boty NAPRAWDĘ (nie tylko robots.txt)?
A:
- Firewall (IP blocking) – najbezpieczniejsze
- Rate limiting (max 10 req/min z jednego IP)
- .htaccess / Nginx config (blokada User-Agent)
- Cloudflare Bot Fight Mode / WAF
- Uwierzytelnianie (login/password)
Q: Czy ChatGPT nadal będzie cytować moją stronę po zablokowaniu?
A: Zależy kiedy zablokowałeś. Jeśli GPTBot już wcześniej ściągnął dane (przed blokadą), są w modelu. Nowe dane nie będą pobierane.
Q: Ile czasu zajmuje wdrożenie robots.txt?
A:
- Upload: 5 minut
- Boty czytają przy następnej wizycie: 1-48 godzin
- Pełny efekt: 1-2 tygodnie
Q: Czy mogę mieć różne robots.txt dla subdomen?
A: TAK. https://blog.domena.pl/robots.txt i https://shop.domena.pl/robots.txt to osobne pliki.
Q: Co jeśli bot nie jest na liście generatora?
A: Możesz ręcznie dodać do wygenerowanego pliku:
User-agent: NowyBot
Disallow: /
Code language: HTTP (http)
Q: Czy robots.txt wpływa na pozycje w Google?
A:
- Blokowanie Googlebot = tracisz pozycje (znikasz)
- Blokowanie AI botów = NIE wpływa na SEO
- Blokowanie /admin/ = NIE wpływa na SEO
Q: Czy mogę zablokować tylko część strony dla AI?
A: TAK. Przykład:
User-agent: GPTBot
Disallow: /premium/
Disallow: /paid-content/
Allow: /
Code language: HTTP (http)
Q: Co z botami mobilnymi?
A: Większość botów ma jedną nazwę dla desktop/mobile (Googlebot, GPTBot). Wyjątki: Googlebot-Mobile (stary, deprecated).
Podsumowanie
Zapamiętaj:
- robots.txt to prośba, nie zabezpieczenie – grzeczne boty przestrzegają, złośliwe ignorują
- Blokuj AI, nie wyszukiwarki – chroń treści przed treningiem, ale zostaw SEO
- Bytespider i Baiduspider ignorują robots.txt – użyj firewall do blokady
- Google-Extended ≠ Googlebot – możesz osobno blokować AI Google
- ZAWSZE testuj w Google Search Console przed wdrożeniem
- Archiwizuj stary robots.txt przed każdą zmianą
- Efekty widoczne po 1-2 tygodniach – bądź cierpliwy
Zalecenia dla typowych użytkowników:
Blog/Portfolio:
- Preset: „Blokuj AI (zezwól wyszukiwarkom)”
- Monitoruj: czy Google nadal indeksuje
E-commerce:
- Preset: „Privacy-first (tylko Google/Bing)”
- Dodaj:
/checkout/,/cart/,/account/do zablokowanych ścieżek
Firma/SaaS:
- Preset: „SEO-friendly” dla strony marketingowej
- Preset: „Blokuj wszystkim” dla aplikacji/dashboardu
Dokumentacja publiczna:
- Preset: „Zezwól wszystkim” (chcesz być w AI)
Kiedy potrzebujesz więcej niż robots.txt:
Jeśli masz:
- Dane wrażliwe (hasła, API keys, dane osobowe)
- Panel administracyjny
- Płatne treści
- Aplikację webową
Użyj:
- Uwierzytelnianie (login/password)
- IP whitelisting
- Rate limiting
- WAF (Web Application Firewall)
- Cloudflare Bot Fight Mode
robots.txt to pierwszy krok, nie jedyny.
Dodatkowe zasoby
Dokumentacja oficjalna:
- Google: https://developers.google.com/search/docs/crawling-indexing/robots/intro
- OpenAI: https://platform.openai.com/docs/bots/gptbot
- Anthropic: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web
- Cloudflare: https://developers.cloudflare.com/bots/
Narzędzia:
- Google Search Console: https://search.google.com/search-console
- Robots.txt Tester: https://www.google.com/webmasters/tools/robots-testing-tool
- Validator: https://en.ryte.com/free-tools/robots-txt/
Monitorowanie botów:
- Dark Visitors: https://darkvisitors.com/ (lista wszystkich AI botów)
- Server logs: Sprawdź
/var/log/apache2/access.loglub/var/log/nginx/access.log
Wsparcie
Potrzebujesz pomocy?
- Email: [email protected]
- Generator: https://www.jakubsawa.pl
Znalazłeś błąd w generatorze? Napisz z opisem problemu, a naprawimy.
Sugestie nowych funkcji? Zawsze słuchamy feedbacku użytkowników.
Changelog (Historia wersji)
v1.0 (Październik 2025)
- Pierwsze wydanie
- 27 botów w bazie
- 6 presetów
- Import robots.txt
- Allow/Disallow paths
- Crawl-delay
- Sitemap URL
- Tooltips edukacyjne
- Kolapsowalne sekcje
- Download/Copy funkcjonalność
Licencja i odpowiedzialność
robots.txt Generator by Jakub Sawa
Używasz generatora na własną odpowiedzialność.
Autor nie ponosi odpowiedzialności za:
- Utratę ruchu SEO spowodowaną błędną konfiguracją
- Nieautoryzowany dostęp do danych (robots.txt nie jest zabezpieczeniem)
- Działania botów ignorujących robots.txt
- Konsekwencje biznesowe decyzji o blokowaniu/odblokowaniu botów
Generator służy celom edukacyjnym i pomocniczym.
Zawsze:
- Testuj przed wdrożeniem
- Archiwizuj stary plik
- Monitoruj efekty
- Konsultuj z webmasterem/DevOps/SEO jeśli masz wątpliwości
To koniec poradnika. Powodzenia w konfigurowaniu robots.txt!
Pamiętaj: robots.txt to narzędzie w Twoich rękach. Używaj go mądrze, testuj ostrożnie, monitoruj regularnie.
