Narzędzie do generowania pliku robots.txt

Przygotowałem generator pliku robots.txt w odpowiedzi na rosnący problem masowego scrapowania treści przez boty AI. Od 2023 roku obserwujemy bum crawlerów trenujących modele językowe – GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended i dziesiątki innych systematycznie pobierają zawartość stron internetowych bez wyraźnej zgody właścicieli.

Jako osoba zarządzająca własnymi projektami web, zauważyłem, że ręczne tworzenie i aktualizowanie plików robots.txt stało się skomplikowane i czasochłonne dla przeciętnego użytkownika. Lista botów do zablokowania rośnie co miesiąc, dokumentacja jest rozproszona, a każda pomyłka może skutkować albo utratą SEO (blokada Googlebota), albo brakiem ochrony przed AI (pominięcie kluczowych crawlerów).

Dlatego stworzyłem narzędzie, które:

Agreguje aktualną listę 27+ najpopularniejszych botów
Wyjaśnia, co robi każdy bot (nie wszyscy wiedzą czym różni się GPTBot od ChatGPT-User)
Ostrzega przed botami ignorującymi robots.txt (jak Bytespider czy Baiduspider)
Oferuje gotowe presety dla typowych scenariuszy
Generuje poprawny składniowo plik w kilka kliknięć

Zapraszam do testowania generatora pod linkiem:

generator robots.txt by Jakub Sawa

Czym jest robots.txt i jak działa
Które boty blokować (a których nie)
Jak wdrożyć plik na swojej witrynie
Jak przetestować czy wszystko działa
Jakie są ograniczenia robots.txt (spoiler: to nie jest zabezpieczenie!)

Generator jest darmowy i nie wymaga rejestracji. Kod działa całkowicie po stronie przeglądarki (client-side), więc Twoja konfiguracja nigdzie nie jest wysyłana.

Czym jest robots.txt

robots.txt to plik tekstowy umieszczany w głównym katalogu witryny internetowej (np. https://twoja-strona.pl/robots.txt), który informuje roboty internetowe (boty, crawlery, spidery) o tym, które części witryny mogą lub nie mogą indeksować. Zobacz pełny poradnik o robots.txt.

Podstawowe fakty:

Standard od 1994 roku – Robots Exclusion Protocol
Dobrowolna zgodność – boty mogą przestrzegać zasad, ale nie muszą
Pierwsza linia obrony – nie jest to zabezpieczenie, tylko prośba
Publiczny dokument – każdy może przeczytać Twój robots.txt

Jak to działa?

Bot (np. Googlebot) odwiedza Twoją stronę
Najpierw sprawdza https://twoja-strona.pl/robots.txt
Czyta instrukcje dla swojego User-Agent
Przestrzega (lub nie) podanych zasad

Po co używać generatora?

Problem, który rozwiązuje:

W 2024-2025 nastąpiła eksplozja botów AI:

OpenAI (GPTBot) – trenuje GPT-4/5
Anthropic (ClaudeBot) – trenuje Claude
Google (Google-Extended) – trenuje Gemini
Meta, Bytedance, Cohere, Perplexity… i dziesiątki innych

Bez odpowiedniego robots.txt:

Twoje treści są automatycznie wykorzystywane do treningu AI
Boty pobierają masowo Twoje artykuły, zdjęcia, kod
Zużywasz bandwidth i zasoby serwera
Tracisz kontrolę nad swoimi treściami

Co daje generator?

Prostota – zamiast ręcznie pisać kod, klikasz checkboxy
Aktualność – baza 27+ najważniejszych botów (aktualizowana)
Edukacja – tooltips wyjaśniają co robi każdy bot
Bezpieczeństwo – ostrzeżenia o botach ignorujących robots.txt
Szybkość – gotowy plik w 2 minuty

Kto powinien używać tego narzędzia?

Zdecydowanie TAK:

Właściciele blogów – chroń swoje artykuły przed AI
Twórcy contentu – kontroluj wykorzystanie Twoich treści
Administratorzy stron – zarządzaj ruchem botów
Firmy SaaS – blokuj crawlery od dashboardów
E-commerce – kontroluj dostęp do produktów
Developerzy – chroń dokumentację API

Ostrożnie:

Strony małe/nowe – blokowanie wyszukiwarek = brak SEO
Katalogi/portale – tracisz widoczność w Google
Strony edukacyjne – AI może zwiększać zasięg

Nie dla:

Witryn wymagających zabezpieczenia – robots.txt NIE jest narzędziem blokującym i zabezpieczającym serwisy online
Danych wrażliwych – użyj uwierzytelniania, nie robots.txt

Jak używać generatora – krok po kroku

Krok 1: Wybierz preset (lub konfiguruj ręcznie)

Dostępne presety:

Niestandardowe – pełna kontrola, sam zaznaczasz boty
Zezwól wszystkim – brak blokad (dla nowych stron)
Blokuj AI (zezwól wyszukiwarkom) – blokujesz szkolenie AI, ale Google/Bing mogą indeksować
SEO-friendly – tylko wyszukiwarki + narzędzia SEO
Privacy-first – tylko Google i Bing, reszta zablokowana
Blokuj wszystkim – totalna blokada (dla dashboardów/aplikacji)

Rekomendacja dla większości: Wybierz „Blokuj AI (zezwól wyszukiwarkom)”

Krok 2: Opcjonalnie – importuj istniejący robots.txt

Jeśli masz już robots.txt:

Kliknij „Importuj plik”
Wybierz swój plik
Generator automatycznie wczyta ustawienia
Edytuj według potrzeb

Krok 3: Skonfiguruj zaawansowane opcje

Sitemap URL:

Dodaj link do mapy witryny (jeśli masz)
Przykład: https://twoja-strona.pl/sitemap.xml
Pomaga botom znaleźć wszystkie strony

Crawl-delay (sekundy):

Opóźnienie między żądaniami bota
0 = wyłączone
5-10 sekund = standardowe
Google IGNORUJE, działa tylko dla Yandex i Bing

Zablokowane ścieżki:

Dodaj foldery do blokady dla WSZYSTKICH botów
Przykłady: /admin/, /api/*, /private/, /wp-admin/

Dozwolone ścieżki:

Wyjątki od blokad
Przykład: blokujesz /wp-admin/ ale pozwalasz /wp-admin/admin-ajax.php

Krok 4: Przejrzyj kategorie botów

Rozwiń sekcje i zaznacz/odznacz boty według potrzeb:

Wyszukiwarki – Google, Bing, DuckDuckGo, Baidu, Yandex
Szkolenie Modeli AI – GPTBot, ClaudeBot, CCBot…
Odpowiedzi AI w Czasie Rzeczywistym – ChatGPT-User, PerplexityBot…
Archiwizacja – Internet Archive
Komercyjne – Amazon, Facebook, Apple
SEO & Analytics – Ahrefs, Semrush, Majestic

Krok 5: Generuj i pobierz

Kliknij „Generuj robots.txt” – podgląd w prawym panelu
Sprawdź wygenerowany kod
Kliknij „Kopiuj” albo „Pobierz jako plik”

Krok 6: Wdróż na stronie

Instrukcje poniżej w sekcji Wdrożenie.

Szczegółowy opis funkcji

Bulk Actions – szybkie akcje

„Wszystkie AI”

Zaznacza WSZYSTKIE boty AI (training + chat)
Pozostawia wyszukiwarki, SEO i komercyjne

„Żadne AI”

Odznacza wszystkie boty AI
Szybki sposób na otwarcie treści dla AI

Import istniejącego robots.txt

Co importuje:

User-agent declarations
Disallow rules (blokady)
Allow rules (wyjątki)
Sitemap URL
Crawl-delay (jeśli obecny)

Czego NIE importuje:

Komentarze (są usuwane)
Nieznane dyrektywy
Boty spoza listy generatora

Jak działa:

Parser czyta plik linia po linii
Dla każdego User-agent: sprawdza czy bot jest w bazie
Jeśli Disallow: / to bot zostaje odznaczony
Częściowe blokady (Disallow: /admin/) trafiają do „Zablokowane ścieżki”
Allow rules trafiają do „Dozwolone ścieżki”

Tooltips edukacyjne

Ikony:

(niebieska) – informacja o bocie
(pomarańczowa) – bot ignoruje robots.txt
(czerwona) – bot bardzo agresywny, użyj firewall

Sekcje zwijane

Kliknij nagłówek kategorii, aby zwinąć/rozwinąć.

Domyślnie zwinięte:

SEO & Analytics (rzadziej używane)

Kategorie botów – co blokować?

Wyszukiwarki (Search Engines)

Googlebot – NIE BLOKUJ (chyba, że strona prywatna)

Największa wyszukiwarka świata
Blokada = znikniesz z Google
Respektuje robots.txt

Bingbot – NIE BLOKUJ

Drugi po Google
Ważny dla Copilot (AI Microsoft)
Respektuje robots.txt

DuckDuckBot – NIE BLOKUJ

Wyszukiwarka prywatności
Mały ruch, ale lojalni użytkownicy
Respektuje robots.txt

Baiduspider – BLOKUJ (jeśli nie masz treści po chińsku)

Chińska wyszukiwarka
CZĘSTO IGNORUJE robots.txt
Bardzo agresywny
Dla blokady użyj firewall (IP: AS4134, AS4837)

YandexBot – BLOKUJ (jeśli nie celujesz w Rosję)

Rosyjska wyszukiwarka
Respektuje robots.txt
Wspiera crawl-delay

Decyzja: NIE blokuj Google/Bing, chyba że to aplikacja/dashboard. Blokuj Baidu/Yandex jeśli nie masz tam klientów.

Szkolenie Modeli AI (Training)

GPTBot – BLOKUJ (jeśli nie chcesz być w GPT-5)

OpenAI, trenuje GPT-4/5
Najczęściej blokowany bot AI
Respektuje robots.txt
Blokowany przez: NYTimes, BBC, Medium

ClaudeBot – BLOKUJ

Anthropic, trenuje Claude
Respektuje robots.txt
Spory ruch w 2024-2025

Google-Extended – BLOKUJ

Trenuje Gemini/Bard
ODDZIELNY od Googlebot – możesz blokować AI ale pozwolić search
Respektuje robots.txt

CCBot – BLOKUJ

Common Crawl – publiczny dataset
Dane używane przez WIELE firm AI (nie tylko OpenAI)
Respektuje robots.txt
Blokada = blokujesz pośrednio dziesiątki firm

anthropic-ai – BLOKUJ

Starszy bot Anthropic (bulk training)
Respektuje robots.txt

Bytespider – BLOKUJ + FIREWALL

ByteDance/TikTok, trenuje Doubao AI
IGNORUJE robots.txt w około 70% przypadków
Bardzo agresywny (może powodować DDOS)
Użyj blokady IP: AS4134, AS4837, AS55967
Zgłaszany przez adminów jako „most annoying bot”

Meta-ExternalAgent – BLOKUJ

Meta, trenuje LLaMA
Gwałtowny wzrost w 2025 (+305%)
Respektuje robots.txt

cohere-ai – BLOKUJ

Trenuje modele Cohere
Mniejszy ruch
Respektuje robots.txt

Omgilibot – BLOKUJ

Komercyjny scraper (Webz.io)
Sprzedaje dane firmom AI
Respektuje robots.txt

Decyzja: BLOKUJ WSZYSTKIE jeśli nie chcesz być w AI. Wyjątek: jeśli chcesz być cytowany w ChatGPT/Claude dla promocji.

Odpowiedzi AI w Czasie Rzeczywistym (Chat/RAG)

ChatGPT-User – BLOKUJ (ale może nie działać)

OpenAI, live browsing w ChatGPT
NIE respektuje robots.txt konsekwentnie
Różni się od GPTBot (GPTBot = training, ChatGPT-User = chat)
User może „Browse with Bing” i ominąć blokadę

PerplexityBot – BLOKUJ

Perplexity AI, real-time answers
Cytuje źródła (może być promocją)
Ogromny wzrost w 2025 (+157,490%!)
Respektuje robots.txt

Claude-Web – BLOKUJ

Anthropic, Claude browsing
Real-time web access
Respektuje robots.txt

DuckAssistBot – POZWÓL (opcjonalnie)

DuckDuckGo AI answers
NIE używa danych do treningu (tylko do odpowiedzi)
Privacy-focused
Respektuje robots.txt

Decyzja: Blokuj jeśli nie chcesz aby AI cytowało Twoje treści w odpowiedziach. Pozwól jeśli chcesz więcej ruchu/promocji.

Archiwizacja (Archive)

ia_archiver – BLOKUJ (ale może nie zadziałać)

Internet Archive / Wayback Machine
Od 2017 częściowo ignoruje robots.txt
Dla .gov/.mil zawsze archiwizuje
Dla reszty – losowo
Jeśli chcesz usunąć archiwum: email do [email protected]

Decyzja: Blokuj jeśli masz wrażliwe treści historyczne. Pozwól jeśli chcesz archiwum dla potomnych.

Komercyjne (Commercial)

Amazonbot – BLOKUJ (jeśli nie sprzedajesz na Amazon)

Amazon Shopping + AI assistant
Respektuje robots.txt

FacebookBot – BLOKUJ (jeśli nie korzystasz z Facebook)

Link previews na Facebooku
Indeksowanie dla Meta Search
Respektuje robots.txt

Applebot – NIE BLOKUJ

Siri, Spotlight Search
Mały ruch
Respektuje robots.txt

SEO & Analytics

AhrefsBot – BLOKUJ (jeśli nie używasz Ahrefs)

SEO backlink checker
Bardzo agresywny – duże zużycie bandwidth
Respektuje robots.txt
Blokowany przez około 30% stron

SemrushBot – BLOKUJ (jeśli nie używasz Semrush)

SEO analytics
Średnio agresywny
Respektuje robots.txt

MJ12bot – BLOKUJ (jeśli nie używasz Majestic)

Backlink analysis
Respektuje robots.txt

Decyzja: Blokuj jeśli nie płacisz za te narzędzia. Pozwól jeśli używasz ich do analizy.

Najczęstsze scenariusze użycia

1. Blog osobisty / Portfolio

Cel: Chronisz swoje artykuły, ale chcesz być w Google.

Konfiguracja:

Preset: „Blokuj AI (zezwól wyszukiwarkom)”
Zaznaczone: Google, Bing, DuckDuckGo
Odznaczone: Wszystkie AI (training + chat)
Odznaczone: Archiwizacja
Odznaczone: SEO bots

robots.txt:

User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

[...]

User-agent: *
Disallow: /

2. E-commerce

Cel: Tylko Google i Bing, reszta blokada (chronimy produkty/ceny).

Konfiguracja:

Preset: „Privacy-first (tylko Google/Bing)”
Zaznaczone: Tylko Googlebot, Bingbot
Odznaczone: Wszystko inne
Zablokowane ścieżki: /checkout/, /cart/, /account/

3. SaaS Dashboard / Aplikacja webowa

Cel: Całkowita blokada (to nie strona publiczna).

Konfiguracja:

Preset: „Blokuj wszystkim”
Odznaczone: Wszystkie boty
Opcjonalnie: używaj uwierzytelniania (lepsze zabezpieczenie)

robots.txt:

User-agent: *
Disallow: /
Code language: HTTP (http)

WAŻNE: robots.txt to za mało! Dodaj login/password lub rate limiting.

4. Dokumentacja API publiczna

Cel: Chcesz być w AI (ChatGPT będzie polecać Twoje API).

Konfiguracja:

Preset: „Zezwól wszystkim”
Zaznaczone: Wszystkie boty (search + AI + chat)

robots.txt:

User-agent: *
Disallow:

Sitemap: https://docs.twoja-firma.pl/sitemap.xml
Code language: JavaScript (javascript)

5. Witryna firmowa z częścią prywatną

Cel: Blog publiczny, ale admin panel zablokowany.

Konfiguracja:

Preset: „SEO-friendly”
Zaznaczone: Wyszukiwarki + SEO tools
Odznaczone: AI bots
Zablokowane ścieżki: /admin/, /dashboard/, /api/internal/*

Ważne ograniczenia i ostrzeżenia

robots.txt NIE JEST zabezpieczeniem!

Co robots.txt MOŻE:

Prosić grzeczne boty o nie indeksowanie
Zmniejszyć ruch od botów przestrzegających zasad
Chronić przed niezamierzonym indeksowaniem (np. dev environment)

Czego robots.txt NIE MOŻE:

Zablokować złośliwych botów (ignorują go)
Chronić danych wrażliwych
Zastąpić uwierzytelniania/firewall
Usunąć już zindeksowanych stron z Google
Zagwarantować prywatności

Boty ignorujące robots.txt

Potwierdzone problemy:

Bytespider (ByteDance/TikTok) – około 70% ignoruje
Baiduspider (Baidu) – częste ignorowanie
ChatGPT-User (OpenAI) – niekonsekwentne przestrzeganie
Internet Archive – od 2017 częściowo ignoruje

Rozwiązanie: Firewall / IP blocking / Rate limiting

Blokowanie wyszukiwarek = utrata SEO

Jeśli zablokujesz Googlebot:

Znikniesz z wyników Google w ciągu tygodni
Stracisz 90%+ ruchu organicznego
Nie ma cofania – re-indeksacja zajmuje miesiące

Blokuj Google TYLKO jeśli:

To aplikacja/dashboard (nie strona publiczna)
To dev/staging environment
To witryna prywatna/wewnętrzna

robots.txt vs noindex

robots.txt: „Nie skanuj tej strony”
noindex: „Nie pokazuj tej strony w wynikach”

Problem: Jeśli zablokujesz w robots.txt, Google NIE zobaczy tagu noindex!

Prawidłowe użycie:

Blokuj w robots.txt: pliki/foldery techniczne (/admin/, /api/)
Użyj noindex: strony które istnieją, ale nie mają być w Google (thank-you pages, polityka cookies)

Wdrożenie pliku robots.txt

Krok 1: Archiwizacja (jeśli masz już robots.txt)

ZAWSZE zrób backup przed zmianami!

# SSH/Terminal
cp robots.txt robots.txt.backup-2025-10-03

# Lub pobierz przez przeglądarkę
https://twoja-strona.pl/robots.txt
# Ctrl+S, zapisz jako robots.txt.old
Code language: PHP (php)

Krok 2: Umieszczenie pliku

Lokalizacja: Główny katalog witryny (root)

Prawidłowo:

https://twoja-strona.pl/robots.txt
https://www.twoja-strona.pl/robots.txt
Code language: JavaScript (javascript)

Nieprawidłowo:

https://twoja-strona.pl/blog/robots.txt (zła lokalizacja)
https://twoja-strona.pl/Robots.txt (case sensitive!)
https://twoja-strona.pl/robots.TXT (zła nazwa)
Code language: JavaScript (javascript)

Krok 3: Upload

Metoda 1: FTP/SFTP

1. Połącz z serwerem (FileZilla, Cyberduck)
2. Przejdź do public_html/ lub www/
3. Upload robots.txt
4. Uprawnienia: 644 (rw-r--r--)
Code language: JavaScript (javascript)

Metoda 2: cPanel File Manager

1. Zaloguj do cPanel
2. File Manager → public_html
3. Upload robots.txt
Code language: JavaScript (javascript)

Metoda 3: WordPress (plugin)

1. Zainstaluj "Yoast SEO" lub "All in One SEO"
2. Tools → File Editor → robots.txt
3. Wklej kod, Save
Code language: JavaScript (javascript)

Metoda 4: Bezpośrednia edycja (SSH)

nano /var/www/html/robots.txt
# Wklej zawartość
# Ctrl+X, Y, Enter
Code language: PHP (php)

Krok 4: Weryfikacja

Sprawdź czy działa:

1. Otwórz: https://twoja-strona.pl/robots.txt
2. Sprawdź czy widzisz swój kod
3. Sprawdź encoding (UTF-8, nie UTF-8 BOM!)
Code language: JavaScript (javascript)

Błędy do uniknięcia:

Plik się nie wyświetla → źle umieszczony lub uprawnienia
Pokazuje HTML strony 404 → ścieżka nieprawidłowa
Dziwne znaki → encoding problem (użyj UTF-8 bez BOM)

Testowanie i walidacja

1. Google Search Console

Najlepsze narzędzie do testowania!

1. Zaloguj: https://search.google.com/search-console
2. Dodaj swoją witrynę (jeśli jeszcze nie masz)
3. Po lewej: Legacy tools → robots.txt Tester
4. Wklej URL do przetestowania
5. Wybierz bot (Googlebot, Googlebot-Image...)
6. Kliknij "Test"
Code language: JavaScript (javascript)

Rezultat:

„Allowed” = bot może skanować
„Blocked” = bot zablokowany

2. Ręczne testy

Test 1: Czy plik dostępny?

curl https://twoja-strona.pl/robots.txt
# Powinien zwrócić zawartość pliku
Code language: PHP (php)

Test 2: Czy syntax poprawny?

Online validator:
https://en.ryte.com/free-tools/robots-txt/
Code language: JavaScript (javascript)

Test 3: Czy blokada działa?

1. Zablokuj test URL w robots.txt
2. Google Search Console → URL Inspection
3. Request Indexing → powinno być zablokowane
Code language: CSS (css)

3. Monitoring efektów

Śledzenie przez około 2 tygodnie:

Google Analytics / Server Logs:

Czy spadł ruch od botów AI?
Czy Google nadal indeksuje?
Czy bandwidth się zmniejszył?

Search Console:

Czy liczba indeksowanych stron się NIE zmieniła? (Google nadal działa)
Czy „Coverage” pokazuje błędy? (być może za dużo zablokowałeś)

FAQ

Q: Czy robots.txt chroni moje treści przed AI?

A: Częściowo. Grzeczne boty (GPTBot, ClaudeBot, Google-Extended) przestrzegają. Złośliwe/agresywne boty (Bytespider, niektóre scrapers) ignorują. To pierwsza linia obrony, nie pancerz.

Q: Czy mogę zablokować AI ale pozwolić Google?

A: TAK! Blokujesz GPTBot/ClaudeBot/Google-Extended, ale NIE blokujesz Googlebot. To są różne boty.

Q: Co jeśli zablokowałem Google przez pomyłkę?

A: Natychmiast usuń blokadę. Google Search Console → Request Indexing dla ważnych stron. Re-indeksacja zajmie 1-4 tygodnie.

Q: Czy mogę ukryć robots.txt?

A: NIE. Musi być w https://domena.pl/robots.txt. Nie możesz go przenieść, zmienić nazwy ani wymagać logowania.

Q: Czy robots.txt usuwa mnie z Google?

A: Zależy. Disallow: / dla Googlebot = tak, znikniesz. Disallow: /admin/ = tylko /admin/ nie będzie skanowany.

Q: Jak zablokować boty NAPRAWDĘ (nie tylko robots.txt)?

Firewall (IP blocking) – najbezpieczniejsze
Rate limiting (max 10 req/min z jednego IP)
.htaccess / Nginx config (blokada User-Agent)
Cloudflare Bot Fight Mode / WAF
Uwierzytelnianie (login/password)

Q: Czy ChatGPT nadal będzie cytować moją stronę po zablokowaniu?

A: Zależy kiedy zablokowałeś. Jeśli GPTBot już wcześniej ściągnął dane (przed blokadą), są w modelu. Nowe dane nie będą pobierane.

Q: Ile czasu zajmuje wdrożenie robots.txt?

Upload: 5 minut
Boty czytają przy następnej wizycie: 1-48 godzin
Pełny efekt: 1-2 tygodnie

Q: Czy mogę mieć różne robots.txt dla subdomen?

A: TAK. https://blog.domena.pl/robots.txt i https://shop.domena.pl/robots.txt to osobne pliki.

Q: Co jeśli bot nie jest na liście generatora?

A: Możesz ręcznie dodać do wygenerowanego pliku:

User-agent: NowyBot
Disallow: /
Code language: HTTP (http)

Q: Czy robots.txt wpływa na pozycje w Google?

Blokowanie Googlebot = tracisz pozycje (znikasz)
Blokowanie AI botów = NIE wpływa na SEO
Blokowanie /admin/ = NIE wpływa na SEO

Q: Czy mogę zablokować tylko część strony dla AI?

A: TAK. Przykład:

User-agent: GPTBot
Disallow: /premium/
Disallow: /paid-content/
Allow: /
Code language: HTTP (http)

Q: Co z botami mobilnymi?

A: Większość botów ma jedną nazwę dla desktop/mobile (Googlebot, GPTBot). Wyjątki: Googlebot-Mobile (stary, deprecated).

Podsumowanie

Zapamiętaj:

robots.txt to prośba, nie zabezpieczenie – grzeczne boty przestrzegają, złośliwe ignorują
Blokuj AI, nie wyszukiwarki – chroń treści przed treningiem, ale zostaw SEO
Bytespider i Baiduspider ignorują robots.txt – użyj firewall do blokady
Google-Extended ≠ Googlebot – możesz osobno blokować AI Google
ZAWSZE testuj w Google Search Console przed wdrożeniem
Archiwizuj stary robots.txt przed każdą zmianą
Efekty widoczne po 1-2 tygodniach – bądź cierpliwy

Zalecenia dla typowych użytkowników:

Blog/Portfolio:

Preset: „Blokuj AI (zezwól wyszukiwarkom)”
Monitoruj: czy Google nadal indeksuje

E-commerce:

Preset: „Privacy-first (tylko Google/Bing)”
Dodaj: /checkout/, /cart/, /account/ do zablokowanych ścieżek

Firma/SaaS:

Preset: „SEO-friendly” dla strony marketingowej
Preset: „Blokuj wszystkim” dla aplikacji/dashboardu

Dokumentacja publiczna:

Preset: „Zezwól wszystkim” (chcesz być w AI)

Kiedy potrzebujesz więcej niż robots.txt:

Jeśli masz:

Dane wrażliwe (hasła, API keys, dane osobowe)
Panel administracyjny
Płatne treści
Aplikację webową

Użyj:

Uwierzytelnianie (login/password)
IP whitelisting
Rate limiting
WAF (Web Application Firewall)
Cloudflare Bot Fight Mode

robots.txt to pierwszy krok, nie jedyny.

Dodatkowe zasoby

Dokumentacja oficjalna:

Google: https://developers.google.com/search/docs/crawling-indexing/robots/intro
OpenAI: https://platform.openai.com/docs/bots/gptbot
Anthropic: https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web
Cloudflare: https://developers.cloudflare.com/bots/

Narzędzia:

Google Search Console: https://search.google.com/search-console
Robots.txt Tester: https://www.google.com/webmasters/tools/robots-testing-tool
Validator: https://en.ryte.com/free-tools/robots-txt/

Monitorowanie botów:

Dark Visitors: https://darkvisitors.com/ (lista wszystkich AI botów)
Server logs: Sprawdź /var/log/apache2/access.log lub /var/log/nginx/access.log

Wsparcie

Potrzebujesz pomocy?

Email: [email protected]
Generator: https://www.jakubsawa.pl

Znalazłeś błąd w generatorze? Napisz z opisem problemu, a naprawimy.

Sugestie nowych funkcji? Zawsze słuchamy feedbacku użytkowników.

Changelog (Historia wersji)

v1.0 (Październik 2025)

Pierwsze wydanie
27 botów w bazie
6 presetów
Import robots.txt
Allow/Disallow paths
Crawl-delay
Sitemap URL
Tooltips edukacyjne
Kolapsowalne sekcje
Download/Copy funkcjonalność

Licencja i odpowiedzialność

robots.txt Generator by Jakub Sawa

Używasz generatora na własną odpowiedzialność.

Autor nie ponosi odpowiedzialności za:

Utratę ruchu SEO spowodowaną błędną konfiguracją
Nieautoryzowany dostęp do danych (robots.txt nie jest zabezpieczeniem)
Działania botów ignorujących robots.txt
Konsekwencje biznesowe decyzji o blokowaniu/odblokowaniu botów

Generator służy celom edukacyjnym i pomocniczym.

Zawsze:

Testuj przed wdrożeniem
Archiwizuj stary plik
Monitoruj efekty
Konsultuj z webmasterem/DevOps/SEO jeśli masz wątpliwości

To koniec poradnika. Powodzenia w konfigurowaniu robots.txt!

Pamiętaj: robots.txt to narzędzie w Twoich rękach. Używaj go mądrze, testuj ostrożnie, monitoruj regularnie.

Czym jest robots.txt

Podstawowe fakty:

Jak to działa?

Po co używać generatora?

Problem, który rozwiązuje:

Co daje generator?

Kto powinien używać tego narzędzia?

Zdecydowanie TAK:

Ostrożnie:

Nie dla:

Jak używać generatora – krok po kroku

Krok 1: Wybierz preset (lub konfiguruj ręcznie)

Krok 2: Opcjonalnie – importuj istniejący robots.txt

Krok 3: Skonfiguruj zaawansowane opcje

Krok 4: Przejrzyj kategorie botów

Krok 5: Generuj i pobierz

Krok 6: Wdróż na stronie

Szczegółowy opis funkcji

Bulk Actions – szybkie akcje

Import istniejącego robots.txt

Tooltips edukacyjne

Sekcje zwijane

Kategorie botów – co blokować?

Wyszukiwarki (Search Engines)

Szkolenie Modeli AI (Training)

Odpowiedzi AI w Czasie Rzeczywistym (Chat/RAG)

Archiwizacja (Archive)

Komercyjne (Commercial)

SEO & Analytics

Najczęstsze scenariusze użycia

1. Blog osobisty / Portfolio

2. E-commerce

3. SaaS Dashboard / Aplikacja webowa

4. Dokumentacja API publiczna

5. Witryna firmowa z częścią prywatną

Ważne ograniczenia i ostrzeżenia

robots.txt NIE JEST zabezpieczeniem!

Boty ignorujące robots.txt

Blokowanie wyszukiwarek = utrata SEO

robots.txt vs noindex

Wdrożenie pliku robots.txt

Krok 1: Archiwizacja (jeśli masz już robots.txt)

Krok 2: Umieszczenie pliku

Krok 3: Upload

Krok 4: Weryfikacja

Testowanie i walidacja

1. Google Search Console

2. Ręczne testy

3. Monitoring efektów

FAQ

Q: Czy robots.txt chroni moje treści przed AI?

Q: Czy mogę zablokować AI ale pozwolić Google?

Q: Co jeśli zablokowałem Google przez pomyłkę?

Q: Czy mogę ukryć robots.txt?

Q: Czy robots.txt usuwa mnie z Google?

Q: Jak zablokować boty NAPRAWDĘ (nie tylko robots.txt)?

Q: Czy ChatGPT nadal będzie cytować moją stronę po zablokowaniu?

Q: Ile czasu zajmuje wdrożenie robots.txt?

Q: Czy mogę mieć różne robots.txt dla subdomen?

Q: Co jeśli bot nie jest na liście generatora?

Q: Czy robots.txt wpływa na pozycje w Google?

Q: Czy mogę zablokować tylko część strony dla AI?

Q: Co z botami mobilnymi?

Podsumowanie

Zapamiętaj:

Zalecenia dla typowych użytkowników:

Kiedy potrzebujesz więcej niż robots.txt:

Dodatkowe zasoby

Dokumentacja oficjalna:

Narzędzia:

Monitorowanie botów:

Wsparcie

Changelog (Historia wersji)

Licencja i odpowiedzialność

Podobne wpisy