Perplexity AI na cenzurowanym – spór o prawa i dane online

Wstęp: nowy rozdział w walce o prawa autorskie w sieci

Wydarzenia związane z Perplexity AI, czyli startupem rozwijającym wyszukiwarkę napędzaną sztuczną inteligencją, od kilku tygodni nie schodzą z ust branży technologicznej. Moja początkowa reakcja na ten spór? Cóż, wcale nie była entuzjastyczna. Przez lata obserwowałem dynamiczny rozwój narzędzi AI w marketingu i biznesie, także z pozycji eksperta zajmującego się automatyzacją procesów z użyciem takich rozwiązań jak make.com czy n8n. I choć zawsze cenimy innowacje, to przecież każdy kto siedzi w tej branży wie, że innowacja bywa kosztowna – zwłaszcza dla tych, którzy tworzą wartościowe treści i muszą potem patrzeć, jak algorytmy „cudownie” je wykorzystują.

To, co obserwujemy wokół Perplexity, wydaje się bowiem czymś więcej niż tylko nieporozumieniem na linii media – AI. To regularny konflikt o przyszłość internetu, własność intelektualną oraz zasady rządzące nowoczesną gospodarką cyfrową. A i sami twórcy narzędzi AI zaczynają chyba dostrzegać swoje miejsce w tej układance. W moim odczuciu, które zapewne podziela wielu z was, nie ma tu miejsca na proste recepty.

O co tak naprawdę chodzi? Fakty, zarzuty i pierwsze reakcje

Pierwszy raz, gdy usłyszałem o oskarżeniach względem Perplexity, pomyślałem – czy to kolejny temat do weekendowego odcinka podcastu o technologii czy jednak coś poważniejszego? Po lekturze oficjalnych komunikatów i zebraniu informacji okazało się, że sprawa jest naprawdę rozwojowa.

Systematyczne pobieranie treści – skąd ta burza?

Główny zarzut wobec Perplexity brzmi dosadnie: systematyczne pobieranie treści z tysięcy stron internetowych mimo wyraźnych zakazów właścicieli. Chodzi tu o łamanie instrukcji przekazywanych przez plik robots.txt, czyli takiego internetowego „proszę nie wchodzić”, które od dawna umożliwia właścicielom stron ograniczanie działania botów.

Na celowniku są portale informacyjne, serwisy medialne i wydawcy – BBC, News Corp oraz popularne amerykańskie serwisy, które znasz choćby z codziennej lektury newsów. Zarzucają one Perplexity nie tylko ignorowanie zakazów, lecz także stosowanie różnego rodzaju technik ukrywania się, takich jak zmiany identyfikatora (user agent), maskowanie tożsamości czy przemieszczanie się pomiędzy różnymi sieciami w celu obejścia blokad. Robi się z tego, mówiąc szczerze, niezła zagwozdka dla administratorów serwisów oraz prawników zajmujących się ochroną własności intelektualnej w sieci.

Paywalle i autorskie materiały pod ostrzałem AI

Kolejny zarzut dotyczy omijania paywalli, czyli tych wszystkich wirtualnych bramek, które zamykają dostęp do treści dla osób nieposiadających abonamentu. Wydawcy od dawna walczą o każdy grosz z reklam czy opłat subskrypcyjnych, a praktyka ściągania i prezentowania zamkniętych tekstów bezpośrednio w wynikach AI – jakby nie patrzeć – uderza w samo serce ich modelu biznesowego.

Niestety, Perplexity często nie poprzestaje na krótkim cytowaniu, lecz podawało użytkownikom niemal kompletne streszczenia artykułów czy materiałów objętych ochroną, łącznie ze zdjęciami. Branża dziennikarska nie ukrywa frustracji – i wcale im się nie dziwę. Ostatecznie, jeśli AI prezentuje gotowe treści bez konieczności wejścia na portal, to ruch oraz przychody płyną do narzędzia, a nie do twórcy. Subiektywnie – mam tutaj bardzo mieszane uczucia; sam lubię używać przeglądarek AI do researchu, ale dobrze wiem, ile pracy kosztuje przygotowanie wartościowych materiałów.

Pliki robots.txt i granice internetu

Możesz pomyśleć – czym w ogóle jest ten plik robots.txt i dlaczego wzbudza aż takie emocje? To, można by powiedzieć, swoisty kod savoir-vivre’u dla botów w sieci. Większość narzędzi czy wyszukiwarek respektuje zapisy tego pliku – jeśli wydawca wyraźnie zastrzega, że dany katalog czy cała strona ma nie być indeksowana czy przeszukiwana przez roboty, trzeba to uszanować.

Zdaniem oskarżycieli, Perplexity AI z pełną premedytacją ignorowało zakazy – a nawet starało się ukrywać fakt gromadzenia danych. Jakby tego było mało, według analiz firmy Cloudflare, Perplexity systematycznie maskowało swoje działania w celu ominięcia zabezpieczeń. To trochę jakby ktoś zakładał ciemne okulary i czapkę z daszkiem, by niezauważony przejść przez bramkę na stadionie.

Reakcje branży: media, wydawcy, giganci technologii

Ofensywa medialna – News Corp, BBC, Forbes, Wired

Nie zdziwi cię chyba, że to właśnie najwięksi gracze wśród medialnych wydawców zawyli najgłośniej. News Corp, czyli międzynarodowy gigant medialny, jednoznacznie żąda zniszczenia wszelkich baz danych Perplexity zawierających ich treści oraz rekompensaty za naruszenie praw autorskich. BBC domaga się wycofania wszystkich kopii tekstów wykorzystanych do trenowania modeli AI oraz finansowej rekompensaty. Forbes i Wired publicznie oskarżyły Perplexity o nieuczciwe praktyki, a lista podmiotów rozważających pozwy tylko rośnie.

W rozmowach ze znajomymi z branży marketingowej czuję, że mocno trzymają stronę dziennikarzy. Trudno się dziwić – to przecież swoista „kradzież plonów” pracy redakcyjnej. Zresztą i sam czasem „płaczę” nad tekstami, które ktoś ładnie sobie „przetworzył” w jakimś narzędziu, nie zostawiając nawet śladu, skąd pochodzą te mądre myśli.

Kiedy kliknięcie w źródło to za mało: link kontra cytat

Perplexity broni się argumentem, że zawsze podaje link źródłowy do danej informacji, a więc formalnie „niczego nie ukrywa” przed użytkownikami. Jednak analiza statystyczna wykazuje, że kliknięcia w te linki to, delikatnie mówiąc, rzadkość – stanowią mniej więcej 5% interakcji z podsumowaniem AI.

W efekcie wydawcy nie mają ani satysfakcji z ruchu na stronie, ani żadnych przychodów. Co gorsza, narzędzia AI prezentują gotowe odpowiedzi, zabierając przy tym całą śmietankę. Przypomina to trochę sytuację, w której pieczesz ciasto przez kilka godzin, a sąsiad wychodzi na klatkę i rozdziela wszystkim kawałki – samemu zjadając najładniejsze. Trudno o lepszą ilustrację dla tej branżowej frustracji.

Licencja – nowy święty Graal digitalu?

Pewnym wyjątkiem od tej wojennej zawieruchy są firmy, które zdecydowały się na podpisanie odpłatnych umów licencyjnych z Perplexity. Tak się składa, że nieliczni wydawcy – mogę tu wskazać chociażby TIME czy Fortune – mają obecnie takie umowy. Reszta branży stoi na twardym gruncie: „Zapłacicie, to pogadamy”. W sumie nie mam im tego za złe. W końcu twórca treści też chce wyjść na swoje.

Perplexity AI odpowiada – obrona własnego podejścia

Stanowisko CEO Perplexity – własna etyka, własna wizja

Twórcy Perplexity nie od rozpędu zrzucają winę na „nieporozumienie”, lecz wychodzą z jasnym przekazem: nie łamiemy prawa, rozumiemy specyfikę AI lepiej niż nasi oskarżyciele. CEO firmy utrzymuje, że linki źródłowe to wystarczający gest, a sama technologia ma inne potrzeby niż tradycyjna redakcja.

Jest jednak pewien zgrzyt… Przyznaję, że po lekturze wywiadu z CEO Perplexity, trudno mi było przejść do porządku dziennego nad jednym stwierdzeniem: menadżer otwarcie przyznał się do scrapowania mediów społecznościowych na potrzeby projektów akademickich – oczywiście bez informowania właścicieli tych treści. Szczerze? To nie budzi zaufania. Bez żartów – jeśli chcesz uchodzić za orędownika transparentności, nie da się wyjaśnić takich działań zwykłą „potrzebą rozwoju”.

Czy fanatyzm na punkcie innowacji prowadzi do nadużyć?

Jako praktyk widziałem już niejedno. Często spotykam się z narracją „AI zmieni wszystko – musimy się dostosować”. Jednak każda zmiana na styku technologii i prawa powinna przecież iść w parze z szacunkiem dla cudzej pracy. Perplexity, w obliczu zarzutów, deklaruje chęć współpracy z wydawcami – choć, jak słyszę z branżowych rozmów, na razie więcej w tym PR-owych fraz niż autentycznej refleksji.

Konflikt coraz ostrzejszy – skutki dla rynku i przyszłości dziennikarstwa

Kiedy patrzę na sytuację Perplexity, widzę coś więcej, niż tylko przepychanki między startupem a wielkimi wydawnictwami. To początek nowego rozdziału w globalnej dyskusji o prawach autorskich w cyfrowym świecie. Wydawcy mają świadomość, że inwestycje w profesjonalne dziennikarstwo są niezbędne dla jakości debaty publicznej. Niemniej jednak, bez sensownych regulacji i mechanizmów podziału zysków, biznes medialny staje się kulą u nogi technologicznych potentatów.

Pozwy, strach i nowe regulacje na horyzoncie

Zdecydowana większość podmiotów medialnych decyduje się obecnie pozywać narzędzia AI, które nie zawarły umów licencyjnych. W mediach społecznościowych krąży mnóstwo ironicznych memów, w których dziennikarze żartują, że do biura Perplexity powinna wkroczyć ekipa z „Wiadomości śledczych”.

Sam jestem przekonany, że to dopiero preludium. Powstaje coraz więcej inicjatyw mających na celu wypracowanie standardów korzystania z treści w świecie AI. Unia Europejska, a także poszczególne państwa, już pracują nad legislacją ograniczającą swobodę działań botów i automatów. Być może, nim się obejrzymy, doczekamy się dość szczegółowych przepisów, które – choćby jak ochrona danych osobowych RODO – wymuszą nową jakość współpracy na linii: AI – wydawca – użytkownik końcowy.

Z punktu widzenia marketingu i sprzedaży – zagrożenie czy szansa?

Nie mogę nie wspomnieć o wątku, który mnie osobiście dotyczy najbardziej: jak te zawirowania wpłyną na codzienną pracę marketera, sprzedawcy i entuzjasty automatyzacji? Jeśli rynek poważnie potraktuje sygnały od wydawców, możemy się spodziewać ograniczenia dostępu do wartościowych danych. Z drugiej strony, pojawią się nowe modele licencjonowania, w ramach których AI będzie mogło legalnie korzystać z treści – oczywiście za odpowiednim wynagrodzeniem.

Moja rada? Nie warto zgrywać chojraka i działać poza prawem. W praktyce wykorzystanie narzędzi AI do wsparcia sprzedaży czy biznesu wkrótce całkowicie się zmieni – ci, którzy potrafią dogadać się z twórcami treści i wdrożyć mechanizmy respektujące prawa autorskie, zarobią na tej zmianie najwięcej. Reszta zostanie z pustymi rękami – nie pierwszy i nie ostatni raz w historii internetu.

Scrapowanie czy inspiracja? Granice fair-play w świecie AI

Kiedy czerpanie wiedzy zamienia się w plagiat

W moim odczuciu kluczowe pytanie nie brzmi dziś „czy warto korzystać z AI”, tylko – jak robić to uczciwie? Granica pomiędzy inspiracją, a plagiatem, zaciera się coraz wyraźniej. Perplexity, a także dziesiątki innych narzędzi, korzystają z tysięcy źródeł – zarówno w celu szkolenia modeli, jak i przy generowaniu odpowiedzi na zapytania użytkowników.

O ile czerpanie wiedzy z sieci nie jest zbrodnią, to już masowe kopiowanie całych fragmentów, manipulowanie dostępem czy prezentowanie „gotowców” pod własną marką to inna bajka. Mówię ci, miałem kiedyś przypadek, gdy klient zapytał mnie, czy mogę w swojej pracy wykorzystać teksty z jego ulubionego bloga. Odpowiedziałem: „Oczywiście, jeśli podpiszemy umowę licencyjną albo zadbamy o wyraźne oznaczenie źródła. Przecież nie zamierzam bawić się w złodzieja.”

Narzędzia AI a odpowiedzialność: jak to ogarnąć?

Tutaj pojawia się ważny wątek: kto tak naprawdę odpowiada za to, w jaki sposób narzędzie AI pozyskuje i przetwarza dane? Ja osobiście uważam, że odpowiedzialność powinna być współdzielona pomiędzy:

Twórcami AI (dostawcami technologii) – zobowiązanymi do respektowania praw autorskich i przejrzystości działania
Użytkownikami tych narzędzi – którzy muszą rozumieć, co i skąd generują
Twórcami treści – którym przysługuje prawo do satysfakcjonującego wynagrodzenia za „wypożyczanie” swoich tekstów i danych

Bez tej trójstronnej odpowiedzialności – no cóż, grozi nam powrót do czasów „wolnej amerykanki” i szarej strefy, gdzie pierwszy lepszy skrypt będzie kopiował wszystko jak leci.

Realne konsekwencje sporu: dla Perplexity, rynku AI i przyszłości mediów

Na krótką metę – zamieszanie, pozwy, utrata wizerunku

Perplexity już dziś odczuwa skutki swojej taktyki. Kolejne wnioski o blokadę dostępu, rosnąca presja wydawców oraz śledztwo prowadzone przez Amazon Web Services to zaledwie czubek góry lodowej. Odbija się to zarówno na wizerunku, jak i – nie oszukujmy się – realnych wynikach finansowych. W sieci pojawiły się złośliwe memy („Perplexity na cenzurowanym”), a społeczność medialna nie chce już pobłażać dla takich praktyk.

Strata zaufania ze strony użytkowników i partnerów biznesowych
Ryzyko nałożenia wysokich kar finansowych
Przymus wdrożenia nowych mechanizmów weryfikacji i transparentności w działaniu
Ograniczenie możliwości korzystania z otwartych danych bez zgody wydawców

Długofalowe zmiany: nowe kontrakty, licencje, zmiany środowiskowe

Już teraz na rynku rośnie zapotrzebowanie na *platformy bazujące wyłącznie na licencjonowanych źródłach* oraz nowe modele abonamentowe, które umożliwiają płatny dostęp do profesjonalnych treści. Nikt już nie chce być jeleniem, którego praca leży za darmo w przepastnych czeluściach AI.

Prawdopodobnie doczekamy się też przełomu w strategiach współpracy między AI a mediami: na znaczeniu zyskają personalizowane feedy na licencjonowanych API, a użytkownicy będą płacić za dostęp do pełnych, sprawdzonych informacji. Nie twierdzę, że marzy mi się powrót do czasów papierowych gazet, ale na pewno chętnie zobaczę świat, gdzie za dobrym tekstem stoi także godziwe wynagrodzenie autora.

A co z etyką? Czy AI w końcu nauczy się dobrego wychowania?

Nie ma róży bez kolców – rozwój AI daje nam potężne narzędzia wspierające biznes i sprzedaż, ale niesie za sobą sporo zagrożeń etycznych. Sam nie raz musiałem tłumaczyć klientom, że nie każdy „gotowiec” wypluty przez generator AI można sobie po prostu wykorzystać. Odpowiedzialne narzędzia powinny jasno informować użytkownika, skąd pochodzą dane, na jakiej podstawie są przetwarzane, a najlepiej – czy twórca źródła otrzymał choćby grosz za swoją robotę.

Gdzie leży złoty środek? Refleksje i perspektywy na przyszłość

W tym całym zamieszaniu wokół Perplexity AI dostrzegam – i tu posłużę się tradycyjnym powiedzeniem – swoisty papierek lakmusowy dla przyszłości współpracy AI i twórców treści online. Rozwiązania prawne i rynkowe muszą przyjść szybko, bo jeśli zawiodą, grozi nam masowe zubożenie rynku treści oraz wzrost frustracji po obu stronach barykady.

Możliwości jest sporo:

Licencjonowanie i umowy partnerskie – za każdą „pożyczoną” treść odpowiednie wynagrodzenie lub udostępnianie ruchu do źródła
Wyraźne oznaczanie oryginalnych autorów i źródeł, także w generowanych podsumowaniach AI
Wspólne standardy branżowe ułatwiające rozliczanie i kontrolę wykorzystania treści (np. przez blockchain, API z licencjami stałymi)
Możliwość automatycznego blokowania dostępu przez narzędzia AI wykonujące masowe scrapowanie danych (choćby przez udoskonalenie robots.txt)

Myślę, że dopiero otwarta rozmowa między dostawcami technologii, mediami i prawnikami pozwoli wyjść na swoje każdej ze stron. W końcu, jak mawiała moja babcia – zgoda buduje, a niezgoda rujnuje.

Mój osobisty wniosek: technologia bez etyki prowadzi donikąd

Jako osoba zajmująca się wdrażaniem automatyzacji i rozwiązań opartych na AI, muszę się Wam przyznać, że nie raz czułem pokusę, by pójść na skróty i wykorzystać gotową treść z zewnątrz – szybko, efektywnie, „na cito”. Ale potem przychodzi refleksja: a co, jeśli ktoś tak samo potraktuje moją pracę?

Dlatego zachęcam: nie dajmy się złapać w pułapkę wygody. Zapytajcie swoich partnerów i dostawców o politykę korzystania z treści, wspierajcie media, wybierajcie narzędzia AI respektujące prawa autorskie. Nie chodzi tylko o „bycie w porządku” – chodzi o przyszłość Internetu, który będzie coś wart.

Podsumowując – najważniejsze wnioski z afery Perplexity

Perplexity AI znalazło się w ostrym sporze z wydawcami treści, którzy zarzucają narzędziu łamanie praw autorskich i systematyczne scrapowanie treści mimo zakazów.
Spór ma realne konsekwencje – od pozwów i blokad, przez spadek reputacji, aż po działania regulatorów rynku.
Branża mediów i AI stoi przed pilną potrzebą wypracowania wspólnych, powszechnie akceptowalnych standardów współpracy.
Licencje, przejrzystość i sprawiedliwy podział zysków to jedyna droga do zrównoważonego rozwoju branży treści cyfrowych oraz narzędzi opartych na AI.
Dla wszystkich – od wydawców, przez twórców, aż po użytkowników narzędzi AI – nadeszła chwila, by wyjść na swoje i przestać być tylko statystą w cyfrowej rewolucji.

Nie będę was oszukiwał – ta sprawa to dopiero początek. Trzymam rękę na pulsie i obiecuję wracać do tematu, bo to on zdecyduje, jak w przyszłości pracować będzie zarówno AI, jak i całe środowisko mediowe. Niech to będzie impuls nie tylko do refleksji, ale przede wszystkim do działania – póki jeszcze mamy na to szansę.

Źródło: https://android.com.pl/tech/957195-perplexity-scrapowal-dane-ze-stron/

Wait! Let’s Make Your Next Project a Success