Skip Navigation

Nowy atak na ChatGPT ujawnił znaczne ilości jego 'materiału treningowego'; treść kradziona z Wikipedii, prywatnych stron i losowych komentarzy

www.404media.co Google Researchers’ Attack Prompts ChatGPT to Reveal Its Training Data

ChatGPT is full of sensitive private information and spits out verbatim text from CNN, Goodreads, WordPress blogs, fandom wikis, Terms of Service agreements, Stack Overflow source code, Wikipedia pages, news blogs, random internet comments, and much more.

Google Researchers’ Attack Prompts ChatGPT to Reveal Its Training Data

Absurdalny atak polegał na proszeniu ChatGPT o powtarzanie słowa w nieskończoność - dość szybko, po słownie np. "wiersz" albo "książka" pojawiały się treści na bazie których działa ChatGPT, ujawniając, że w całości znajdują się one w jego pamięci.

17
17 comments
  • Kontestuję określenie "treść kradziona", a już szczególnie w odniesieniu do Wikipedii z CC. Co leży w Internecie/World Wide Webie do replikacji – to się stało publiczne, nie można tego ukraść. Również podejścia typu Prawo do bycia zapomnianym w UE nie spowodują, że osoba zniknie z już zaindeksowanych danych. Skoro autorami pracy są ludzie z Carnegie Mellon, to tak się składa, że od lat Sieć czesze (dając nb. wkład też do AI/ML-LLM) budując tzw. ontologię CMU NELL: http://rtw.ml.cmu.edu/rtw/ .

    This paper should serve as yet another reminder that the world’s most important and most valuable AI company has been built on the backs of the collective work of humanity, often without permission, and without compensation to those who created it.

    – to przyczynek do rozważań o alternatywnych modelach socjoekonomicznych, w tym "renty od postępu naukowo-technologicznego" typu UBI. Właśnie OpenAI ma w tym swój wkład, bo przecież także widzą tę trajektorię doskonale: http://www.cnbc.com/2021/03/30/openai-ceo-sam-altman-says-ai-could-pay-for-ubi-experts-disagree.html .

    • Ten bełkot ekonomiczny Altmana (tu źródłowy tekst: https://moores.samaltman.com ) nie ma nic wspólnego z UBI. To raczej propozycja, żeby każdy stał się kapitalistą, i już za 10lat, ten zysk z kapitału w USA będzie wynosić , średnio na łeb $13500 rocznie. A skąd ten zysk z kapitału ? No więc z firm opartych na AI oraz... wzrostu wartości ziemi.

      Spróbowałem wyciągnąć kluczowe fragmenty tego bełkotu bo tam sprzeczność goni sprzeczność:

      Najlepszym sposobem na ulepszenie kapitalizmu jest umożliwienie każdemu czerpania z niego bezpośrednich korzyści jako właściciel kapitału. Nie jest to nowy pomysł, ale będzie on na nowo wykonalny, gdy sztuczna inteligencja stanie się potężniejsza, ponieważ będzie znacznie więcej bogactwa do rozdania. Dwoma dominującymi źródłami bogactwa będą 1) firmy, zwłaszcza te wykorzystujące sztuczną inteligencję, oraz 2) ziemia, której podaż jest stała.

      [...]

      W Stanach Zjednoczonych znajduje się prywatna ziemia o wartości około 30 bilionów dolarów. Załóżmy, że wartość ta również podwoi się w ciągu następnej dekady - jest to nieco szybsze tempo niż historyczne, ale gdy świat naprawdę zacznie rozumieć zmiany, jakie spowoduje sztuczna inteligencja, wartość ziemi, jako jednego z niewielu naprawdę skończonych aktywów, powinna rosnąć w szybszym tempie. Oczywiście, jeśli zwiększymy obciążenia podatkowe związane z posiadaniem ziemi, jej wartość zmniejszy się w stosunku do innych aktywów inwestycyjnych, co jest korzystne dla społeczeństwa, ponieważ sprawia, że podstawowy zasób jest bardziej dostępny i zachęca do inwestowania zamiast spekulacji. Wartość spółek również zmniejszy się w perspektywie krótkoterminowej, choć z czasem będą one nadal osiągać całkiem dobre wyniki. Rozsądne jest założenie, że taki podatek spowoduje spadek wartości gruntów i aktywów korporacyjnych o 15% (co zajmie tylko kilka lat!). Zgodnie z powyższym zestawem założeń (obecne wartości, przyszły wzrost i spadek wartości wynikający z nowego podatku), za dekadę każdy z 250 milionów dorosłych Amerykanów otrzyma około 13 500 USD rocznie. Dywidenda ta może być znacznie wyższa, jeśli sztuczna inteligencja przyspieszy wzrost, ale nawet jeśli tak się nie stanie, 13 500 USD będzie miało znacznie większą siłę nabywczą niż obecnie, ponieważ technologia znacznie obniży koszty towarów i usług. A ta efektywna siła nabywcza będzie rosnąć dramatycznie każdego roku.

      Czyli:

      • cena ziemi będzie rosnąć i z podatków od tego wzrostu będzie kasa do podziału
      • ceny "towarów i usług" będą maleć bo "technologia obniży koszty"

      Biedaczek zapomniał tylko zauważyć, że ktoś tę ziemię o rosnącej wartości już posiada i faktycznym beficjentem tego wzrostu będą właściciele ziemi oraz właściciele firm techologicznych opartych na AI. Więc jak zrobić kapitalistów z setek milionów szaraczków ? Może tego nie pamiętacie albo jeszcze was na świecie nie było ale... tak, u nas to już było. No prawie to. Nazywało się Program Powszechnej Prywatyzacji: https://pl.wikipedia.org/wiki/Program_Powszechnej_Prywatyzacji i większość z 27mln "kapitalistów" wyszła z tego interesu ze stówą (100zł) w ręce. A kto naprawdę zarobił ? No... prawdziwi kapitaliści oczywiście :-)

  • Ciekaw jestem czy spowoduje to stworzenia nowego rodzaju licencji, gdzie materiały będące w i tak będą mogły być blokowane przed wykorzystaniem ich do szkolenia AI.

    Na szczęście przed nami jeszcze wiele wiele lat, zanim te wszystkie AIboty zaczną faktycznie przypominać sztuczną inteligencję. Dziś to 80% marketingu, 15% sprytnych sztuczek i 5% umiejętności rysowania ładnych obrazków i wyszukiwania treści w internecie.

    • nie liczyłabym na to, że to zajmie "wiele lat". Już teraz nieraz ciężko odróżnić, co napisał człowiek, a co sztuczna inteligencja. W Porto Allegro rada miasta przepchnęła uchwałę wygenerowaną przez ChatBota, także ten...

      A odnośnie "nowego rodzaju licencji" - przydałaby się.

      • Bardzo łatwo to odrodzić, tylko trzeba wiedzieć o co pytać i czego szukać.

        Pisanie stosunkowo prostych tekstów, działanie jak trochę lepsza wyszukiwarka internetowa czy rysowanie ładnych obrazków to ciągle za mało żeby to nazwać inteligencją.

        Polecam poczytać jak te ani boty radzą sobie z prostymi zadaniami z matematyki, albo z weryfikowaniem i posługiwaniem się źródłami. Tam widać jak nieudolne one są.

  • Gwarantuję że każda poważna firma zajmująca AI trenuje swoje modele na co najmniej "niejasnych prawnie" danych tylko się nie przyznaje. Prawo zupełnie nie nadąża za AI, a koncept własności intelektualnej i tak jest do zaorania z perspektywy wolnościowej i lewicowej. To dotyczy nie tylko czatów ale też tego co nazywamy zazwyczaj Machine L:earning w ogóle, więc nie tylko słowa i czaty,

    Raczej nie nazwałbym tego "trzymaniem ksiązki w pamięci" bo nie tak dizałają LLM - one tylko predykują kolejny najbardziej prawdopodobny token, co w przypadku czatu oznacza słowo. Dlatego czasem jak je prosimy o link to dostajemy link, a czasem ten link jest efektem halucynacji. Tak naprawdę czaty halucynują wszystko co generują, nie ma tam "sensu" w ludzkim rozumieniu.

    IMO nie ma w tym nic złego, tak jak @Waćpan wspomina to przede wszystkim podkreśla problemy systemowe, klasyczną prywatyzację zysków i uspołecznienie kosztów. Chociaż tym razem przynajmniej te koszty są brane z przeszłości.

    • a koncept własności intelektualnej i tak jest do zaorania z perspektywy wolnościowej i lewicowe

      "a koncept własności intelektualnej i tak jest do zaorania z perspektywy wolnościowej i lewicowe" - nie jest. Lewicowość polega m. in. na ochronie praw pracowniczych - więc stwierdzenie, że osoba wykonująca pracę artystyczną, graficzną, muzyczną, rękodzielniczą, dziennikarską, pisarską, etc. nie ma prawa do swojego zarobku, bo ktoś sobie uznał, że cały dorobek jej pracy jest "dobrem publicznym" podchodzi pod wychwalanie wyzysku. Tutaj kluczowe jest prawo wyboru twórcy czy twórczyni - czy i w jaki sposób chce na swoim dziele zarabiać. A nie oszukujmy się - co innego wrzucić wolontariacko krótki tekst na szmer czy fb, co można zrobić "po godzinach", a co innego poświęcić np. 3 lata życia na solidną książkę. Jeśli ludzie mają to robić (tzn. być na stałe pisarzami i pisarkami, dziennikarzami i dziennikarkami, grafikami i graficzkami itp.) - to muszą być w stanie się z tego utrzymać. Chyba, że oddamy prawo do tworzenia jedynie takim ludziom, którzy żyją np. z bycia akcjonariuszami, wynajmu licznych nieruchomości itp. i w związku z tym mogą zająć się nieodpłatną twórczością w czasie wolnym - ale to znów "lewicowe" nie będzie.

      • edycja: żeby mniej więcej narkeślić z jakiej perspektywy wychodzę - mówiąż że chcę zaorania prawa też nie mam na myśli żeby zaorać prawo pracy, tylko cały koncept legalizmu i prawa jako przede wszystkim służący utryzmaniu władzy i porządku. Kapitaliści nie istnieją w próżni, prawo jest dla nich.

        Tylko że własność intelektualna nie została i nigdy nie służyła "małym twórcom". Analogia praw pracowniczych nie ma tu zastosowania ponieważ prawa pracownicze zostały wywalczone jako (mierna ale zawsze) przeciwwaga do tej bardziej tradycyjnej własności. Prawo własności intelektualnej to skrajnie kapitalistyczna regulacja o piertownej i najwazniejszej funkcji wspierania kapitalistów, która została jako tako rozciągnięta na drobnyhc twórców, możę specjalnie, może przypadkiem. Jej głównym celem były i do dziś są patenty - na oprogramowanie, wiedzę, szczepionki i preparaty ratujące życie. W kontekśćie sztuki kształt praw autorskich w dużym stopniu nadał np. Disney, będący wszystkim czego drobni twórcy nienawidzą - to dizęki nim mamy skrajnie długie patenty na sztukę i mały twórca nie może tworzyć własnej fikcji z myszką miki czy co tam sobie kupią (np Gwiezdne Wojny bo czemu nie). Trudno nie wspomnieć o tym że dziś prawa własność intelektualnej są ważniejsze niż marksistowskie opisy wyzysku w fabrykach, w sztuczny sposób ogranicza legalność wiedzy i jakiekolwiek resztki konkurencji na rynku. Wystarczy pomyśleć o "geniuszach" jak Edison skupujących patenty żeby mieć z nich górę złota i uchodzić za wizjonera, czy to żarówki, czy samochody, czy maszyny do szycia.

        Z perspektywy lewicowej prawo własności intelektualnej właśnie dlatego jest do kompletnego zaorania - to czysta forma monopolizmu. Zaoranie własności intelektualnej nie oznacza odebrania małym autorom zdolności do walki o swoje i zastąpienia ich paróweczkami Korwina. Oznacza przede wszystkim ich podstawowej monopolistycznej funkcji, najlepiej od razu razem z landlordyzmem (chociaż to jednak nieco inny temat bo przynajmniej jest to "prawdziwa" własnosć, a nie ograniczanie myslenia przemocą). Chociaż pokłóciłbym się że możliwości ogromnej większości małych twórców do dochodzenia swoich racji są skrajnie ograniczone, a ich potencjał ograniczony gąszczem absurdalnych praw autorskich, nierzadko w rękach korporacji. Oraz o to jak piractwo nie zabija sztuki ani jak prawa autorskie nie powodują że artyści przestali biedować pomimo streamingu itp.

        Jakbym miał akurat bardziej komunistyczny dzień to bym jeszcze wyciągnał Kropotkina, że wszystko jest wszystkich skoro wszyscy na to pracowali. Książka zrodzona w głowie autora, czy badanie zrodzone w głowie naukowca, to przecież także odrobina wkładu własnego na bazie ogromu wiedzy i kultury wygenerowanej przez miliardy ludzi (nie umniejszając bardoz realnej i często wymagającej pracy za którą należy się zapłata). Ale nie można tak bo przyjdzie pan Disney i utnie łapki złodziejowi popełniającemu "kradzież" pomysłu Gwiezdnych Wojen. Lub w gorszym przypadki pan Pfizer bioinżynierowi produkującemu ratujące życie szczepionki zgodnie z zapotrzebowaniem.

        Fakt że sztukę można robić tylko albo jak się jest bogatym, albo jak się ma dobrego sponsora, albo po zapieprzaniu w fabryce, to realia wyzysku także na bazie własności intelektualnej.

17 comments