Technologia

Zatrucie danych w internecie: Czy generatywna sztuczna inteligencja zmienia nasze słownictwo?

2024-09-24

Autor: Magdalena

Wzrastająca popularność generatywnej sztucznej inteligencji przyczyniła się do stworzenia ogromnej ilości treści, które zalały internet. Obecnie obserwujemy nie tylko wzrost liczby obrazów czy artykułów generowanych automatycznie, ale także niepokojący wpływ na jakość i rzetelność tych materiałów. W szczególności dotyczy to materiałów edukacyjnych oraz naukowych, które powinny opierać się na wartościach merytorycznych, a nie maszynowych algorytmach.

Robyn Speer, twórczyni narzędzia Wordfreq, postanowiła zakończyć rozwój tego programu z powodu rosnącego problemu z jakością danych w sieci. Wordfreq, który miał na celu analizowanie częstotliwości użycia słów w różnych językach, bazował na zbiorach danych z Wikipedii, serwisów filmowych i społecznościowych. Speer podkreśla, że zbyt wiele informacji w internecie jest generowanych przez modele AI, co prowadzi do powstawania treści, które nic nie wnoszą i zniekształcają prawdziwe zjawiska językowe.

Ekspert z Uniwersytetu w Manchesterze, profesor Philip Shapiro, przeprowadził analizę, która pokazała, że po wprowadzeniu ChatGPT popularyzacja frazy "delve into" wzrosła gwałtownie w publikacjach naukowych, co stanowi przykład niezdrowego wpływu generatywnej AI na nasz język. Słowa, które kiedyś miały określoną wartość w komunikacji, teraz mogą być de facto zamieniane przez maszynowo generowane frazy.

W obliczu trudności, jakie sprawia pozyskiwanie dobrych danych, Robyn Speer zauważa też, że obecność spamu w zasobach, które były używane przez Wordfreq, była wcześniej bardziej koncertowa i dała się zapanować. Teraz jednak dane w internecie są zdominowane przez teksty, które udają autentyczny język, ale nie mają realnych intencji. Jak zaznacza Speer, korzystanie z takiego materiału obniża rzetelność analizy i prowadzi do nieprawidłowych wniosków.

Sytuacja staje się coraz bardziej skomplikowana, ponieważ takie portale jak Reddit czy X (dawny Twitter) wprowadziły zmiany w polityce dostępu do API, co znacznie utrudnia badaczom pozyskiwanie wartościowych danych do analizy. Speer zauważa, że w przypadku Twittera nawet jeśli uzyskała dostęp do pewnych danych, nie były one szczególnie wartościowe, a platforma stała się miejscem, gdzie dominują treści generowane przez spamerskie algorytmy.

Nie można zapomnieć, że generatywna sztuczna inteligencja staje się dominującą siłą w przetwarzaniu naturalnym. To powoduje, że badania i innowacje w tej dziedzinie stają się ograniczone do kilku wielkich graczy: OpenAI i Google, co z kolei wpływa na całą branżę. Słowa i teksty tworzone przez algorytmy mogą być łatwo mylone z oryginalnymi dziełami, co prowadzi do poważnych problemów związanych z plagiatem.

Robyn Speer jasno stwierdza, że nie chce angażować się w projekty, które mogą być pomyłką z generatywną sztuczną inteligencją. Jej głos powinien być słyszalny w debacie na temat przyszłości lingwistyki i przetwarzania języka w erze zdominowanej przez AI. Jakie będą skutki tego zjawiska dla przyszłych pokoleń? Czy generatywna sztuczna inteligencja zdominuje nasz sposób komunikacji? Warto zadać sobie te pytania, nim całkowicie poddamy się przyszłości, w której autentyczność staje się coraz bardziej wątpliwa.