ChatGPT: Jack of all trades, master of none
Czasopismo Information Fusion, Volume 99, November 2023
O artykule:
Jeden z pierwszych artykułów na świecie, którego celem było zbadanie możliwości stosunkowo nowego narzędzia – ChatGPT. W 2023 roku praca ta znalazła się w zestawieniu 100 najczęściej cytowanych publikacji dotyczących sztucznej inteligencji.
Wyniki naszych badań obejmowały 25 zadań zrealizowanych przy użyciu ponad 48 tys. promptów. Już wtedy zauważyliśmy potencjał ChatGPT w zakresie świadomości kontekstu i personalizacji – cechy, które dziś okazują się kluczowe. Choć ChatGPT i GPT-4 wciąż wypadały słabiej od metod SOTA, zwłaszcza w trudniejszych zadaniach wymagających rozumowania, nasze obserwacje były zapowiedzią tego, co dziś stało się oczywiste: te modele mogą przyspieszyć rozwój AI i znacząco zmienić nasze codzienne życie.

Abstrakt:
OpenAI wprowadziło Chat Generative Pre-trained Transformer (ChatGPT), rewolucjonizując podejście do interakcji człowiek–model w sztucznej inteligencji. Pierwszy kontakt z chatbotem ujawnia jego zdolność do udzielania szczegółowych i precyzyjnych odpowiedzi w różnych obszarach. Kilka publikacji dotyczących oceny ChatGPT testuje jego skuteczność na znanych zadaniach przetwarzania języka naturalnego (NLP). Jednak istniejące badania są w większości nieautomatyczne i przeprowadzone na bardzo ograniczoną skalę.
W niniejszej pracy zbadaliśmy możliwości ChatGPT na 25 różnorodnych zadaniach analitycznych NLP, z których większość jest subiektywna nawet dla ludzi, takich jak analiza sentymentu, rozpoznawanie emocji, wykrywanie obraźliwości czy określanie stanowiska. Inne zadania wymagają bardziej obiektywnego rozumowania, np. rozstrzyganie znaczenia słów, ocena poprawności językowej czy odpowiadanie na pytania. Dodatkowo oceniliśmy model GPT-4 na pięciu wybranych podzbiorach zadań NLP.
Zautomatyzowaliśmy proces tworzenia promptów dla ChatGPT i GPT-4 i przeanalizowaliśmy ponad 49 tys. odpowiedzi. Porównanie wyników z dostępnymi rozwiązaniami State-of-the-Art (SOTA) wykazało, że średnia utrata jakości modelu ChatGPT wynosiła około 25% w przypadku oceny zero-shot i few-shot. W przypadku modelu GPT-4 utrata w zadaniach semantycznych jest znacząco niższa niż dla ChatGPT. Wykazaliśmy, że im trudniejsze zadanie (niższa wydajność SOTA), tym większa utrata jakości ChatGPT, co szczególnie dotyczy pragmatycznych problemów NLP, takich jak rozpoznawanie emocji.
Przetestowaliśmy także możliwość personalizacji odpowiedzi ChatGPT dla wybranych zadań subiektywnych za pomocą Random Contextual Few-Shot Personalization, uzyskując znacząco lepsze przewidywania dostosowane do użytkownika. Dodatkowa analiza jakościowa ujawniła uprzedzenia ChatGPT, najprawdopodobniej wynikające z zasad narzuconych trenerom ludzkim przez OpenAI. Nasze wyniki stanowią podstawę do fundamentalnej dyskusji na temat tego, czy wysoka jakość współczesnych modeli predykcyjnych NLP może wskazywać na użyteczność narzędzia dla społeczeństwa oraz jak powinny być ustalane procedury uczenia i weryfikacji takich systemów.
Wnioski:
Na podstawie odpowiedzi ChatGPT na ponad 48 tys. promptów dotyczących 25 różnych zadań NLP możemy stwierdzić, że ChatGPT radzi sobie dobrze z większością rozważanych problemów. Z drugiej strony, wypada słabiej w porównaniu z najlepszymi obecnie dostępnymi modelami (SOTA), z różnicą od 4% do ponad 70%. Strata jest relatywnie większa w przypadku trudniejszych i bardziej pragmatycznych zadań, szczególnie przy ocenie tekstów emocjonalnych. Wszystko to sprawia, że ChatGPT nie jest mistrzem żadnego z zadań.
Jednak nadal pozostaje otwartym pytanie, co by się stało, gdyby ChatGPT został dostrojony (fine-tuned) przy użyciu zestawów danych z tych zadań i jak wyglądałyby wtedy wyniki. Obecnie nie jest możliwe przeprowadzenie takiego badania, ale warto je przeprowadzić, gdy tylko będzie to możliwe (notatka autora: już od 2024 roku jest możliwy fine-tuning!).
Świadomość kontekstu oraz możliwość implementacji Contextual Few-Shot Personalization, zaproponowane w niniejszej pracy, stanowią cenne cechy ChatGPT. Model oferuje także unikalną zdolność do samo-wyjaśniania, co ułatwia ludziom zrozumienie i adaptację do oczekiwanego wyniku. Planujemy rozwijać i systematyzować jakościową analizę wydajności modelu w zadaniach subiektywnych (głównie rozpoznawaniu emocji), np. poprzez porównanie odpowiedzi ChatGPT z oszacowaną kontrowersyjnością anotacji tekstów i ich wymiarów.
Jesteśmy głęboko przekonani, że ChatGPT może przyspieszyć rozwój różnych technologii związanych ze sztuczną inteligencją i znacząco zmienić nasze codzienne życie.