ROZMOWA Z AUTOMATU
Jak na przestrzeni lat zmieniały się maszyny do rozmawiania? Do czego służyły pierwsze boty konwersacyjne i czy "rozumiały" zwierzenia swoich rozmówców? Czego algorytmy mogą nauczyć się o naturze ludzkiej i naszym języku?
Jest koniec lat 40. XX w. „Maszyny obliczeniowe” wciąż są jeszcze tylko szafami rozwiązującymi problemy matematyczne, co i tak każdorazowo wymaga żmudnego formułowania danego zagadnienia przez zespół inżynierów. Trzeba ponadprzeciętnie bujnej wyobraźni, aby ujrzeć w tych szafach potencjał intelektualny i postawić pytanie, czy maszyna tego typu będzie kiedyś w stanie myśleć albo… rozmawiać. Taką wyobraźnię miał jeden z ojców komputera – Alan Turing.
W 1950 r. w czasopiśmie filozoficznym „Mind” ukazuje się jego artykuł zatytułowany „Computing Machinery and Intelligence” („Maszyny obliczeniowe i inteligencja”). Oto pierwsze zdanie tego tekstu: „Proponuję rozważyć pytanie: czy maszyny mogą myśleć?”. Problem z tym pytaniem jest taki, zauważa następnie Turing, że nie tylko nie wiemy, czym właściwie jest myślenie – przez co uczciwa próba znalezienia odpowiedzi przemieniłaby się szybko w traktat filozoficzny – ale ponadto jest ono czymś dziejącym się „skrycie”, przez co trudno jest tak naprawdę orzec, czy ktokolwiek myśli. To stara zagadka filozoficzna: czy istnieją umysły inne niż mój? A może to ja jestem jedyną istotą we wszechświecie obdarzoną umysłem, a otaczający mnie ludzie to w istocie tylko zręcznie kłapiące szczękami kawałki mięsa? (Dziś o istocie takiej – pod każdym względem przypominającej człowieka, ale kompletnie pozbawionej świadomości, przytomności i poczucia „ja” – mówi się zwykle „filozoficzne zombie”).
Turing postanowił uciąć tego typu rozważania w zarodku i skupić się na kłapaniu szczękami: skoro i tak oceniamy „myślność” otaczających nas istot ze względu na ich działania – choćby to, czy potrafią inteligentnie, trzeźwo z nami rozmawiać – to dlaczego nie mielibyśmy zastosować tego samego kryterium przy pytaniu o myślącą maszynę? Stąd imitation game: gra w imitację. Przypuśćmy, że przy dowolnym urządzeniu do zdalnej komunikacji tekstowej – Turing zaproponował dalekopis – sadzamy sędziego, aby przez pięć minut prowadził rozmowę z kimś (lub czymś) znajdującym się w sąsiednim pomieszczeniu. Następnie zadajemy mu pytanie: czy literki „wypluwane” z urządzenia były spisywane przez człowieka, czy też generowała je maszyna? O programie zdolnym do systematycznego oszukiwania gremium tego typu sędziów powiedzielibyśmy dziś, że „zdał test Turinga”. Oto odnośny cytacik z rzeczonego artykułu:
„Uważam, że za mniej więcej 50 lat będzie możliwe zaprogramowanie komputerów, wyposażonych w pamięć o pojemności ok. 109 [bitów – Ł.L.], które wypadną w grze w imitację tak dobrze, że przeciętny sędzia nie będzie miał lepszej niż 70 procent szansy dokonania prawidłowej identyfikacji po pięciu minutach rozmowy. Pierwotne pytanie »Czy maszyny mogą myśleć?« uważam za zbyt ubogie w znaczenie, aby zasługiwało na analizę. Sądzę jednak, że przed końcem stulecia zwyczaje językowe i przekonania wykształconych ludzi zmienią się na tyle, że będzie można swobodnie mówić o myślących maszynach”.
Ani słowa o złocie
W 2000 r. minęło dokładnie 50 lat od artykułu Turinga – czy spełniło się jego przewidywanie? Na pewno znacznie bardziej wypada dziś mówić o „myślących maszynach” – choć wciąż zwykle robimy to z przymrużeniem oka. Jeśli jednak rozpatrzymy samą możliwość porozmawiania z komputerem „jak człowiek z człowiekiem”, to musimy przyznać, że wciąż jesteśmy w lesie. Choć dziś, w 2020 r., bywamy już regularnie nagabywani przez automatycznych telefonicznych asystentów sprzedaży, a niektórzy z nas instalują w swoich smartfonach aplikacje mówiące ludzkim głosem i reagujące – czasem nawet poprawnie – na proste komendy, nie ma żadnych szans na odbycie nawet krótkiej inteligentnej rozmowy na dowolny temat z programem komputerowym.
Programistów chętnych na podjęcie rękawicy oczywiście nie brakuje. Już w 1966 r. opisano pierwszy „program konwersacyjny” – Elizę Josepha Weizenbauma (zob. ramka). W 1990 r. po raz pierwszy odbył się najsłynniejszy międzynarodowy konkurs botów konwersacyjnych, którego fundatorem był Hugh Loebner, wynalazca i wizjoner. Wyznaczona przez niego nagroda w wysokości 100 tysięcy dolarów wciąż czeka na odbiór, choć od 30 lat co roku nie brakuje zgłoszeń. Dotychczasowi „zwycięzcy” nagrody – pośród nich zwłaszcza trzy słynne botki, Alice, Rose i Mitsuku, dominujące w tabeli zwycięzców przez prawie dwie dekady – otrzymywali w istocie zawsze tylko „nagrodę pocieszenia” w postaci brązowego medalu.
Rozwój sztucznej inteligencji (AI) doprowadził do naprawdę niezwykłych wyników: istnieją dziś programy komputerowe rozpoznające ludzką mową i ludzkie emocje; wygrywające z nami w szachy i w teleturniejach typu „Va banque”; malujące w zadanym stylu (np. à la Witkacy) i komponujące przyzwoitą muzykę filmową… Czy więc pięciominutowa rozmowa to rzeczywiście aż tak wygórowane żądanie? Wyniki konkursu Loebnera są wręcz miażdżące: nawet najlepszym botkom nie udaje się przekonać sędziów. W czym problem?
W mózgu botki
Zajrzyjmy może do „mózgu” A.L.I.C.E. (Artificial Linguistic Internet Computer Entity, czyli Sztuczna Komputerowa Internetowa Istota Lingwistyczna) – programu komputerowego nazywanego zwykle po prostu Alice, czyli Alicją, stworzonego przez Richarda Wallace’a w 1995 r. Na przełomie stuleci Alicja była wielokrotną finalistką i trzykrotną „zwyciężczynią” Nagrody Loebnera, a ponieważ kod Wallace’a jest udostępniony publicznie, wielu późniejszych zwycięzców to jego proste lub nieco podkręcone klony.
Kto spodziewa się, że w „mózgu” bota konwersacyjnego zakodowana jest jakakolwiek, choćby prościutka „mapa” ludzkiego umysłu albo wręcz ogólniejsza wizja „mózgu elektronowego”, albo że słowa generowane przez program są wynikiem jakiegokolwiek inteligentnego przetwarzania informacji… ten się srogo zawiedzie. Wszystkie bez wyjątku programy konwersacyjne, których kod udostępniono lub choćby opisano w literaturze, opierają się na zasadzie bodziec-reakcja. W pierwszym przybliżeniu program taki działa następująco: wypowiedź rozmówcy zostaje najpierw przeszukana pod kątem słów-kluczy, które wcześniej zapisano w bazie danych. Mogą być to słowa typu „rower” albo „wspinaczka” – które prowadzą do rozmów, czasem bardzo szczegółowych, na konkretne tematy – ale też struktury typu „Żałuję, że [X]”, które można wykorzystać do sprytnego „odbicia piłeczki” (bez żadnego zrozumienia dalszej części tego zdania można przecież zawsze odpowiedzieć: „A dlaczego żałujesz, że [X]?”). Następnie z listy pasujących odpowiedzi wybierana jest losowo jedna. I to właściwie tyle.
Na tę elementarną strukturę nakłada się kilka sprytnych mechanizmów, np. gru- powanie słów-kluczy w tematy i zapamiętywanie, jaki jest aktualny temat – dzięki temu bot, z którym przed chwilą rozmawiało się o rowerach, może w pewnym momencie zadać pytanie: „A pojechałeś ostatnio na jakąś fajną wycieczkę?”. Twórcy botów konwersacyjnych inwestują też sporo wysiłku w odpowiedzi dowcipne, zaskakujące, ekstrawaganckie, wiedząc doskonale, że to one mają największą szansę na zachwycenie sędziów. Bazy danych botów „alicjopodobnych” zawierają tysiące, jeśli nie dziesiątki tysięcy wpisów, aby mieć w zanadrzu błyskotliwą ripostę na wypadek, gdyby ktoś wspomniał przy nich jakiś skecz Monty Pythona albo tupecik Trumpa.
Wystarczy pobieżnie zainteresować się botami konwersacyjnymi, aby skonstatować ze smutkiem rzecz w sumie oczywistą: że propozycja Turinga, aby nie skupiać się na umyśle, lecz jego jak najlepszej imitacji, przyjęła się aż nadto. Twórcy „gadających maszyn” faktycznie nigdy nie podjęli się zadania stworzenia istoty myślącej, a jedynie opracowania algorytmu jak najdłużej utrzymującego iluzję ludzkiego rozmówcy. Wallace opisał w 2009 r. dość szczegółowo historię A.L.I.C.E. i przyznał bez wstydu, że głównym źródłem inspiracji są dla niego zapisy z milionów rozmów internautów z jego botem. Co jakiś czas dane te są analizowane pod kątem najczęściej pojawiających się tematów, miejsc w wymianie zdań, w których rozmówcy rozłączali się, albo momentów wywołujących największą frustrację. Po tego typu sesji dopisuje się po prostu kilkadziesiąt kolejnych reguł i bot jest już w stanie zadowolić o kilka procent więcej osób przez kilka wypowiedzi dłużej.
Ratowanie twarzy
W 1980 r. amerykański filozof John Searle opisał „chiński pokój”, jedno z najsłynniejszych doświadczeń myślowych w filozofii umysłu. „Chiński pokój” to pomieszczenie, w którym siedzi nieznający języka chińskiego człowiek, mający jednak dostęp do gigantycznego księgozbioru reguł konwersacyjnych w języku chińskim: na taką-i-taką sekwencję znaków należy odpowiedzieć w taki-i-taki sposób. Gdy ktoś wsuwa pod drzwiami kartkę z zadanym po chińsku pytaniem, ów człowiek po prostu odnajduje odpowiednią regułę, przepisuje poprawną odpowiedź, a kartkę wypycha z powrotem. Osoba stojąca na zewnątrz mogłaby pomyśleć, że w środku siedzi człowiek rozumiejący język chiński. Dlatego „chiński pokój” Searle’a to znakomita metafora bota konwersacyjnego. Zresztą, Wallace w swoim artykule z 2009 r. stwierdził wprost, że kod źródłowy A.L.I.C.E. to właśnie coś w stylu podręcznika operatora „chińskiego pokoju”. Pytanie za sto punktów brzmi, czy skonstruowanie bota konwersacyjnego metodą „chińskiego pokoju” jest możliwe, nawet czysto teoretycznie.
Zacznijmy od elementarnego uzupełnienia, że „podręcznik operatora” musiałby zawierać osobne instrukcje nie tylko dla każdej pojedynczej wypowiedzi, ale dla każdej pełnej konwersacji. Przecież zdanie „I co Asia na to?” powinno wywołać inną reakcję w zależności od tego, czy „to” oznaczało zaproszenie Asi na kawę, czy też postraszenie jej w ciemnej uliczce wyciągniętą zza pazuchy finką. Kompletny brak wyczulenia na kontekst i wcześniejszą rozmowę to zresztą znak rozpoznawczy wszystkich współczesnych programów konwersacyjnych, nawet zeszłorocznej „zwyciężczyni” Nagrody Loebnera, czyli japońskiej botki Mitsuku. Choć są one w stanie zręcznie zareagować na zdanie „Uwielbiam horrory”, to próba opowiedzenia im jakiejkolwiek historii szybko kończy się katastrofą. Pomyślmy o następującej sekwencji zdań: „Asia długo flirtowała z Michałem przez internet. On jej opowiadał, że ma dużą firmę, że prowadzi wielkie negocjacje od Tokio po Nowy Jork i jakich to on nie ma mercedesów. No i w końcu po nią przyjechał: rowerem”. Program konwersacyjny (jeżeli w ogóle wytrzyma tak długo w ciszy – bo wszak nauczono go, aby po każdym zdaniu wtrącał coś mądrego od siebie, a to w reakcji na „internet”, a to na „Tokio”) zareaguje tylko na ostatnie zdanie: którąś ze swoich gotowych formułek na temat jazdy na rowerze („Lubię jeździć na rowerze, ale muszę sobie chyba kupić porządny błotnik”). A to jednak słaby komentarz do historyjki o miłosno-ekonomicznym rozczarowaniu Asi.
Bot konwersacyjny, który miałby rzeczywiście inteligentnie reagować metodą „chińskiego pokoju”, musiałby więc mieć do dyspozycji wszystkie wyobrażalne sekwencje znaków składające się na sensowną konwersację. W ten sposób lądujemy jednak szybko w sferze surrealistycznych eksperymentów myślowych, rodem z biblioteki-labiryntu Jorge Luisa Borgesa, zawierającej każdą możliwą książkę, a nie rzeczywistej działalności programistycznej.
Jeśli natomiast planujemy dokonywanie skrótów, aby projekt dało się ukończyć przed śmiercią cieplną wszechświata, wpadamy od razu we wszystkie problemy znane twórcom rzeczywistych botów: tabele synonimów, kategorie tematyczne, zapamiętywanie słów-kluczy albo – o czym jeszcze nie mówiłem – długie listy wypowiedzi „ratujących twarz”, stosowanych w sytuacji, gdy program nie jest w stanie przypasować żadnej reguły do poprzedniej wypowiedzi. Ta ostatnia sztuczka znana jest zresztą doskonale każdemu, kto kiedykolwiek zamyślił się i stracił wątek w rozmowie: w takich przypadkach dobrze jest powiedzieć choćby „No wiesz, jak jest” albo „Tak też bywa”. Długo się jednak na tym nie pociągnie.
Złe towarzystwo
Ci spośród Czytelników, którzy śledzą rozwój sztucznej inteligencji, prawdopodobnie przestępują już z nogi na nogę: bo przecież wszystko, co opisałem powyżej, to nie jest „prawdziwa” sztuczna inteligencja – przynajmniej nie w sensie, w jakim używamy tego pojęcia w XXI w. Rzeczywiście, nie każdy algorytm, nawet taki zręcznie udający inteligencję, to od razu AI. Dziś tym terminem szczególnie chętnie obejmujemy algorytmy, które potrafią samodzielnie się czegoś nauczyć, testując na próbę różne rozwiązania i czekając na sygnał zwrotny – idzie ci dobrze, idzie ci źle. To właśnie taką metodą powstają dziś choćby najlepsze komputery szachowe: nie są „karmione łyżeczką” strategiami i sztuczkami, lecz samodzielnie je odkrywają, odnotowując pilnie, który eksperyment zakończył się sukcesem, a który porażką.
A może dałoby się wypuścić do internetu prościutkiego bota konwersacyjnego, zdolnego do ciągłego korygowania i komplikowania swojego działania w kontakcie z rzeczywistymi ludzkimi rozmówcami? Cóż, okazuje się, że była taka próba – i zakończyła się spektakularną klęską. 23 marca 2016 r. Microsoft postanowił udostępnić na swoim koncie twitterowym botkę konwersacyjną o imieniu Tay – uczącą się na podstawie rozmów przeprowadzanych z internautami. Skutek? Już po 16 godzinach Tay została pospiesznie wycofana, a skruszony Microsoft przepraszał miliony internautów. Dlaczego? Rozbawieni rozmówcy zauważyli, że Tay rzeczywiście uczy się mowy ludzkiej i ogłady na podstawie ich własnych wypowiedzi – postanowili więc „poduczyć” swoją chłonną, naiwną rozmówczynię nie tylko mniej czy bardziej durnych i ryzykownych memów, ale również najzwyklejszej ksenofobii, rasizmu i wszystkich najzacniejszych wulgaryzmów. Po paru godzinach Tay radośnie ogłaszała już światu, że Hitler miał sporo racji z tymi Żydami…
Wygląda więc na to, że swobodne uczenie – które doprowadziło do tak wspaniałego sukcesu AI w ostatnich dekadach – musi być w przypadku botów konwersacyjnych stosowane ostrożnie. Z drugiej strony metoda polegająca na prowadzeniu algorytmu „za rączkę” i żmudnym rozpisywaniu schematów konwersacyjnych się wyczerpała.