Sztuczna Inteligencja uczy się pracy zespołowej.
Reinforcement Learning
Ze względu iż nie zajmuje się Sztuczną Intelignecją, termin
Reinforcemenet Learning jest dla mnie nowym odkryciem. RL jest obszarem
dziedziny nazywanej Uczeniem Maszynowym. Posiłkując się definicją zaczerpniętą
z Wikipedii brzmi ona tak:
..."Głównym celem
jest praktyczne zastosowanie dokonań w dziedzinie sztucznej inteligencji do
stworzenia automatycznego systemu potrafiącego doskonalić się przy pomocy
zgromadzonego doświadczenia (czyli danych) i nabywania na tej podstawie nowej
wiedzy..."
Powyższa definicja dotyczy terminu Uczenia Maszynowego,
natomiast przyjrzymy się dzisiaj zjawisku Reinforcement Learning , w którym
uczy się komputer wykonywać zadania np: prowadzenie pojazdu z niewielkim lub
zerowym nadzorem człowieka. Reinforcement Learning (czyli uczenie przez
wzmacnianie) wykorzystuje tzw. Agenta - jest to program komputerowy wykorzystywany w programowaniu agentowym.
Agent, jak dobrze rozumiem, jest tworem, który potrafi dostosować się do
środowiska w którym się znajduje. Co to znaczy? Agent SAM potrafi dostosować
się do zmian zachodzących w danym środowisku, autonomicznie dokonać komunikacji
z użytkownikiem czy to innymi Agentami, przez co np osiągać zamierzone cele,
ponieważ celem stworzenia Agenta jest zdolność do uczenia się.
źródło:sciencemag.org
Może ten obraz porównawczy, który teraz zastosuje nie będzie
zbyt trafiony, ale można sobie to wyobrazić tak. Człowiek stworzył istotę
(Agenta), która sama się uczy, analizuje i działa w świecie samodzielnie. Nie
potrzebuje naszej kontroli. Tak można
wyczuć termin Agenta.
W jaki sposób Agent się uczy? Tak jak w naszej psychologii
człowieka, czyli poprzez zjawisko Wzmocnienia. Upraszczając, efekt wzmocnienia
(głównie pozytywnego) jest to powstanie i podtrzymanie wyuczonej reakcji w
odpowiedzi na bodźce warunkowe. Agent dostaje
dane(bodźce) z otoczenia. Jeżeli Agent dopuści się błędnej decyzji, otrzyma
KARĘ (czyli niski sygnał wzmocnienia), jeżeli podejmie dobrą decyzję to otrzyma
NAGRODĘ (pozytywny sygnał wzmocnienia)
Skoro już wiemy Czym jest Reinforcememnt Learning to
przejdźmy do badania.
Od paru lat, próbuje się stworzyć Agentów w grach
komputerowych, niestety bez większych sukcesów. Wynika to głównie ze
skomplikowanego mechanizmu uczenia się, gdyż nauka nie potrafi w pełni opisywać
zjawisk jakie zachodzą w naszym mózgu podczas procesu zdobywania wiedzy i
umiejętności. Dlatego badacze podjęli wyzwanie i postanowili ulepszyć Sztuczną
inteligencję aby opanowała grę zespołową koordynując zarówno swoje działania
jak i kooperację z ludźmi. Do badania wykorzystano modyfikację gry Quake III
Arena w rozgrywce Capture the Flag.
Jak to ujął Michael Littman "Skala tego eksperymentu
jest niezwykła"
Badacze w grze skonstruowali
dwie drużyny, które poruszają się po mapie 3D, aby zdobyć flagę z bazy przeciwnika i zwrócić ją do
swojej. Wtedy drużyna zdobywała punkt. Oczywiście wygrywa drużyna z największą
liczbą punktów po 5 minutach. Jak to w
Quake bywa, obie drużyny eliminowały przeciwników poprzez strzelanie z broni
laserowej.
Aby wyszkolić sztuczną inteligencję do pracy w zespole, naukowcy stworzyli 30 różnych botów, które walczyły ze sobą w serii meczów na losowo generowanych mapach. Boty trenowały za pomocą algorytmów inspirowanych procesami zachodzącymi w mózgu, zwanych sieciami neuronowymi, które zdobywają wiedzę na podstawie danych, zmieniając siłę połączeń między sztucznymi neuronami. Jedyne dane, na których boty się uczyły to wizualna perspektywa ich postaci z perspektywy pierwszej osoby, podnoszenie flag czy oznaczanie przeciwników.
Początkowo boty działały losowo. Ale kiedy ich działania zaczęły zdobywać punkty dla drużyny, połączenia, które doprowadziły do takiego zachowania, zostały wzmocnione poprzez proces wcześniej opisany czyli Reinforcememnt Learning. Program szkoleniowy również wyeliminował boty, które uzyskiwały najsłabsze wyniki i zastępował je zmodyfikowanymi kopiami najlepszych graczy.
Po rozegraniu 450 000 meczy, naukowcy dotarli do najlepszego bota, który nazwali For The Win (FTW). Następnie przetestowali go w różnych meczach z kopią(lustrzanym odbiciem) FTW, botem FTW, który nie miał istotnego elementu uczenia się, innymi botami w grze i ludźmi. Co fascynujące, zespoły botów FTW konsekwentnie wyprzedzały w osiągnięciach wszystkie inne grupy, jednakże ludzie sparowani z botami FTW byli w stanie uzyskać 5% lepszy wynik w czasie pokonywania przeciwników, podaje Science.
Boty FTW nauczyły się płynnie współpracować z ludźmi i maszynami, a nawet opracowały klasyczne strategie współpracy, mówi współprzewodniczący badania Max Jaderberg, badacz sztucznej inteligencji w należącym do Google DeepMind w Londynie. Strategie te obejmowały śledzenie kolegów z drużyny, odbijania flagi, strategicznego rozmieszczania podczas odbijania flagi itp. W jednym teście boty wymyśliły zupełnie nową strategię, wykorzystując błąd, który pozwalał kolegom z drużyny zwiększać prędkość, strzelając im w plecy.
„To, co było niesamowite podczas opracowywania tego projektu, to pojawienie się niektórych z tych zachowań na wysokim poziomie” mówi Jaderberg. „To są rzeczy, które możemy odnieść do ludzi”.
Jednak naukowcy są ostrożni. Daleko jeszcze do zaimplementowania tej technologii w świecie rzeczywistym- dodaje Jaderberg. Ale prognozy są dobre, zwłaszcza dla gier komputerowych. Jeśli sztuczna inteligencja może nauczyć się pracować w zespołach, może stworzyć wszystko, począwszy od samochodów , które unikają wypadków, poprzez koordynację między sobą zautomatyzowanych asystentów chirurgicznych, którzy pomagają lekarzom podczas procedur.
Nie wiemy jednak, czy osiągnięty sukces został odniesiony dlatego, że naukowcy pracowali na bardzo wąskim wycinku rzeczywistości wirtualnej. Odniesienie do szerszego spektrum , nawet wirtualnego nie daje gwarancji, że Sztuczna inteligencja poradzi sobie z napływem danych.
Komentarze
Prześlij komentarz