Sztuczna Inteligencja uczy się pracy zespołowej.

Reinforcement Learning
Ze względu iż nie zajmuje się Sztuczną Intelignecją, termin Reinforcemenet Learning jest dla mnie nowym odkryciem. RL jest obszarem dziedziny nazywanej Uczeniem Maszynowym. Posiłkując się definicją zaczerpniętą z Wikipedii brzmi ona tak:

..."Głównym celem jest praktyczne zastosowanie dokonań w dziedzinie sztucznej inteligencji do stworzenia automatycznego systemu potrafiącego doskonalić się przy pomocy zgromadzonego doświadczenia (czyli danych) i nabywania na tej podstawie nowej wiedzy..."

Powyższa definicja dotyczy terminu Uczenia Maszynowego, natomiast przyjrzymy się dzisiaj zjawisku Reinforcement Learning , w którym uczy się komputer wykonywać zadania np: prowadzenie pojazdu z niewielkim lub zerowym nadzorem człowieka. Reinforcement Learning (czyli uczenie przez wzmacnianie) wykorzystuje tzw. Agenta - jest to program komputerowy  wykorzystywany w programowaniu agentowym. Agent, jak dobrze rozumiem, jest tworem, który potrafi dostosować się do środowiska w którym się znajduje. Co to znaczy? Agent SAM potrafi dostosować się do zmian zachodzących w danym środowisku, autonomicznie dokonać komunikacji z użytkownikiem czy to innymi Agentami, przez co np osiągać zamierzone cele, ponieważ celem stworzenia Agenta jest zdolność do uczenia się.
AI, Science - Uczenie maszynowe
 źródło:sciencemag.org

Może ten obraz porównawczy, który teraz zastosuje nie będzie zbyt trafiony, ale można sobie to wyobrazić tak. Człowiek stworzył istotę (Agenta), która sama się uczy, analizuje i działa w świecie samodzielnie. Nie potrzebuje naszej kontroli. Tak można  wyczuć termin Agenta.
W jaki sposób Agent się uczy? Tak jak w naszej psychologii człowieka, czyli poprzez zjawisko Wzmocnienia. Upraszczając, efekt wzmocnienia (głównie pozytywnego) jest to powstanie i podtrzymanie wyuczonej reakcji w odpowiedzi na bodźce warunkowe.  Agent dostaje dane(bodźce) z otoczenia. Jeżeli Agent dopuści się błędnej decyzji, otrzyma KARĘ (czyli niski sygnał wzmocnienia), jeżeli podejmie dobrą decyzję to otrzyma NAGRODĘ (pozytywny sygnał wzmocnienia)

Skoro już wiemy Czym jest Reinforcememnt Learning to przejdźmy do badania.
Od paru lat, próbuje się stworzyć Agentów w grach komputerowych, niestety bez większych sukcesów. Wynika to głównie ze skomplikowanego mechanizmu uczenia się, gdyż nauka nie potrafi w pełni opisywać zjawisk jakie zachodzą w naszym mózgu podczas procesu zdobywania wiedzy i umiejętności. Dlatego badacze podjęli wyzwanie i postanowili ulepszyć Sztuczną inteligencję aby opanowała grę zespołową koordynując zarówno swoje działania jak i kooperację z ludźmi. Do badania wykorzystano modyfikację gry Quake III Arena w rozgrywce Capture the Flag.

Jak to ujął  Michael Littman "Skala tego eksperymentu jest niezwykła"

Badacze w grze skonstruowali dwie drużyny, które poruszają się po mapie 3D, aby zdobyć  flagę z bazy przeciwnika i zwrócić ją do swojej. Wtedy drużyna zdobywała punkt. Oczywiście wygrywa drużyna z największą liczbą punktów  po 5 minutach. Jak to w Quake bywa, obie drużyny eliminowały przeciwników poprzez strzelanie z broni laserowej.

Aby wyszkolić sztuczną inteligencję do pracy w zespole, naukowcy stworzyli 30 różnych botów, które walczyły  ze sobą w serii meczów na losowo generowanych mapach. Boty trenowały za pomocą algorytmów inspirowanych procesami zachodzącymi w mózgu, zwanych sieciami neuronowymi, które zdobywają wiedzę na podstawie danych, zmieniając siłę połączeń między sztucznymi neuronami. Jedyne dane, na których boty się uczyły to wizualna perspektywa ich postaci  z perspektywy pierwszej osoby,  podnoszenie flag czy oznaczanie przeciwników.

Początkowo boty działały losowo. Ale kiedy ich działania zaczęły zdobywać punkty dla drużyny, połączenia, które doprowadziły do ​​takiego zachowania, zostały wzmocnione poprzez proces wcześniej opisany czyli Reinforcememnt Learning. Program szkoleniowy również wyeliminował boty, które uzyskiwały najsłabsze wyniki i zastępował je zmodyfikowanymi kopiami najlepszych graczy.

Po rozegraniu 450 000 meczy, naukowcy dotarli do najlepszego bota, który nazwali For The Win (FTW). Następnie przetestowali go w różnych meczach z kopią(lustrzanym odbiciem) FTW, botem FTW, który nie miał   istotnego elementu uczenia się, innymi  botami w grze i ludźmi. Co fascynujące, zespoły botów FTW konsekwentnie wyprzedzały w osiągnięciach wszystkie inne grupy, jednakże ludzie sparowani z botami FTW byli w stanie uzyskać 5% lepszy wynik w czasie pokonywania przeciwników, podaje Science.

Boty FTW nauczyły się płynnie współpracować z ludźmi i maszynami, a nawet opracowały klasyczne strategie współpracy, mówi współprzewodniczący badania Max Jaderberg, badacz sztucznej inteligencji w należącym do Google DeepMind w Londynie. Strategie te obejmowały śledzenie kolegów z drużyny, odbijania flagi, strategicznego rozmieszczania podczas odbijania flagi itp. W jednym teście boty wymyśliły zupełnie nową strategię, wykorzystując błąd, który pozwalał kolegom z drużyny zwiększać prędkość, strzelając im w plecy.

„To, co było niesamowite podczas opracowywania tego projektu, to pojawienie się niektórych z tych zachowań na wysokim poziomie” mówi Jaderberg. „To są rzeczy, które możemy odnieść do ludzi”.

Jednak naukowcy są ostrożni. Daleko jeszcze do zaimplementowania tej technologii w świecie rzeczywistym- dodaje Jaderberg. Ale prognozy są dobre, zwłaszcza dla gier komputerowych. Jeśli sztuczna inteligencja może nauczyć się pracować w zespołach, może stworzyć wszystko, począwszy od samochodów , które unikają wypadków, poprzez koordynację między sobą zautomatyzowanych asystentów chirurgicznych, którzy pomagają lekarzom podczas procedur.

Nie wiemy jednak, czy osiągnięty sukces został odniesiony dlatego, że naukowcy pracowali na bardzo wąskim wycinku rzeczywistości wirtualnej. Odniesienie do szerszego spektrum , nawet wirtualnego nie daje gwarancji, że Sztuczna inteligencja poradzi sobie z napływem danych.

Komentarze

Popularne posty z tego bloga

Minecraft- doświadczaj gry a polepszysz swój hipokamp.

Czy pozwolić dziecku grać w gry z użyciem broni palnej?

League of Legends - jak pasja przekłada się na wyniki w grze.