Problem z dużymi modelami językowymi (LLM) polega na tym, że ich okna kontekstowe mają ograniczoną pojemność. Google twierdzi iż rozwiązało to ograniczenie, opracowując technikę noszącą nazwę Infini-attention.
Nowa technika wykorzystuje tyle samo zasobów systemu obliczeniowego (chodzi o wielkość pamięci oraz moc obliczeniową), jakie angażują standardowe modele językowe. Obecnie okna kontekstowe wspierane przez wszystkie popularne modele sztucznej inteligencji mają ograniczoną pojemność. I tak okno kontekstowe aplikacji GPT-4 może zawierać maksymalnie 128 tys. tokenów, czyli znaków alfanumerycznych zawartych w zapytaniu.
A trzeba wiedzieć, że w przypadku modeli LLM wielkość okna kontekstowego ma bardzo duże znaczenie. Dlatego twórcom takich modeli zależy na tym, aby obsługujące je okna kontekstowe miały jak największą pojemność. A nie jest to łatwe, ponieważ dwukrotne zwiększenie pojemności okna kontekstowego skutkuje tym, że musi ono mieć do dyspozycji cztery razy więcej pamięci.
Zobacz również:
Twórcom nowej techniki udało się rozwiązać ten problem przenosząc dane z aktywnej pamięci do tak zwanej „pamięci kompresyjnej”. Model jest wtedy w stanie sparować pamięć kompresyjną ze wszystkimi danymi wejściowymi znajdującymi się w pamięci aktywnej, generując w ten sposób finalną odpowiedź.
Technika taka ma tę zaletę, że aplikacja akceptuje okno kontekstowe o dowolnej długości, redagując najpierw pierwszą wersję odpowiedzi, aby następnie dzięki technice Infini-attention realizować kolejne podejścia, doprecyzowując za każdym razem coraz bardziej wiarygodną i satysfakcjonującą użytkownika odpowiedź.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS