Microsoft pracuje nad nowym modelem LLM z najwyższej półki, któremu nadał kodową nazwę MAI-4. Gigant z Redmond ma nadzieję iż stawi on z powodzeniem czoła wiodącym obecnie modelom tego typu, takim jak Gemini czy GPT-4.
Na czele zespołu projektującego model MAI-4 stoi Mustafa Suleyman, który niedawno pełnił funkcję dyrektora generalnego start-upu AI Inflection, zanim Microsoft przejął tę firmę za 650 milionów dolarów. Model MAI-1 został przeszkolony z użyciem 500 miliardów parametrów. Dorównuje więc prawie modelowi GPT-4 (ponad 1 bln parametrów) i bije większość modeli, takich jak np. Mistral (70 miliardów parametrów).
Microsoft wykorzystał ogromną ilość zasobów obliczeniowych na szkolenie tego modelu, wykorzystując dane pozyskane z internetu oraz dane wygenerowane przez model GPT-4. A trzeba wiedzieć iż szkolenie modeli językowych to bardzo kosztowny proces. Szacuje się np. że wytrenowanie modelu GPT-4 kosztowało firmę ponad 100 milionów dolarów.
Zobacz również:
Rozwój MAI-1 świadczy o tym, że Microsoft zamierza skupić swoją uwagę zarówno na małych, uruchamianych lokalnie modelach językowych (np. obsługiwanych przez urządzenia mobilne), jak i na większych, najnowocześniejszych modelach instalowanych w chmurach. Co ciekawe, Apple zamierza przyjąć podobną strategię i opracował już osiem małych modeli językowych AI przeznaczonych do użytku na różnych urządzeniach.
Model Microsoftu był szkolony z wykorzystaniem dużego klastra serwerów wyposażonych w procesory graficzne Nvidii. Mówi się iż Microsoft może zaprezentować wersję zapoznawczą modelu MAI-1 już podczas konferencji programistów Build, która odbędzie się pod koniec tego miesiąca.
Na koniec warto przypomnieć, że w zeszłym miesiącu Mirosoft wprowadził na rynek nową rodzinę małych modeli językowych linii Phi, w ramach planu udostępnienia lekkiej, ale wysokowydajnej technologii generatywnej sztucznej inteligencji dla większej liczby platform , w tym dla urządzeń mobilnych.
Rodzina Phi-3 składa się z trzech modeli — Phi-3 Mini z 3,8 miliardami parametrów, Phi-3 Small z 7-ma miliardami parametrów i Phi-3 Medium z 14 miliardami parametrów. Konkurencja też nie próżnuje. Podczas gdy Snowflake pokazał Arctic LLM, firma Databricks wprowadziła na rynek model DBRX. Z kolei Meta wypuściła swój model Llama 3. Zaledwie kilka dni później firma Cohere wypuściła na rynek całą linię modeli językowych należących do rodziny Command.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS