Dział SI cały czas się rozwija wręcz w błyskawicznym tempie. Nie tak dawno słyszeliśmy o tym, jak Meta zaprezentowała swoje rozwiązanie, a już mamy do czynienia z następnym modelem językowym. Tym razem jednak Microsoft postanowił skupić się na tzw. multimodalnym modelu. W przeciwieństwie do GPT-3 i LLAMA, potrafi on analizować to, co znajduje się na zdjęciach oraz udzielać na ich podstawie odpowiedzi. Już we wstępnej fazie rozwoju potrafi zaskakiwać.
Microsoft opracowuje Kosmos-1 – nowy multimodalny model językowy. Potrafi on rozpoznawać to, co znajduje się na obrazach oraz zdawać wizualne testy IQ. Nachodzi bardziej naturalna komunikacja z SI.
Meta prezentuje swój duży model językowy. Zuckerberg zdradził, jakiej spodziewać się wydajności względem ChatGPT
Firma, tworząc ten model językowy, miała jeden cel – stworzyć podwaliny dla sztucznej inteligencji, która pod względem możliwości będzie na naszym, ludzkim poziomie. Sam model multimodalny (MLLM) różni się od “zwykłego” (LLM) tym, że potrafi intepretować różne źródła informacji, takie jak tekst, dźwięk, wideo czy obrazy. Mamy więc do czynienia z czymś, co będzie mogło nas wyręczać (albo zastępować) w różnego typu zadaniach czy też pracy, o wiele bardziej niż obecne modele językowe. Na załączonych zdjęciach widzimy, że Kosmos-1 potrafi bardzo dobrze analizować to, co się znajduje na danym obrazie i udzielać prawidłowych informacji, odnosząc się przy okazji do całego kontekstu. Z pierwszego przykładu widzimy, że nowy MLLM bezbłędnie wskazuje, dlaczego zdjęcie kota z zasłoniętą mordką przez kartkę z namalowanym uśmiechem jest zabawne. Drugi przykład ukazuje dziecko, które się przewróciło na hulajnodze. Również w tym wypadku na pytanie, czemu ono płacze, Kosmos-1 odpowiada poprawnie. Oczywiście wszystkich przykładów nie będziemy tu omawiać, jednak daje to pewien wgląd w możliwości samego modelu. Widać, że przyszłościowo może się on przyczynić do dużego postępu w kwestii naszej bardziej naturalnej komunikacji z SI.
O burzliwej osobowości chatbota Sydney Microsoft wiedział dużo wcześniej. Dlaczego więc wtedy nie zareagował?
Co dość zaskakujące Microsoft tworzy ten model językowy całkowicie bez udziału OpenAI. Bazą dla niego również są komendy tekstowe jak w LLM, jednak przybiera on dużo bardziej człowieczy kształt z uwagi na wspomniane możliwości. Został on przetrenowany na danych z internetu, włączając w to 800 GB zbiór danych specjalnie zaprojektowany dla modeli językowych (The Pile) oraz publiczny Common Crawl. Po takim szkoleniu przyszedł czas na testy. Okazało się, że w wielu z nich Kosmos-1 był znacznie lepszy od najnowocześniejszych dostępnych modeli. W testach na inteligencję wielokrotnego wyboru – Matrycach Ravena – badacze zaznaczyli losowo odpowiedzi i poprosili model, aby wskazał, które z nich są prawidłowe. W 22% przypadków wybór był poprawny. Nie ma mowy więc o dużej precyzji, ale test udało się zaliczyć. Jednak musimy mieć na uwadze, że jest to bardzo wczesny model językowy i na ten moment jego możliwości już są zaskakujące. Z czasem ma on zostać zintegrowany z funkcją mowy. Microsoft planuje udostępnić projekt w serwisie GitHub, na ten moment nie wiadomo tylko, kiedy to się stanie.
Źródło: Ars Technica
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS