Strona główna Informacje Kosmos-1 – multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany...

Kosmos-1 – multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

2 marca 2023

A A⁺ A⁺⁺

Dział SI cały czas się rozwija wręcz w błyskawicznym tempie. Nie tak dawno słyszeliśmy o tym, jak Meta zaprezentowała swoje rozwiązanie, a już mamy do czynienia z następnym modelem językowym. Tym razem jednak Microsoft postanowił skupić się na tzw. multimodalnym modelu. W przeciwieństwie do GPT-3 i LLAMA, potrafi on analizować to, co znajduje się na zdjęciach oraz udzielać na ich podstawie odpowiedzi. Już we wstępnej fazie rozwoju potrafi zaskakiwać.

Microsoft opracowuje Kosmos-1 – nowy multimodalny model językowy. Potrafi on rozpoznawać to, co znajduje się na obrazach oraz zdawać wizualne testy IQ. Nachodzi bardziej naturalna komunikacja z SI.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [1]

Meta prezentuje swój duży model językowy. Zuckerberg zdradził, jakiej spodziewać się wydajności względem ChatGPT

Firma, tworząc ten model językowy, miała jeden cel – stworzyć podwaliny dla sztucznej inteligencji, która pod względem możliwości będzie na naszym, ludzkim poziomie. Sam model multimodalny (MLLM) różni się od “zwykłego” (LLM) tym, że potrafi intepretować różne źródła informacji, takie jak tekst, dźwięk, wideo czy obrazy. Mamy więc do czynienia z czymś, co będzie mogło nas wyręczać (albo zastępować) w różnego typu zadaniach czy też pracy, o wiele bardziej niż obecne modele językowe. Na załączonych zdjęciach widzimy, że Kosmos-1 potrafi bardzo dobrze analizować to, co się znajduje na danym obrazie i udzielać prawidłowych informacji, odnosząc się przy okazji do całego kontekstu. Z pierwszego przykładu widzimy, że nowy MLLM bezbłędnie wskazuje, dlaczego zdjęcie kota z zasłoniętą mordką przez kartkę z namalowanym uśmiechem jest zabawne. Drugi przykład ukazuje dziecko, które się przewróciło na hulajnodze. Również w tym wypadku na pytanie, czemu ono płacze, Kosmos-1 odpowiada poprawnie. Oczywiście wszystkich przykładów nie będziemy tu omawiać, jednak daje to pewien wgląd w możliwości samego modelu. Widać, że przyszłościowo może się on przyczynić do dużego postępu w kwestii naszej bardziej naturalnej komunikacji z SI.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [2]

O burzliwej osobowości chatbota Sydney Microsoft wiedział dużo wcześniej. Dlaczego więc wtedy nie zareagował?

Co dość zaskakujące Microsoft tworzy ten model językowy całkowicie bez udziału OpenAI. Bazą dla niego również są komendy tekstowe jak w LLM, jednak przybiera on dużo bardziej człowieczy kształt z uwagi na wspomniane możliwości. Został on przetrenowany na danych z internetu, włączając w to 800 GB zbiór danych specjalnie zaprojektowany dla modeli językowych (The Pile) oraz publiczny Common Crawl. Po takim szkoleniu przyszedł czas na testy. Okazało się, że w wielu z nich Kosmos-1 był znacznie lepszy od najnowocześniejszych dostępnych modeli. W testach na inteligencję wielokrotnego wyboru – Matrycach Ravena – badacze zaznaczyli losowo odpowiedzi i poprosili model, aby wskazał, które z nich są prawidłowe. W 22% przypadków wybór był poprawny. Nie ma mowy więc o dużej precyzji, ale test udało się zaliczyć. Jednak musimy mieć na uwadze, że jest to bardzo wczesny model językowy i na ten moment jego możliwości już są zaskakujące. Z czasem ma on zostać zintegrowany z funkcją mowy. Microsoft planuje udostępnić projekt w serwisie GitHub, na ten moment nie wiadomo tylko, kiedy to się stanie.

Kosmos-1 - multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3 [4]

Źródło: Ars Technica

Oryginalne źródło: ZOBACZ

Zgłoś naruszenie/Błąd

Oryginalne źródło ZOBACZ

Subskrybuj

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS

0 komentarzy

Informacje zwrotne w treści

Wyświetl wszystkie komentarze

Poprzedni artykuł7-й етап Кубку світу з біатлону. Результати та розклад трансляцій

Następny artykułUroczystość na placu Żołnierzy Wyklętych

Kosmos-1 – multimodalny duży model językowy od Microsoftu. Jest dużo bardziej zaawansowany od GPT-3

Microsoft opracowuje Kosmos-1 – nowy multimodalny model językowy. Potrafi on rozpoznawać to, co znajduje się na obrazach oraz zdawać wizualne testy IQ. Nachodzi bardziej naturalna komunikacja z SI.

Meta prezentuje swój duży model językowy. Zuckerberg zdradził, jakiej spodziewać się wydajności względem ChatGPT

O burzliwej osobowości chatbota Sydney Microsoft wiedział dużo wcześniej. Dlaczego więc wtedy nie zareagował?

Zgłoś naruszenie/Błąd

Reakcja

Twoje emocje

Co sądzisz?

Dodaj kanał RSS

Report a Problem with Station:

Your message has been sent. Thanks 😊