Root NationZprávyIT novinyMicrosoft představil multimodální přístup dláždící cestu k umělé inteligenci na lidské úrovni

Microsoft představil multimodální přístup dláždící cestu k umělé inteligenci na lidské úrovni

-

Začátkem tohoto týdne vědci z Microsoft představil Kosmos-1, multimodální model umělé inteligence, který dokáže analyzovat obsah obrázků, řešit vizuální hádanky, provádět vizuální rozpoznávání textu, provádět vizuální IQ testy a porozumět pokynům v přirozeném jazyce. Podle výzkumníků jsou takové modely umělé inteligence prvním krokem k vytvoření umělé obecné inteligence (AI), která dokáže plnit společné úkoly na lidské úrovni. To znamená, že tato technologie bude schopna nahradit osobu v jakémkoli intelektuálním úkolu. A to je stanovený cíl OpenAI, klíčového obchodního partnera Microsoft v oblasti umělé inteligence.

Kosmos-1

Kosmos-1 je v tomto případě čistě osobním rozvojem společnosti Microsoft. Vědci jejich vytvoření nazývají „multimodálním širokým jazykovým modelem“ (MLLM), protože jeho kořeny spočívají ve zpracování pouze textu v přirozeném jazyce, jako je LLM, jako je ChatGPT. Aby model akceptoval vstupní obrázky, výzkumníci musí obrázky nejprve převést na speciální sérii tokenů (hlavně textu), kterým LLM rozumí.

Kosmos-1

Kosmos-1 byl trénován na databázi z internetu, včetně výňatků z The Pile (800 GB anglický textový zdroj) a Common Crawl. Model byl poté testován několika testy na porozumění řeči, generování řeči, klasifikaci textu bez optického rozpoznávání znaků, popisování obrázků, vizuální odpovídání na otázky, odpovídání na otázky na webové stránce a klasifikaci obrázků s lokalizací. Podle MicrosoftKosmos-1 překonal současné modely v mnoha z těchto testů.

Kosmos-1

Obzvláště zajímavý byl test Raven's Progressive Reasoning, který měří vizuální IQ tím, že předloží sekvenci tvarů a požádá subjekt, aby sekvenci dokončil. Kosmos-1 dokázal dát správnou odpověď ve 22 % případů.

Kosmos-1

Tyto rané kroky, které by s budoucí optimalizací mohly přinést ještě významnější výsledky, umožnit modelům umělé inteligence vnímat a ovlivňovat jakoukoli formu médií, což značně rozšíří možnosti umělých asistentů.

Přečtěte si také:

Dzhereloarsetechnica
Přihlásit se
Upozornit na
host

0 Komentáře
Vložené recenze
Zobrazit všechny komentáře