Root NationZprávyIT novinyMeta ImageBind AI dokáže napodobit lidské vnímání

Meta ImageBind AI dokáže napodobit lidské vnímání

-

Meta publikuje kód v otevřené umělé inteligenci pod jménem imagebind, která předpovídá vztahy mezi daty podobné tomu, jak lidé vnímají nebo si představují své prostředí. Zatímco generátory obrázků jako Midjourney, Stable Diffusion a DALL-E 2 vážou slova k obrázkům, což vám umožňuje vytvářet vizuální scény založené pouze na textovém popisu, ImageBind jde dále. Dokáže propojit text, obrázky nebo video, zvuk, 3D měření, údaje o teplotě a údaje o pohybu – a to bez nutnosti předtréninku při každé příležitosti. Toto je raná fáze rámce, který bude nakonec schopen generovat složitá prostředí z jednoduchých vstupů, jako je textová výzva, obrázek nebo zvuk (nebo jejich kombinace).

Projekt Metaverse

ImageBind si můžete představit jako přiblížení strojového učení lidskému učení. Pokud například stojíte v dynamickém prostředí, jako je rušná městská ulice, váš mozek (většinou nevědomě) absorbuje pohledy, zvuky a další smyslové vjemy, aby získal informace o projíždějících autech, vysokých budovách, počasí a další. . Lidé a další zvířata se vyvinuli, aby zpracovávali tato data pro naše genetické výhody: přežití a předávání naší DNA. (Čím více víte o svém okolí, tím více se můžete vyhnout nebezpečí a přizpůsobit se svému prostředí, abyste lépe přežili a prosperovali). Jak se počítače přibližují k napodobování multismyslových spojení zvířat, mohou tato spojení používat k vytváření plně realizovaných scén založených pouze na omezených kusech dat.

Takže zatímco můžete použít Midjourney k vytvoření „basseta v kostýmu Gandalfa balancujícího na plážovém míči“ a získat relativně realistickou fotografii této podivné scény, multimodální nástroj AI, jako je ImageBind, může skončit vytvořením videa se psem s relevantními zvuky, včetně detailního obývacího pokoje, pokojové teploty a přesné polohy psa a všech ostatních na scéně. "To vytváří vynikající příležitost k vytváření animací ze statických obrázků jejich kombinací se zvukovými výzvami," poznamenávají výzkumníci Meta na svém blogu zaměřeném na vývojáře. "Tvůrce může například zkombinovat obrázek s budíkem a kokrhajícím kohoutem a použít zvukovou nápovědu k segmentování kohouta nebo zvuk budíku k segmentování hodin a animovat obojí ve video sekvenci."

 

meta

Pokud jde o to, co dalšího lze s touto novou hračkou dělat, jasně ukazuje na jednu z hlavních ambicí společnosti Meta: VR, smíšenou realitu a metaprostor. Představte si například budoucí náhlavní soupravu, která dokáže za chodu vytvářet plně realizované 3D scény (se zvukem, pohybem atd.). Nebo by jej nakonec mohli využít vývojáři virtuálních her, aby si ušetřili významnou část usilovné práce v procesu navrhování. Podobně by tvůrci obsahu mohli vytvářet pohlcující videa s realistickými zvukovými stopami a pohybem založeným pouze na textu, obrázcích nebo zvuku. Je také snadné si představit, jak nástroj jako ImageBind otevírá nové dveře v přístupnosti generováním multimediálních popisů v reálném čase, které pomáhají lidem se zrakovým nebo sluchovým postižením lépe porozumět jejich prostředí.

Zajímavé také: Nejlepší nástroje založené na umělé inteligenci

„V typických systémech umělé inteligence existuje specifické vložení (tj. vektory čísel, které mohou reprezentovat data a jejich vztahy ve strojovém učení) pro každou relevantní modalitu,“ říká Meta. „ImageBind ukazuje, že je možné vytvořit společný prostor pro vkládání pro více modalit, aniž byste museli trénovat data s každou jednotlivou kombinací modalit. To je důležité, protože výzkumníci nemohou vytvářet datové sady se vzorky, které obsahují například zvuková data a tepelná data z rušné městské ulice nebo hloubková data a textový popis přímořského útesu.“

Meta věří, že tato technologie nakonec přesáhne současných šest „smyslů“, abych tak řekl. "Ačkoli jsme v naší současné studii zkoumali šest modalit, věříme, že zavedení nových modalit, které spojují co nejvíce smyslů - jako je dotyk, řeč, čich a mozkové signály fMRI - umožní bohatší modely umělé inteligence zaměřené na člověka." Vývojáři, kteří mají zájem prozkoumat tento nový sandbox, mohou začít tím, že se ponoří do otevřeného zdrojového kódu Meta.

Přečtěte si také:

DzhereloEngadget
Přihlásit se
Upozornit na
host

0 Komentáře
Vložené recenze
Zobrazit všechny komentáře
Další články
Přihlaste se k odběru aktualizací
Nyní populární