Google právě vydal svůj nejvýkonnější model umělé inteligence, jaký kdy byl nazván Blíženci. Jaká je a co umí? O všem v našem článku.
Google již roky vyvíjí vlastní nástroje AI. S veřejným vydáním ChatGPT-3 od OpenAI vytvořila společnost, která provozuje nejpopulárnější vyhledávač na světě, podobný nástroj, Bard. Tento nástroj ale stále prohrával s konkurenty, na což Google nedal dopustit. Proto není divu, že se svět nedávno dočkal Gemini, nového jazykového modelu od Googlu, o kterém jsme se dozvěděli během prezentace.
Je navržen tak, aby nejen vylepšil předchozí LLM (Large Language Model) giganta, ale také nabídl zcela nové možnosti v oblasti zpracování textu, grafiky a zvuku.
Pojďme se tedy blíže podívat na nový jazykový model Google Gemini.
Zajímavé také: OpenAI Project Q*: co to je a proč je projekt znepokojivý
Jedná se o nový a výkonný model umělé inteligence od Googlu, který si dokáže porozumět nejen s textem, ale i s obrázky, videem a zvukem. Tento multimodální model je popsán jako schopný provádět složité úkoly v matematice, fyzice a dalších oblastech a také porozumět a generovat vysoce kvalitní kód v různých programovacích jazycích.
Gemini je aktuálně k dispozici prostřednictvím integrace s Google Bard a Google Pixel 8 a postupně bude začleněna do dalších služeb Google.
„Gemini je výsledkem masivního společného úsilí napříč týmy Google, včetně našich kolegů z Google Research,“ — řekl Dennis Hassabis, CEO a spoluzakladatel Google DeepMind. "Byl od základu postaven jako multimodální, což znamená, že dokáže zobecnit a bezproblémově porozumět, provozovat a kombinovat různé typy informací, včetně textu, kódu, zvuku, obrázků a videa."
Zajímavé také: Ne vše, co nazýváme AI, je ve skutečnosti umělá inteligence. Zde je to, co potřebujete vědět
Jak jste již pravděpodobně uhodli, Gemini byl vytvořen společností Google a Alphabet, mateřskou společností Google, a je to dosud nejpokročilejší model AI společnosti. K jeho rozvoji významně přispěla i divize DeepMind společnosti Google. Zatím není známo, kolik zaměstnanců se na vývoji podílelo a jaké finanční prostředky na to byly vyčleněny, ale s vědomím schopností Google si můžeme být jisti, že jde o velmi vysokou částku.
Zajímavé také: Windows 12: Jaký bude nový OS
Jak jsem poznamenal výše, je to multimodální model, což znamená, že dokáže porozumět různým typům dat, pracovat s nimi a kombinovat je, včetně textu, kódu, zvuku, obrázků a videa. Poskytuje lepší porozumění, myšlení a kódování ve srovnání s předchozími systémy umělé inteligence.
Hlavní schopnosti modelu jsou:
Jak vidíte, schopnosti jsou lepší než u jiných modelů.
V testech porozumění jazyku, matematickému myšlení a kódování Gemini Ultra předčily modely, jako je GPT-4. Jde zejména o první model, který překonává výkon na lidské úrovni v testu MMLU (Massive Multitask Language Understanding) a dosahuje přesnosti přes 90 %.
Ve 32 akademických testech rozsáhlé studie jazykového modelu Gemini překonali GPT-4. Ve 30 případech byl nový jazykový model od Googlu lepší než konkurenční. To demonstruje schopnost modelu plně porozumět jazyku.
Přečtěte si také: Human Brain Project: Pokus o napodobení lidského mozku
Google popisuje tuto AI jako flexibilní model, který může fungovat na jakémkoli zařízení: od datových center Google po mobilní zařízení. Pro dosažení této škálovatelnosti přichází Gemini ve třech verzích: Nano, Pro a Ultra.
Promluvme si o různých verzích Gemini podrobněji.
Zajímavé také: Google Bard AI: Vše, co potřebujete vědět
AI ve verzích Nano a Pro je nyní k dispozici v produktech Google, jako jsou smartphony Google Pixel 8 a chatbot Bard. Google ho plánuje časem integrovat do svého vyhledávače, reklamy, e-mailové služby Gmail, prohlížeče Chrome a dalších služeb.
Vývojáři a podnikoví zákazníci budou mít od 13. prosince 2023 přístup k Pro prostřednictvím Gemini API v Google AI Studio a Google Cloud Vertex AI. Vývojáři Android bude mít přístup k modelu verze Nano přes AICore, který bude k dispozici v brzkém náhledu.
Přečtěte si také: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Bitva dvou Yokozunů
Podle informací poskytnutých během prezentace model umožní společnosti Google Bard lépe zvládnout složitější problémy, jak bylo uvedeno:
„Navrhli jsme Gemini tak, aby byl model přirozeně multimodální a od začátku předtrénovaný na více modalit. Poté jsme jej vylepšili přidáním více multimodálních dat, abychom zlepšili výkon. Díky tomu Gemini snadno rozumí a vyvozuje mnohem lépe než předchozí multimodální modely a může se pochlubit nejmodernějšími schopnostmi téměř ve všech oblastech.
Mimořádné multimodální schopnosti Gemini vám pomohou porozumět složitým textovým a vizuálním informacím. Jsou zvláště užitečné, pokud jde o extrahování konkrétních informací z velkých souborů dat. Mimořádná schopnost tohoto modelu extrahovat podstatu informací ze stovek tisíc dokumentů jejich čtením, filtrováním a analýzou nepochybně přispěje k novým, bleskově rychlým objevům v různých oblastech od vědy po finance.“
V rámci prezentace byl předveden příklad komplexní studie, která obsahuje více než 200 tisíc záznamů, z nichž některé bylo nutné aktualizovat podle nových údajů. Jak jste možná uhodli, ruční provádění by bylo velmi časově náročné, takže autoři studie použili Gemini k přípravě kódu, který převzal vstup a provedl potřebné aktualizace. Dalším příkladem z reálného světa je použití jazykového modelu Google k vysvětlení matematických nebo fyzikálních problémů.
Vstupními daty zde byla fotografie/scan úkolu ze školní lekce. Systém dokázal zpracovat uloženou grafiku a text a následně označit, které části domácího úkolu byly provedeny správně a kterým je třeba věnovat více pozornosti. Prezentace ukázala, že uživatel může Blížence opakovaně žádat o vysvětlení úkolu a každý další pokus musí být vysvětlen jednodušším jazykem. Jak přesné a správné budou Gemini, si samozřejmě zájemci ověří, ale schopnost číst a zpracovávat text přímo z fotografií je působivá. Jak bylo přidáno během prezentace:
"Blíženci se naučili rozpoznávat a chápat text, obrázky, zvuky a další současně. Díky tomu lépe rozumí nuancím informací a dokáže odpovědět na složité otázky. Je zvláště efektivní při vysvětlování témat souvisejících s matematikou a fyzikou, takže může sloužit jako osobní pomocník při domácích úkolech".
Google se také pochlubil, že se Gemini „učili“ na nových čipsetech TPUv5, a na začátku roku 2024 plánuje představit Gemini Ultra, který bude využívat Bard Advanced, novou verzi spotřebitelské verze řečového modelu giganta. Gemini Ultra je v současné době v testování a je již k dispozici vybraným bezpečnostním expertům.
Poslední důležitou informací je představení Gemini ve smartphonech Google Pixel 8. Ten umožní mimo jiné vytvářet rychlé odpovědi prostřednictvím aplikace Gboard v messengerech. První je WhatsApp, ale příští rok se taková řešení objeví i v dalších aplikacích souvisejících s komunikací. Toto je však pouze začátek, protože Google oznámil mnoho nových nástrojů AI pro smartphony Pixel 8 a v budoucnu budou k dispozici na některých dalších zařízeních. Android. Toto jsou však další plány a v tuto chvíli nebyly poskytnuty žádné podrobnosti.
Nový model Gemini od Googlu vypadá jako jeden z největších a nejpokročilejších modelů umělé inteligence, i když vydání modelu Ultra to jistě určí. Ve srovnání s jinými populárními modely, které v současnosti používají chatboty AI, Gemini vyniká svou vlastní multimodální funkcí, zatímco jiné modely jako GPT-4 spoléhají na to, že pluginy a integrace jsou skutečně multimodální.
Přestože je Gemini velkým skokem vpřed ve vývoji schopností umělé inteligence, má stejné nedostatky jako jiné velké jazykové modely. V první řadě je to možnost vytváření nepravdivých informací. Předpojatosti jsou také založeny na trénovacích datech dostupných pro nový jazykový model. Za zmínku stojí i omezené chápání reálného světa. Google připouští, že nový model Gemini může dělat chyby, poskytovat fakta, která se nezakládají na důkazech a odporují zdravému rozumu.
Je zapotřebí více testů, zejména pro Gemini Ultra, který má nové možnosti, které ještě nebyly plně prozkoumány. Google se zavázal pečlivě vyhodnocovat Blížence, aby minimalizoval potenciální škody.
Zajímavé také: Všechno o Microsoft Kopilot: budoucnost nebo špatná cesta?
Uvedení Gemini od Googlu zahájilo novou éru vývoje AI. Se svým nejlepším výkonem ve srovnání s předchozími modely a lidskými základními liniemi Gemini poukazuje na budoucí možnosti umělé inteligence, ale stále potřebuje další výzkum, aby se vyřešily určité nedostatky.
V budoucnu můžete očekávat, že Gemini bude ve službách Google poskytovat užitečnější a inteligentnější funkce. Do budoucna společnost plánuje pokračovat v rozšiřování Gemini mimo angličtinu a stavět na své metodice základního modelu.
Můžeme jen sledovat a doufat, že Google ví, co dělá.
Přečtěte si také:
Napsat komentář