Co je Gemini: Vše o novém modelu umělé inteligence od Googlu

08/02/2024 22:28

Google právě vydal svůj nejvýkonnější model umělé inteligence, jaký kdy byl nazván Blíženci. Jaká je a co umí? O všem v našem článku.

Google již roky vyvíjí vlastní nástroje AI. S veřejným vydáním ChatGPT-3 od OpenAI vytvořila společnost, která provozuje nejpopulárnější vyhledávač na světě, podobný nástroj, Bard. Tento nástroj ale stále prohrával s konkurenty, na což Google nedal dopustit. Proto není divu, že se svět nedávno dočkal Gemini, nového jazykového modelu od Googlu, o kterém jsme se dozvěděli během prezentace.

Je navržen tak, aby nejen vylepšil předchozí LLM (Large Language Model) giganta, ale také nabídl zcela nové možnosti v oblasti zpracování textu, grafiky a zvuku.

Pojďme se tedy blíže podívat na nový jazykový model Google Gemini.

Zajímavé také: OpenAI Project Q*: co to je a proč je projekt znepokojivý

OBSAH

1. Co je Google Gemini?

2. Kdo vytvořil model?

3. Příležitosti

4. Existují různé verze?

5. Jak získat přístup k Gemini?

6. Blíženci na Google Bard: Co se změní?

7. Blíženci v chytrých telefonech Google Pixel

8. Jak se Gemini liší od ostatních modelů AI, jako je GPT-4?

9. Obavy o přesnost a nestrannost

10. Budoucnost je s Blíženci

Co je Google Gemini?

Jedná se o nový a výkonný model umělé inteligence od Googlu, který si dokáže porozumět nejen s textem, ale i s obrázky, videem a zvukem. Tento multimodální model je popsán jako schopný provádět složité úkoly v matematice, fyzice a dalších oblastech a také porozumět a generovat vysoce kvalitní kód v různých programovacích jazycích.

Gemini je aktuálně k dispozici prostřednictvím integrace s Google Bard a Google Pixel 8 a postupně bude začleněna do dalších služeb Google.

„Gemini je výsledkem masivního společného úsilí napříč týmy Google, včetně našich kolegů z Google Research,“ — řekl Dennis Hassabis, CEO a spoluzakladatel Google DeepMind. "Byl od základu postaven jako multimodální, což znamená, že dokáže zobecnit a bezproblémově porozumět, provozovat a kombinovat různé typy informací, včetně textu, kódu, zvuku, obrázků a videa."

Zajímavé také: Ne vše, co nazýváme AI, je ve skutečnosti umělá inteligence. Zde je to, co potřebujete vědět

Kdo vytvořil model?

Jak jste již pravděpodobně uhodli, Gemini byl vytvořen společností Google a Alphabet, mateřskou společností Google, a je to dosud nejpokročilejší model AI společnosti. K jeho rozvoji významně přispěla i divize DeepMind společnosti Google. Zatím není známo, kolik zaměstnanců se na vývoji podílelo a jaké finanční prostředky na to byly vyčleněny, ale s vědomím schopností Google si můžeme být jisti, že jde o velmi vysokou částku.

Zajímavé také: Windows 12: Jaký bude nový OS

Příležitosti

Jak jsem poznamenal výše, je to multimodální model, což znamená, že dokáže porozumět různým typům dat, pracovat s nimi a kombinovat je, včetně textu, kódu, zvuku, obrázků a videa. Poskytuje lepší porozumění, myšlení a kódování ve srovnání s předchozími systémy umělé inteligence.

Hlavní schopnosti modelu jsou:

Zpracování přirozeného jazyka pro úkoly, jako je překlad, sumarizace a dialog
Matematické myšlení a řešení problémů
Schopnost generovat kód a dokumentaci
Pochopení obrázků, zvuku a videa
Multitasking v různých doménách

Jak vidíte, schopnosti jsou lepší než u jiných modelů.

V testech porozumění jazyku, matematickému myšlení a kódování Gemini Ultra předčily modely, jako je GPT-4. Jde zejména o první model, který překonává výkon na lidské úrovni v testu MMLU (Massive Multitask Language Understanding) a dosahuje přesnosti přes 90 %.

Ve 32 akademických testech rozsáhlé studie jazykového modelu Gemini překonali GPT-4. Ve 30 případech byl nový jazykový model od Googlu lepší než konkurenční. To demonstruje schopnost modelu plně porozumět jazyku.

Přečtěte si také: Human Brain Project: Pokus o napodobení lidského mozku

Existují různé verze?

Google popisuje tuto AI jako flexibilní model, který může fungovat na jakémkoli zařízení: od datových center Google po mobilní zařízení. Pro dosažení této škálovatelnosti přichází Gemini ve třech verzích: Nano, Pro a Ultra.

Promluvme si o různých verzích Gemini podrobněji.

Blíženci Nano: navrženo tak, aby fungovalo na chytrých telefonech, zejména na Google Pixel 8. Je navrženo k provádění úkolů, které vyžadují efektivní zpracování umělou inteligencí bez připojení k externím serverům, jako je navrhování odpovědí v chatovacích programech nebo shrnutí textu. Tento kompaktní model zařízení má asi 6 miliard parametrů.
GeminiPro: běží v datových centrech Google. Pro je navržen tak, aby fungoval s nejnovější verzí chatbota Bard AI. Je schopen poskytnout rychlou odezvu a porozumět složitým dotazům. Středně velký model má přibližně 100 miliard parametrů a je jádrem Bardovy konverzační AI. Pro bude k dispozici prostřednictvím Google Cloud.
Blíženci Ultra: i když verze Ultra ještě není široce dostupná, Google ji popisuje jako svůj nejvýkonnější model, který překračuje „současnou úroveň techniky pro 30 z 32 široce používaných akademických testů používaných ve výzkumu velkých jazykových modelů (LLM). " Jako největší a nejvýkonnější verze dostane Ultra více než 1 bilion parametrů. Bude umístěn v datových centrech. Ultra je přizpůsoben pro firemní použití. Verze je navržena pro provádění velmi složitých úkolů. Google ho plánuje vydat po skončení aktuální testovací fáze. To znamená, že nejvýkonnější verze zatím není uživatelům k dispozici.

Zajímavé také: Google Bard AI: Vše, co potřebujete vědět

Jak získat přístup k Gemini?

AI ve verzích Nano a Pro je nyní k dispozici v produktech Google, jako jsou smartphony Google Pixel 8 a chatbot Bard. Google ho plánuje časem integrovat do svého vyhledávače, reklamy, e-mailové služby Gmail, prohlížeče Chrome a dalších služeb.

Vývojáři a podnikoví zákazníci budou mít od 13. prosince 2023 přístup k Pro prostřednictvím Gemini API v Google AI Studio a Google Cloud Vertex AI. Vývojáři Android bude mít přístup k modelu verze Nano přes AICore, který bude k dispozici v brzkém náhledu.

Přečtěte si také: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Bitva dvou Yokozunů

Blíženci na Google Bard: Co se změní?

Podle informací poskytnutých během prezentace model umožní společnosti Google Bard lépe zvládnout složitější problémy, jak bylo uvedeno:

„Navrhli jsme Gemini tak, aby byl model přirozeně multimodální a od začátku předtrénovaný na více modalit. Poté jsme jej vylepšili přidáním více multimodálních dat, abychom zlepšili výkon. Díky tomu Gemini snadno rozumí a vyvozuje mnohem lépe než předchozí multimodální modely a může se pochlubit nejmodernějšími schopnostmi téměř ve všech oblastech.

Mimořádné multimodální schopnosti Gemini vám pomohou porozumět složitým textovým a vizuálním informacím. Jsou zvláště užitečné, pokud jde o extrahování konkrétních informací z velkých souborů dat. Mimořádná schopnost tohoto modelu extrahovat podstatu informací ze stovek tisíc dokumentů jejich čtením, filtrováním a analýzou nepochybně přispěje k novým, bleskově rychlým objevům v různých oblastech od vědy po finance.“

V rámci prezentace byl předveden příklad komplexní studie, která obsahuje více než 200 tisíc záznamů, z nichž některé bylo nutné aktualizovat podle nových údajů. Jak jste možná uhodli, ruční provádění by bylo velmi časově náročné, takže autoři studie použili Gemini k přípravě kódu, který převzal vstup a provedl potřebné aktualizace. Dalším příkladem z reálného světa je použití jazykového modelu Google k vysvětlení matematických nebo fyzikálních problémů.

Vstupními daty zde byla fotografie/scan úkolu ze školní lekce. Systém dokázal zpracovat uloženou grafiku a text a následně označit, které části domácího úkolu byly provedeny správně a kterým je třeba věnovat více pozornosti. Prezentace ukázala, že uživatel může Blížence opakovaně žádat o vysvětlení úkolu a každý další pokus musí být vysvětlen jednodušším jazykem. Jak přesné a správné budou Gemini, si samozřejmě zájemci ověří, ale schopnost číst a zpracovávat text přímo z fotografií je působivá. Jak bylo přidáno během prezentace:

"Blíženci se naučili rozpoznávat a chápat text, obrázky, zvuky a další současně. Díky tomu lépe rozumí nuancím informací a dokáže odpovědět na složité otázky. Je zvláště efektivní při vysvětlování témat souvisejících s matematikou a fyzikou, takže může sloužit jako osobní pomocník při domácích úkolech".

Blíženci v chytrých telefonech Google Pixel

Google se také pochlubil, že se Gemini „učili“ na nových čipsetech TPUv5, a na začátku roku 2024 plánuje představit Gemini Ultra, který bude využívat Bard Advanced, novou verzi spotřebitelské verze řečového modelu giganta. Gemini Ultra je v současné době v testování a je již k dispozici vybraným bezpečnostním expertům.

Poslední důležitou informací je představení Gemini ve smartphonech Google Pixel 8. Ten umožní mimo jiné vytvářet rychlé odpovědi prostřednictvím aplikace Gboard v messengerech. První je WhatsApp, ale příští rok se taková řešení objeví i v dalších aplikacích souvisejících s komunikací. Toto je však pouze začátek, protože Google oznámil mnoho nových nástrojů AI pro smartphony Pixel 8 a v budoucnu budou k dispozici na některých dalších zařízeních. Android. Toto jsou však další plány a v tuto chvíli nebyly poskytnuty žádné podrobnosti.

Jak se Gemini liší od ostatních modelů AI, jako je GPT-4?

Nový model Gemini od Googlu vypadá jako jeden z největších a nejpokročilejších modelů umělé inteligence, i když vydání modelu Ultra to jistě určí. Ve srovnání s jinými populárními modely, které v současnosti používají chatboty AI, Gemini vyniká svou vlastní multimodální funkcí, zatímco jiné modely jako GPT-4 spoléhají na to, že pluginy a integrace jsou skutečně multimodální.

Obavy o přesnost a nestrannost

Přestože je Gemini velkým skokem vpřed ve vývoji schopností umělé inteligence, má stejné nedostatky jako jiné velké jazykové modely. V první řadě je to možnost vytváření nepravdivých informací. Předpojatosti jsou také založeny na trénovacích datech dostupných pro nový jazykový model. Za zmínku stojí i omezené chápání reálného světa. Google připouští, že nový model Gemini může dělat chyby, poskytovat fakta, která se nezakládají na důkazech a odporují zdravému rozumu.

Je zapotřebí více testů, zejména pro Gemini Ultra, který má nové možnosti, které ještě nebyly plně prozkoumány. Google se zavázal pečlivě vyhodnocovat Blížence, aby minimalizoval potenciální škody.

Zajímavé také: Všechno o Microsoft Kopilot: budoucnost nebo špatná cesta?

Budoucnost je s Blíženci

Uvedení Gemini od Googlu zahájilo novou éru vývoje AI. Se svým nejlepším výkonem ve srovnání s předchozími modely a lidskými základními liniemi Gemini poukazuje na budoucí možnosti umělé inteligence, ale stále potřebuje další výzkum, aby se vyřešily určité nedostatky.

V budoucnu můžete očekávat, že Gemini bude ve službách Google poskytovat užitečnější a inteligentnější funkce. Do budoucna společnost plánuje pokračovat v rozšiřování Gemini mimo angličtinu a stavět na své metodice základního modelu.

Můžeme jen sledovat a doufat, že Google ví, co dělá.

Přečtěte si také:

Yuri Svitlyk

Syn Karpat, neuznaný génius matematiky, "právník"Microsoft, praktický altruista, levá-pravá

Další článek Acer oznámila elektrický skútr Predator Extreme, nové herní monitory a notebooky »

Předchozí článek « Vydání Homeworld 3 bylo odloženo na květen 2024

Napsat komentář

Tagy: GooglevybranýUmělá inteligence