Root NationZprávyIT novinyJako ve filmech: Nová umělá inteligence společnosti Google pro zpracování fotografií umožňuje jejich škálování a vylepšování ve skutečnost

Jako ve filmech: Nová umělá inteligence společnosti Google pro zpracování fotografií umožňuje jejich škálování a vylepšování ve skutečnost

-

Pravděpodobně jste viděli fantasy filmy nebo televizní pořady, kde hlavní hrdina žádá o zvětšení obrazu a vylepšení výsledku – ukázat obličej, nebo SPZ nebo jakýkoli jiný klíčový detail. Nejnovější systémy umělé inteligence (AI) společnosti Google, založené na tzv difúzní modely, jsou schopni tento trik provést.

Je to složitý proces na zvládnutí, protože v podstatě přidává detaily do snímku, který fotoaparát původně nezachytil, pomocí superinteligentních odhadů založených na jiných, podobných snímcích.

Google

V Googlu se tato technika nazývá přirozená syntéza obrazu a v tomto konkrétním scénáři ultravysoké rozlišení obrazu. Začnete malou, pixelovanou fotkou a skončíte něčím ostrým, jasným a přirozeným. Možná to není úplně originál, ale je to dost blízko, aby to lidskému oku vypadalo jako skutečné.

Google pro tuto práci představil dva nové nástroje umělé inteligence. První se nazývá SR3 neboli Super-Resolution via Repeated Refinement a funguje tak, že do obrázku přidá šum a ten pak odstraní. Prostřednictvím série pravděpodobnostních výpočtů založených na velké databázi obrázků a určité magii strojového učení si SR3 dokáže představit, jak vypadá verze obrázku s pixely s nízkým rozlišením v super vysokém rozlišení.

Druhým nástrojem je CDM neboli Cascaded Diffusion Models. Google je popisuje jako „potrubí“, po kterých lze difúzní modely – včetně SR3 – směrovat pro vysoce kvalitní převzorkování obrazu. Bere modely vylepšení a dělá z nich větší obrázky.

Google

Pomocí různých modelů vylepšení v různých rozlišeních je přístup CDM schopen překonat alternativní metody upscalingu obrazu, tvrdí Google. Nový AI engine byl testován na ImageNet, obří databázi tréninkových obrázků běžně používaných pro výzkum vizuálního rozpoznávání objektů.

Konečné výsledky SR3 a CDM jsou působivé. Ve standardním testu s 50 lidskými dobrovolníky byly snímky lidských tváří generované SR3 asi v 50 % případů mylně považovány za skutečné fotografie – a vzhledem k tomu, že ideální algoritmus by měl dosáhnout 50 %, je to působivé. Stojí za to zopakovat, že tyto vylepšené obrázky nejsou přesné shody s originály, jsou to pečlivě vypočítané simulace založené na matematice pravděpodobnosti.

Google

Google si od svých nových AI enginů a souvisejících technologií slibuje mnohem více – nejen co se týče rozšiřování obrázků tváří a dalších přírodních objektů, ale také v dalších oblastech pravděpodobnostního modelování.

Přečtěte si také:

Dzherelosciencealert
Přihlásit se
Upozornit na
host

0 Komentáře
Vložené recenze
Zobrazit všechny komentáře