Atvirojo kodo konkurentas OpenAI DALL-E veikia jūsų vaizdo plokštėje

Atvirojo kodo konkurentas OpenAI DALL-E veikia jūsų vaizdo plokštėje

Vaizdas: stabili difuzija

Straipsnis gali būti rodomas tik su aktyvuota JavaScript. Suaktyvinkite „JavaScript“ naršyklėje ir iš naujo.

„OpenAI“ DALL-E 2 varžosi nemokamai. Už jo yra AI atvirojo kodo judėjimas ir startuolis „Stability AI“.

Dirbtinis intelektas, galintis generuoti vaizdus iš teksto aprašymų, sparčiai progresuoja nuo 2021 m. pradžios. Tuo metu OpenAI parodė įspūdingus rezultatus su DALL-E 1 ir CLIP. Atvirojo kodo bendruomenė ištisus metus naudojo CLIP daugeliui alternatyvių projektų. Tada 2022 m. OpenAI išleido įspūdingą DALL-E 2Google parodė Vaizdas ir vakarėlis, Vidurio kelionė pasiekė milijonusir Craiyon užtvindė socialinę žiniasklaidą AI vaizdais.

„Startup Stability AI“ dabar paskelbė apie išleidimą Stabili difuzijakita į DALL-E 2 panaši sistema, kuri iš pradžių palaipsniui bus prieinama naujiems tyrėjams ir kitoms grupėms per Discord serverį.

Po bandymo etapo „Stable Diffusion“ bus išleista nemokamai – kodas ir parengtas modelis bus paskelbti kaip atvirojo kodo. Taip pat bus priglobta versija su žiniatinklio sąsaja, skirta vartotojams išbandyti sistemą.

Stabilumo AI lėšos nemokamai DALL-E 2 konkurentas

„Stable Diffusion“ yra „Stability AI“, „RunwayML“, „LMU Munich“, „EleutherAI“ ir „LAION“ mokslininkų bendradarbiavimo rezultatas. Tyrimų kolektyvas EleutherAI yra žinomas dėl savo atvirojo kodo kalbų modelių GPT-J-6B ir GPT-NeoX-20Bbe kita ko, taip pat atlieka multimodalinių modelių tyrimus.

Pelno nesiekianti LAION (didelio masto dirbtinio intelekto atvirasis tinklas) pateikė mokymo duomenis su atvirojo kodo LAION 5B duomenų rinkiniu, kurį komanda filtravo pagal žmonių atsiliepimus pradiniame bandymo etape, kad sukurtų galutinį LAION-Aesthetics mokymo duomenų rinkinį.

Patrickas Esseris iš Takas ir Robin Rombach iš LMU Miuncheno vadovavo projektui, remdamiesi savo darbu CompVis grupėje Heidelbergo universitete. Ten jie sukūrė plačiai naudojamą VQGAN ir Latentinė difuzija. Pastarasis buvo „Stable Diffusion“ pagrindas su „OpenAI“ ir „Google Brain“ tyrimais.

„Stability AI“, įkurtą 2020 m., remia matematikas ir kompiuterių mokslininkas Emad Mostaque. Prieš pasuko į viešąjį darbą, keletą metų dirbo analitiku įvairiuose rizikos draudimo fonduose. 2019 m. jis padėjo įkurti projektą „Symmitree“, kurio tikslas – sumažinti išmaniųjų telefonų ir interneto prieigos kainą socialiai remtiniems gyventojams.

Naudodamas „Stability AI“ ir savo asmeninį turtą, Mostaque siekia skatinti atvirojo kodo AI tyrimų bendruomenę. Jo startuolis anksčiau palaikė, pavyzdžiui, „LAION 5B“ duomenų rinkinio kūrimą. Stabilios difuzijos modelio mokymui „Stability AI“ suteikė serveriams 4000 „Nvidia A100“ GPU.

„Niekas neturi jokių balsavimo teisių, išskyrus mūsų 75 darbuotojus – jokių milijardierių, didelių fondų, vyriausybių ar kitų, kontroliuojančių įmonę ar bendruomenes, kurias remiame. Esame visiškai nepriklausomi“, – „TechCrunch“ sakė Mostaque. “Mes planuojame naudoti savo skaičiavimus, kad paspartintume atvirojo kodo pagrindinį AI.”

Stabili difuzija yra atvirojo kodo etapas

Šiuo metu vyksta „Stable Diffusion“ bandymas, nauji priedai platinami bangomis. Rezultatai, kuriuos galima pamatyti, pavyzdžiui, Twitter, rodo, kad čia iškyla tikras DALL-E-2 konkurentas.

„Stable Diffusion“ yra universalesnis nei „Midjourney“, tačiau turi mažesnę skiriamąją gebą nei „DALL-E 2“. Vaizdas: Github

Skirtingai nuo DALL-E 2, stabili difuzija gali generuoti iškilių žmonių atvaizdai ir kiti dalykai, kurie „OpenAI“ draudžia DALL-E 2. Kitos sistemos, pvz., „Midjourney“ ar „Pixelz.ai“, taip pat gali tai padaryti, tačiau nepasiekia tokios kokybės, kaip didelė „Stable Diffusion“ įvairovė – ir nė viena iš kitų sistemų nėra atvirojo kodo.

Jau tikimasi, kad „Stable Diffusion“ veiks vienoje grafikos plokštėje su 5,1 gigabaito VRAM, todėl dirbtinio intelekto technologija iki šiol buvo pasiekiama tik naudojant debesies paslaugas. Taigi „Stable Diffusion“ suteikia tyrėjams ir suinteresuotoms šalims, neturinčioms prieigos prie GPU serverių, galimybę eksperimentuoti su šiuolaikišku generatyviu AI modeliu. Modelis taip pat turėtų veikti „MacBook“ kompiuteriuose su „Apple“ M1 lustu. Tačiau vaizdo generavimas čia užtrunka kelias minutes, o ne sekundes.

„OpenAI“ DALL-E 2 dalyvauja atvirojo kodo konkurse, kuriam vadovauja atvirojo kodo bendruomenė ir startuolis „Stability AI“. | Vaizdas: Github

Pats „Stability AI“ taip pat nori leisti įmonėms mokyti savo „Stable Diffusion“ variantą. Taigi multimodaliniai modeliai eina tuo keliu, kuriuo anksčiau ėjo dideli kalbų modeliai: atsitraukia nuo vieno teikėjo ir link daugybės alternatyvų per atvirą kodą.

Runway jau tiria teksto į vaizdo įrašą redagavimą, kurį įgalino „Stable Diffusion“.

Stabili difuzija: Pandoros skrynia ir grynoji nauda

Žinoma, turint atvirą prieigą ir galimybę paleisti modelį plačiai prieinamame GPU, piktnaudžiavimo galimybė smarkiai padidėja.

„Procentas žmonių yra tiesiog nemalonūs ir keisti, bet tai yra žmogiškumas“, – sakė Mostaque. „Iš tiesų, mes tikime, kad ši technologija bus paplitusi, o daugelio dirbtinio intelekto gerbėjų paternalistinis ir šiek tiek nuolaidus požiūris yra klaidingas nepasitikėdamas visuomene.

Tačiau Mostaque pabrėžia, kad laisvas prieinamumas leidžia bendruomenei sukurti atsakomąsias priemones.

„Mes imamės svarbių saugos priemonių, įskaitant pažangiausių įrankių formulavimą, kad padėtų sumažinti galimą žalą, kylančią iš leidimų ir mūsų pačių paslaugų. Kadangi šimtai tūkstančių kuria šį modelį, esame įsitikinę, kad grynoji nauda bus nepaprastai teigiama, o milijardai naudosis šia technologija, žala bus panaikinta.

Daugiau informacijos rasite adresu Stabilus difuzinis github. Galite rasti daug Stable Diffusion vaizdo generavimo galimybių pavyzdžių Stable Diffusion subreddit. Eik čia dėl beta versijos registracija „Stable Diffusion“..


Leave a Reply

Your email address will not be published.