Legyünk őszinték, a mesterséges intelligencia elképesztően menő – egészen addig, amíg egyben lenyűgözően kiszámítható is.
Mostanra valószínűleg láthatott már néhány szalagcímlopó példát a generatív mesterséges intelligencia szürreális művészetére, káprázatos látványvilágra vagy hihetetlenül kreatív tervezésre. Kérd meg, hogy képzeljen el neonfényben fürdő idegen városokat vagy erdőket, ahol a fák biolumineszcens virágokat növesztenek, és – bumm! – olyan képzetek jelennek meg, amelyek feszegetik annak a határait, amit az emberek általában elképzelnének.
De akkor megkérsz egy MI-t, hogy rajzoljon egy órát. És minden varázslat csikorogva elhallgat. mit kapsz? Egy óra makacsul beragadt 10:10-nél.
Szinte nevetséges: bárhogy is kéri a mesterséges intelligencia – „rajzolj egy régi karórát!” "Egy futurisztikus óra!" vagy akár „egy megolvadt Dali-szerű óra!” – ezek az óramutatók valahogy eljutnak ebbe a furcsán vidám 10:10-es pozícióba. Ha az AI-nak meg kell értenie az árnyalatokat, a véletlenszerűséget és a kreativitást, miért ragadt meg ennyire ezen?
A válasz nem pusztán a képzési modellek mulatságos alkotása, hanem egy mikrokozmikus pillantás az MI előtt álló nagyobb kihívásokra, amikor a kreativitás, az elfogultság megértése és a jól megszokott konvencióktól való megszabadulás terén van szó. Tehát rögzítse a csuklópántját, és ássuk be mélyebben ezt a meglepően filozófiai – és mélyen technikai – rejtélyt.
Mielőtt elkezdenénk az AI-val hadonászni, beszéljünk rólunk . Az ok, amiért a mesterséges intelligencia a 10:10-et részesíti előnyben, nem abból fakad, hogy az algoritmus úgy döntött: „Igen, itt tökéletesnek tűnik az idő.” Nem – ez egyszerűen visszavezeti azt a viselkedést, amelyet mi, emberek évtizedek óta belesütöttünk az óratervezésbe.
Gyakorlatilag minden órareklám, amelyet valaha látott, ugyanazt az ikonikus 10:10-es időbélyeget használja. És nem, ez nem azért van, mert a világ minden termékfotósa közösen csatlakozott egy „10:10 kultuszhoz”. Íme, miért olyan domináns ez az időválasztás:
A szimmetria jól néz ki : 10:10-nél az óra mutatói a vizuális harmónia szép érzetét keltik. Szimmetrikus, de nem túl merev. Tökéletesen keretezi a márka logóját is, amely a legtöbb órán 12 órai pozíciónál gyakran elcsendesedik.
A „Mosolygó óra” effektus : Nézze meg alaposan: 10:10-nél a felfelé görbülő mutatók a mosoly alakját utánozzák. Akár tudatosan, akár tudat alatt, a márkák megértik, hogy a boldog, barátságos dizájnjelzések több terméket adnak el.
Marketing túlterhelés : Miután ez a konvenció dominánssá vált, hógolyózott. A hirdetésektől a stock képeken át a katalógusfotókig mindenhol megjelent egy óra, a 10:10 volt a szabvány. Önálló tervezési szabály lett.
Évtizedek óta folyamatosan etetjük a világot ezzel a képpel, és annyira mindenütt jelenlévővé tesszük, hogy még az agyunk is ezt veszi alapul, amikor elképzelünk egy óra számlapját. Nem is gondolunk rá – csak számítunk rá.
És most az AI is ezt teszi.
Hogy megértsük, miért nem tud kiszabadulni a 10:10-től a néha „nagy imitátornak” nevezett mesterséges intelligencia, gyorsan bontsuk ki, hogyan tanulnak ezek a modellek.
Minden generatív AI-modell – beleértve az olyan erőműveket, mint a Stable Diffusion, a DALL-E 2 és a MidJourney – hatalmas adatkészletekre támaszkodik a képzés során. Ezek az adatkészletek hatalmas képek (gyakran milliárdos) gyűjteményei az internetről: stock fotók, online adattárak, felhasználók által generált tartalom.
Amikor egy mesterséges intelligencia megtanulja az „óra” fogalmát ezekből a képekből, az nem csupán az óra esztétikáját vagy funkcióját elemzi. Az ismétlés mintáit keresi.
Találd ki, mi uralja az internet órákkal kapcsolatos képeit? Igen, 10:10.
A mesterséges intelligencia kritikátlan „elméje” számára az órákkal kapcsolatos statisztikailag legjelentősebb igazság nem az, hogy az időt jelzik. Szinte mindig így néznek ki:
Ha az algoritmus által látott „óra” képek 95%-a lényegében megegyezik, képzeld el, mi történik, ha megkéred, hogy hozzon létre egy órát? Az MI sem tud jobbat. Feltételezi, hogy az óra számára a legismertebb változatot szeretné – 10:10.
Lehet, hogy azt gondolja: „Várj, az AI-nak kreatívnak kell lennie! Miért nem lázad?”
Ott válnak bonyolulttá a dolgok. A mesterséges intelligencia kreatívnak tűnhet – mintha a levegőből merítene ötleteket –, de nem az. Ehelyett valószínűsíthetően működik, az edzés során megtanult mintákból húzva. Hadd tisztázzam ezt.
Tekintse az AI agyát az „autocomplete” gigantikus játékának. Képzelje el, hogy beírja a „kutyafajták” kifejezést a Google-ba – olyan automatikus kiegészítési javaslatok jelennek meg, mint a „labrador” vagy a „német juhászkutya”, mert ezek a leggyakoribbak. Hasonlóképpen, amikor egy mesterséges intelligencia létrehoz egy „karóra” képet, a már látott minták alapján mintát vesz, hogy szerinte hogyan néz ki az átlagos karóra.
Itt van egy kulcsfontosságú technikai részlet:
A generatív modellek úgy hoznak létre képeket, hogy feltárják a „látens terüket”, amely egy nagydimenziós matematikai reprezentációja mindannak, amit tanultak. Képzelje el ezt a látens teret mintákból, ötletekből és formákból álló sűrű galaxisként. Az olyan objektumok, mint az „óralapok”, halmazokat alkotnak ebben a galaxisban, és az órák esetében... a halmaz legsűrűbb, legkönnyebben elérhető része – kitaláltad – 10:10.
Amikor a modell elkezd képet generálni, ezek a sűrű területek gravitációs kutakként működnek. Valószínűbb, hogy a közelben választ valamit, ahelyett, hogy elkalandozna a "kreatív véletlenszerűségben".
Van itt valami más is: a mód összeomlása.
A mód összeomlása a gépi tanulás gyakori buktatója, ahol az AI-modell a lehetőségeknek csak egy szűk részét kezdi előnyben részesíteni, figyelmen kívül hagyva a ritkábban látható lehetőségeket. Olyan ez, mint egy reflektorfény, amely csak a leggyakoribb példákra világít, míg a többi elsötétül. Mivel a 10:10-es órák drámaian felülreprezentáltak az AI-tanítási adatkészletekben, ezek válnak az „alapértelmezetté”. Minden alkalommal, amikor felkéri az AI-t, visszaesik erre a biztonságos és ismerős választásra.
Itt van a dolog: ez nem csak az órákról szól. Ugyanez az elfogultság kúszik be mindenféle generatív kimenetbe. Kérje meg az AI-t, hogy állítson elő egy általános képet „egy üzletemberről”, és gyakran kap egy sztereotip nyugati férfit, aki öltönyben és nyakkendőben van – mert ez uralja a stock képeket. A mesterséges intelligencia csak annyira elfogulatlan, mint az adatai – és az adatkészletek, mint tudjuk, évtizedes, sőt évszázados emberi elfogultsággal vannak terhelve.
Elméletileg igen. Technikailag? Sokkal keményebb dió.
Ahhoz, hogy a mesterséges intelligencia kitörjön a 10:10-es kerékvágásból – vagy bármely más, mélyen rögzült kulturális torzításból – olyan adatokra és algoritmusokra van szükség, amelyek aktívan ellenállnak az átlag biztonsági hálójának. Így nézhet ki:
Adatkészletek diverzifikálása : Először is győződjön meg arról, hogy a képzési adatkészletek alulreprezentált alternatívákat tartalmaznak. Ha egy mesterséges intelligencia képzési adatai véletlenszerű időpontokban, akár 10:10 arányban jelenítik meg az órákat, enyhíthetnénk ezt a torzítást. De ennek méretezése hatalmas adatkészletekre nem kis teljesítmény – az adatkészletek tisztítása pedig jelentős számítási és emberi erőforrásokat igényel.
Valószínűség újrasúlyozása : A mérnökök módosíthatják az AI jutalmazási algoritmusait, hogy aktívan támogassák a szokatlanabb kimeneteket. Például szankciókat írhatnak elő, ha túl erősen húzódnak az alapértelmezett kimenetek, például a 10:10 felé.
Zaj injektálása a felszólításokba : A fejlett rendszerek „prompt noise”-t vezethetnek be, kifejezetten arra kényszerítve az AI-t, hogy véletlenszerűen válassza ki a kimenetek finom aspektusait, például a mutatók helyzetét az órán – vagy tágabb értelemben a látens tér alulfeltárt területeinek feltárását.
Egyéni finomhangolás : A modellek finomhangolhatók is, hogy a kreativitás felé tereljék az alkotásokat. Azáltal, hogy a kisebb, speciális modelleket sokrétűbb vagy szűkebb adatokra tanítják (például órák 7:13-as vagy 4:47-es adatkészletére), az alkotók bizonyos kimeneteket a forma feltörése felé torzíthatnak.
Ez azt jelenti, hogy itt csúszós lejtő van. A túl sok véletlenszerűség ösztönzése azt jelenti, hogy az AI teljesen elveszítheti a megalapozottságát, és olyan kimeneteket hozhat létre, amelyek széttagoltnak vagy értelmetlennek tűnnek, nem pedig „kreatívnak”. Az alapértelmezett minták és a valódi innováció közötti édes pont megtalálása továbbra is az AI-fejlesztés egyik legnagyobb dilemmája.
Az ok, amiért a mesterséges intelligencia folyamatosan 10:10-nél elakadt órákat rajzol, nem csak a képzési adatokban vagy a kódolási furcsaságokban rejlik – ez annak a mikrokozmosza, hogy a generatív AI mennyire tükrözi kreativitásunk, elfogultságunk és adataink határait. Amikor arra számítunk, hogy a mesterséges intelligencia „a dobozon kívül gondolkodik”, elfelejtjük, hogy kezdetben a dobozunkba építették.
Engem ebben nem a látens terek vagy a képzési disztribúciók működésének technikai zűrzavara nyűgöz le (bár bevallom, ez önmagában is vadul menő). Itt az a feltűnő, hogy a mesterséges intelligencia hogyan kényszerít arra, hogy számoljunk saját mintáinkkal . A 10:10-et az órák univerzális szimbólumává tettük. És amíg meg nem változtatjuk konvencióinkat – vagy megtanítjuk a mesterséges intelligenciát a sokszínűség túlzott ismeretére –, ez továbbra is visszhangozza ezeket a döntéseket nekünk.
Tehát, amikor legközelebb megkér egy mesterséges intelligenciát, hogy készítsen egy, a múltban ragadt órát, gondolja ezt egy gyengéd emlékeztetőnek: a kreativitás nem mindig az algoritmusokról szól. Ez a szándékról szól.
És egyelőre a mesterséges intelligencia óralapja továbbra is rád mosolyog, örökre lefagyva 10 óra 10 körül.