paint-brush
Elakadt az időben: Miért nem tudja a mesterséges intelligencia leállítani az órák rajzolását 10:10-kor?által@pawarashishanil
1,315 olvasmányok
1,315 olvasmányok

Elakadt az időben: Miért nem tudja a mesterséges intelligencia leállítani az órák rajzolását 10:10-kor?

által Ashish Pawar6m2025/01/12
Read on Terminal Reader

Túl hosszú; Olvasni

Az AI-modellek gyakran alapértelmezés szerint 10:10-re állítják a rajzoló órákat az edzési adatok torzítása miatt, ahol az órahirdetések túlnyomórészt ezt a konfigurációt használják esztétikai és márkaépítési okokból. Ez a furcsaság rávilágít arra, hogy a mesterséges intelligencia hogyan tükrözi az emberi konvenciókat, hogyan küzd a kreativitással, és hogyan ragaszkodik a statisztikailag domináns mintákhoz. A kiszabaduláshoz az AI-nak jobb adatdiverzitásra, algoritmus-módosításokra és a szándékos kreativitás felé való lökésre van szüksége.
featured image - Elakadt az időben: Miért nem tudja a mesterséges intelligencia leállítani az órák rajzolását 10:10-kor?
Ashish Pawar HackerNoon profile picture
0-item

Legyünk őszinték, a mesterséges intelligencia elképesztően menő – egészen addig, amíg egyben lenyűgözően kiszámítható is.


Mostanra valószínűleg láthatott már néhány szalagcímlopó példát a generatív mesterséges intelligencia szürreális művészetére, káprázatos látványvilágra vagy hihetetlenül kreatív tervezésre. Kérd meg, hogy képzeljen el neonfényben fürdő idegen városokat vagy erdőket, ahol a fák biolumineszcens virágokat növesztenek, és – bumm! – olyan képzetek jelennek meg, amelyek feszegetik annak a határait, amit az emberek általában elképzelnének.


De akkor megkérsz egy MI-t, hogy rajzoljon egy órát. És minden varázslat csikorogva elhallgat. mit kapsz? Egy óra makacsul beragadt 10:10-nél.


Szinte nevetséges: bárhogy is kéri a mesterséges intelligencia – „rajzolj egy régi karórát!” "Egy futurisztikus óra!" vagy akár „egy megolvadt Dali-szerű óra!” – ezek az óramutatók valahogy eljutnak ebbe a furcsán vidám 10:10-es pozícióba. Ha az AI-nak meg kell értenie az árnyalatokat, a véletlenszerűséget és a kreativitást, miért ragadt meg ennyire ezen?


A Gemini által generált kép prompttal – „Rajzolj egy vintage órát”


A Gemini által generált kép prompttal - "Rajzolj futurisztikus órát"


A Gemini által generált kép a következő üzenettel: "Rajzolj egy olvadt Dali-szerű órát"


A válasz nem pusztán a képzési modellek mulatságos alkotása, hanem egy mikrokozmikus pillantás az MI előtt álló nagyobb kihívásokra, amikor a kreativitás, az elfogultság megértése és a jól megszokott konvencióktól való megszabadulás terén van szó. Tehát rögzítse a csuklópántját, és ássuk be mélyebben ezt a meglepően filozófiai – és mélyen technikai – rejtélyt.

A 10:10-es jelenség: emberi örökség

Mielőtt elkezdenénk az AI-val hadonászni, beszéljünk rólunk . Az ok, amiért a mesterséges intelligencia a 10:10-et részesíti előnyben, nem abból fakad, hogy az algoritmus úgy döntött: „Igen, itt tökéletesnek tűnik az idő.” Nem – ez egyszerűen visszavezeti azt a viselkedést, amelyet mi, emberek évtizedek óta belesütöttünk az óratervezésbe.


Gyakorlatilag minden órareklám, amelyet valaha látott, ugyanazt az ikonikus 10:10-es időbélyeget használja. És nem, ez nem azért van, mert a világ minden termékfotósa közösen csatlakozott egy „10:10 kultuszhoz”. Íme, miért olyan domináns ez az időválasztás:

  1. A szimmetria jól néz ki : 10:10-nél az óra mutatói a vizuális harmónia szép érzetét keltik. Szimmetrikus, de nem túl merev. Tökéletesen keretezi a márka logóját is, amely a legtöbb órán 12 órai pozíciónál gyakran elcsendesedik.


  2. A „Mosolygó óra” effektus : Nézze meg alaposan: 10:10-nél a felfelé görbülő mutatók a mosoly alakját utánozzák. Akár tudatosan, akár tudat alatt, a márkák megértik, hogy a boldog, barátságos dizájnjelzések több terméket adnak el.


  3. Marketing túlterhelés : Miután ez a konvenció dominánssá vált, hógolyózott. A hirdetésektől a stock képeken át a katalógusfotókig mindenhol megjelent egy óra, a 10:10 volt a szabvány. Önálló tervezési szabály lett.


Évtizedek óta folyamatosan etetjük a világot ezzel a képpel, és annyira mindenütt jelenlévővé tesszük, hogy még az agyunk is ezt veszi alapul, amikor elképzelünk egy óra számlapját. Nem is gondolunk rá – csak számítunk rá.


És most az AI is ezt teszi.

Az AI tükör problémája

Hogy megértsük, miért nem tud kiszabadulni a 10:10-től a néha „nagy imitátornak” nevezett mesterséges intelligencia, gyorsan bontsuk ki, hogyan tanulnak ezek a modellek.


Minden generatív AI-modell – beleértve az olyan erőműveket, mint a Stable Diffusion, a DALL-E 2 és a MidJourney – hatalmas adatkészletekre támaszkodik a képzés során. Ezek az adatkészletek hatalmas képek (gyakran milliárdos) gyűjteményei az internetről: stock fotók, online adattárak, felhasználók által generált tartalom.


Amikor egy mesterséges intelligencia megtanulja az „óra” fogalmát ezekből a képekből, az nem csupán az óra esztétikáját vagy funkcióját elemzi. Az ismétlés mintáit keresi.


Találd ki, mi uralja az internet órákkal kapcsolatos képeit? Igen, 10:10.


A mesterséges intelligencia kritikátlan „elméje” számára az órákkal kapcsolatos statisztikailag legjelentősebb igazság nem az, hogy az időt jelzik. Szinte mindig így néznek ki:


  • Szimmetrikus mutatók a 10-re és a 2-re.
  • Egy logó büszkén ül a 12 óra körül.
  • És néha bónusz bonyodalmak, mint a kronográf tárcsák, úgy fészkeltek be, mint az ablakok.


Ha az algoritmus által látott „óra” képek 95%-a lényegében megegyezik, képzeld el, mi történik, ha megkéred, hogy hozzon létre egy órát? Az MI sem tud jobbat. Feltételezi, hogy az óra számára a legismertebb változatot szeretné – 10:10.

De várjunk csak – az AI nem csak az adatok követése... Ugye?

Lehet, hogy azt gondolja: „Várj, az AI-nak kreatívnak kell lennie! Miért nem lázad?”


Ott válnak bonyolulttá a dolgok. A mesterséges intelligencia kreatívnak tűnhet – mintha a levegőből merítene ötleteket –, de nem az. Ehelyett valószínűsíthetően működik, az edzés során megtanult mintákból húzva. Hadd tisztázzam ezt.


Tekintse az AI agyát az „autocomplete” gigantikus játékának. Képzelje el, hogy beírja a „kutyafajták” kifejezést a Google-ba – olyan automatikus kiegészítési javaslatok jelennek meg, mint a „labrador” vagy a „német juhászkutya”, mert ezek a leggyakoribbak. Hasonlóképpen, amikor egy mesterséges intelligencia létrehoz egy „karóra” képet, a már látott minták alapján mintát vesz, hogy szerinte hogyan néz ki az átlagos karóra.


Itt van egy kulcsfontosságú technikai részlet:

A generatív modellek úgy hoznak létre képeket, hogy feltárják a „látens terüket”, amely egy nagydimenziós matematikai reprezentációja mindannak, amit tanultak. Képzelje el ezt a látens teret mintákból, ötletekből és formákból álló sűrű galaxisként. Az olyan objektumok, mint az „óralapok”, halmazokat alkotnak ebben a galaxisban, és az órák esetében... a halmaz legsűrűbb, legkönnyebben elérhető része – kitaláltad – 10:10.


Amikor a modell elkezd képet generálni, ezek a sűrű területek gravitációs kutakként működnek. Valószínűbb, hogy a közelben választ valamit, ahelyett, hogy elkalandozna a "kreatív véletlenszerűségben".

Üzemmód összecsukása: A csapda AI nem tud elmenekülni

Van itt valami más is: a mód összeomlása.


A mód összeomlása a gépi tanulás gyakori buktatója, ahol az AI-modell a lehetőségeknek csak egy szűk részét kezdi előnyben részesíteni, figyelmen kívül hagyva a ritkábban látható lehetőségeket. Olyan ez, mint egy reflektorfény, amely csak a leggyakoribb példákra világít, míg a többi elsötétül. Mivel a 10:10-es órák drámaian felülreprezentáltak az AI-tanítási adatkészletekben, ezek válnak az „alapértelmezetté”. Minden alkalommal, amikor felkéri az AI-t, visszaesik erre a biztonságos és ismerős választásra.


Itt van a dolog: ez nem csak az órákról szól. Ugyanez az elfogultság kúszik be mindenféle generatív kimenetbe. Kérje meg az AI-t, hogy állítson elő egy általános képet „egy üzletemberről”, és gyakran kap egy sztereotip nyugati férfit, aki öltönyben és nyakkendőben van – mert ez uralja a stock képeket. A mesterséges intelligencia csak annyira elfogulatlan, mint az adatai – és az adatkészletek, mint tudjuk, évtizedes, sőt évszázados emberi elfogultsággal vannak terhelve.

Várj... Nem tudnánk csak megjavítani?

Elméletileg igen. Technikailag? Sokkal keményebb dió.


Ahhoz, hogy a mesterséges intelligencia kitörjön a 10:10-es kerékvágásból – vagy bármely más, mélyen rögzült kulturális torzításból – olyan adatokra és algoritmusokra van szükség, amelyek aktívan ellenállnak az átlag biztonsági hálójának. Így nézhet ki:

  1. Adatkészletek diverzifikálása : Először is győződjön meg arról, hogy a képzési adatkészletek alulreprezentált alternatívákat tartalmaznak. Ha egy mesterséges intelligencia képzési adatai véletlenszerű időpontokban, akár 10:10 arányban jelenítik meg az órákat, enyhíthetnénk ezt a torzítást. De ennek méretezése hatalmas adatkészletekre nem kis teljesítmény – az adatkészletek tisztítása pedig jelentős számítási és emberi erőforrásokat igényel.


  2. Valószínűség újrasúlyozása : A mérnökök módosíthatják az AI jutalmazási algoritmusait, hogy aktívan támogassák a szokatlanabb kimeneteket. Például szankciókat írhatnak elő, ha túl erősen húzódnak az alapértelmezett kimenetek, például a 10:10 felé.


  3. Zaj injektálása a felszólításokba : A fejlett rendszerek „prompt noise”-t vezethetnek be, kifejezetten arra kényszerítve az AI-t, hogy véletlenszerűen válassza ki a kimenetek finom aspektusait, például a mutatók helyzetét az órán – vagy tágabb értelemben a látens tér alulfeltárt területeinek feltárását.


  4. Egyéni finomhangolás : A modellek finomhangolhatók is, hogy a kreativitás felé tereljék az alkotásokat. Azáltal, hogy a kisebb, speciális modelleket sokrétűbb vagy szűkebb adatokra tanítják (például órák 7:13-as vagy 4:47-es adatkészletére), az alkotók bizonyos kimeneteket a forma feltörése felé torzíthatnak.


Ez azt jelenti, hogy itt csúszós lejtő van. A túl sok véletlenszerűség ösztönzése azt jelenti, hogy az AI teljesen elveszítheti a megalapozottságát, és olyan kimeneteket hozhat létre, amelyek széttagoltnak vagy értelmetlennek tűnnek, nem pedig „kreatívnak”. Az alapértelmezett minták és a valódi innováció közötti édes pont megtalálása továbbra is az AI-fejlesztés egyik legnagyobb dilemmája.

Szóval, mi a nagy elvitel?

Az ok, amiért a mesterséges intelligencia folyamatosan 10:10-nél elakadt órákat rajzol, nem csak a képzési adatokban vagy a kódolási furcsaságokban rejlik – ez annak a mikrokozmosza, hogy a generatív AI mennyire tükrözi kreativitásunk, elfogultságunk és adataink határait. Amikor arra számítunk, hogy a mesterséges intelligencia „a dobozon kívül gondolkodik”, elfelejtjük, hogy kezdetben a dobozunkba építették.


Engem ebben nem a látens terek vagy a képzési disztribúciók működésének technikai zűrzavara nyűgöz le (bár bevallom, ez önmagában is vadul menő). Itt az a feltűnő, hogy a mesterséges intelligencia hogyan kényszerít arra, hogy számoljunk saját mintáinkkal . A 10:10-et az órák univerzális szimbólumává tettük. És amíg meg nem változtatjuk konvencióinkat – vagy megtanítjuk a mesterséges intelligenciát a sokszínűség túlzott ismeretére –, ez továbbra is visszhangozza ezeket a döntéseket nekünk.


Tehát, amikor legközelebb megkér egy mesterséges intelligenciát, hogy készítsen egy, a múltban ragadt órát, gondolja ezt egy gyengéd emlékeztetőnek: a kreativitás nem mindig az algoritmusokról szól. Ez a szándékról szól.


És egyelőre a mesterséges intelligencia óralapja továbbra is rád mosolyog, örökre lefagyva 10 óra 10 körül.


L O A D I N G
. . . comments & more!

About Author

Ashish Pawar HackerNoon profile picture
Ashish Pawar@pawarashishanil
Ashish Pawar is an experienced software engineer skilled in creating scalable software and AI-enhanced solutions across data-driven and cloud applications, with a proven track record at companies like Palantir, Goldman Sachs and WHOOP.

HANG TAGOK

EZT A CIKKET BEMUTATTA...