Ας είμαστε ειλικρινείς, η τεχνητή νοημοσύνη είναι εκπληκτικά cool—μέχρι να είναι επίσης εκπληκτικά προβλέψιμη.
Μέχρι τώρα, πιθανότατα θα έχετε δει μερικά παραδείγματα τεχνητής νοημοσύνης που προκαλούν πρωτοσέλιδα που δημιουργούν σουρεαλιστική τέχνη, εκθαμβωτικά γραφικά ή απίστευτα δημιουργικά σχέδια. Ζητήστε του να φανταστεί εξωγήινες πόλεις λουσμένες με φως νέον ή δάση όπου δέντρα φυτρώνουν βιοφωταύγεια λουλούδια και —μπουμ!— σας παρουσιάζονται εικόνες που ξεπερνούν τα όρια αυτού που κανονικά θα συλλάβονταν οι άνθρωποι.
Στη συνέχεια, όμως, ζητάτε από ένα AI να σχεδιάσει ένα ρολόι. Και όλα τα μαγικά ουρλιαχτά σταματούν. Τι παίρνετε; Ένα ρολόι κόλλησε πεισματικά στις 10:10.
Είναι σχεδόν αστείο: ανεξάρτητα από το πώς ζητάτε την τεχνητή νοημοσύνη - «ζωγραφίστε ένα vintage ρολόι χειρός!» “Ένα φουτουριστικό ρολόι!” ή ακόμα και «ένα λιωμένο ρολόι σαν Νταλί!»—αυτοί οι δείκτες ρολογιού βρίσκουν κατά κάποιο τρόπο τον δρόμο τους σε αυτήν την παράξενα χαρούμενη θέση 10:10. Εάν η τεχνητή νοημοσύνη υποτίθεται ότι κατανοεί τις αποχρώσεις, την τυχαιότητα και τη δημιουργικότητα, γιατί είναι τόσο κολλημένο σε αυτό;
Η απάντηση δεν είναι απλώς ένα διασκεδαστικό τεχνούργημα μοντέλων προπόνησης, αλλά μια μικροκοσμική ματιά στις μεγαλύτερες προκλήσεις που αντιμετωπίζει η τεχνητή νοημοσύνη όσον αφορά την κατανόηση της δημιουργικότητας, της προκατάληψης και της απαλλαγής από τις φθαρμένες συμβάσεις. Λοιπόν, δέστε το βραχιολάκι σας και ας εμβαθύνουμε σε αυτό το εκπληκτικά φιλοσοφικό —και βαθιά τεχνικό— μυστήριο.
Πριν αρχίσουμε να κουνάμε τα δάχτυλα στο AI, ας μιλήσουμε για εμάς . Ο λόγος για την προτίμηση του AI προς το 10:10 δεν προέρχεται από τον αλγόριθμο που αποφασίζει: «Ναι, εδώ είναι που ο χρόνος είναι τέλειος». Όχι—απλώς επαναλαμβάνουμε μια συμπεριφορά που εμείς οι άνθρωποι έχουμε δημιουργήσει στη σχεδίαση ρολογιών για δεκαετίες.
Σχεδόν κάθε διαφήμιση ρολογιού που έχετε δει ποτέ χρησιμοποιεί την ίδια εμβληματική χρονική σήμανση 10:10. Και όχι, αυτό δεν συμβαίνει επειδή κάθε φωτογράφος προϊόντων στον κόσμο εντάχθηκε συλλογικά σε μια «λατρεία 10:10». Να γιατί αυτή η επιλογή χρόνου είναι τόσο κυρίαρχη:
Η συμμετρία φαίνεται καλή : Στις 10:10, οι δείκτες του ρολογιού δημιουργούν μια ωραία αίσθηση οπτικής αρμονίας. Είναι συμμετρικό, αλλά όχι υπερβολικά άκαμπτο. Επίσης, πλαισιώνει τέλεια το λογότυπο της μάρκας, το οποίο είναι συχνά χτύπημα στη θέση 12 η ώρα στα περισσότερα ρολόγια.
Το εφέ του 'Smiling Watch' : Κοιτάξτε προσεκτικά: Στις 10:10, τα χέρια με καμπυλότητα προς τα πάνω μιμούνται το σχήμα ενός χαμόγελου. Είτε συνειδητά είτε υποσυνείδητα, οι επωνυμίες κατανοούν ότι τα χαρούμενα, φιλόξενα σχεδιαστικά στοιχεία πωλούν περισσότερα προϊόντα.
Υπερφόρτωση μάρκετινγκ : Μόλις αυτό το συνέδριο έγινε κυρίαρχο, χιονίστηκε. Από διαφημίσεις μέχρι στοκ εικόνες μέχρι φωτογραφίες καταλόγου, όπου εμφανιζόταν ένα ρολόι, το 10:10 ήταν το πρότυπο. Έγινε ένας αυτοδιαιωνιζόμενος κανόνας σχεδιασμού.
Για δεκαετίες, τροφοδοτούμε με συνέπεια τον κόσμο αυτό το οπτικό, καθιστώντας το τόσο πανταχού παρόν που ακόμη και ο εγκέφαλός μας προεπιλογή σε αυτό όταν φανταζόμαστε μια όψη ρολογιού. Δεν το σκεφτόμαστε καν - το περιμένουμε.
Και τώρα, το κάνει και η AI.
Για να καταλάβουμε γιατί η τεχνητή νοημοσύνη, που μερικές φορές αποκαλείται «ο μεγάλος μιμητής», δεν μπορεί να ξεφύγει από το 10:10, ας αποσυσκευάσουμε γρήγορα πώς μαθαίνουν αυτά τα μοντέλα.
Κάθε μοντέλο παραγωγής τεχνητής νοημοσύνης - συμπεριλαμβανομένων των εταιρειών παραγωγής ισχύος όπως το Stable Diffusion, το DALL-E 2 και το MidJourney - βασίζεται σε τεράστια σύνολα δεδομένων για την εκπαίδευσή του. Αυτά τα σύνολα δεδομένων είναι τεράστιες συλλογές εικόνων (συχνά δισεκατομμύρια) που έχουν αφαιρεθεί από το Διαδίκτυο: φωτογραφικό υλικό, διαδικτυακά αποθετήρια, περιεχόμενο που δημιουργείται από χρήστες, όπως το λες.
Όταν ένα AI μαθαίνει την έννοια του "ρολόι" από αυτές τις εικόνες, δεν αναλύει απλώς την αισθητική ή τη λειτουργία ενός ρολογιού. Ψάχνει για μοτίβα επανάληψης.
Μαντέψτε τι κυριαρχεί στις εικόνες ρολογιών του Διαδικτύου; Ναι, 10:10.
Για το άκριτο «μυαλό» του AI, η πιο σημαντική στατιστικά αλήθεια για τα ρολόγια δεν είναι ότι λένε την ώρα. Είναι ότι σχεδόν πάντα μοιάζουν με αυτό:
Εάν το 95% των εικόνων "ρολόι" που βλέπει ο αλγόριθμος είναι ουσιαστικά πανομοιότυπες, μαντέψτε τι συμβαίνει όταν του ζητάτε να δημιουργήσει ένα ρολόι; Το AI δεν ξέρει καλύτερα. Υποθέτει ότι θέλετε οποιαδήποτε έκδοση ρολογιού είναι πιο οικεία σε αυτό—10:10.
Ίσως σκέφτεστε: «Περιμένετε, η τεχνητή νοημοσύνη υποτίθεται ότι είναι δημιουργική! Γιατί δεν επαναστατεί;»
Εκεί είναι που τα πράγματα δυσκολεύουν. Η τεχνητή νοημοσύνη μπορεί να φαίνεται δημιουργική - σαν να βγάζει ιδέες από τον αέρα - αλλά δεν είναι. Αντίθετα, λειτουργεί πιθανολογικά, αντλώντας από μοτίβα που έχει μάθει κατά τη διάρκεια της προπόνησης. Επιτρέψτε μου να το απομυθοποιήσω.
Σκεφτείτε τον εγκέφαλο της τεχνητής νοημοσύνης ως ένα γιγάντιο παιχνίδι «αυτόματης συμπλήρωσης». Φανταστείτε να πληκτρολογείτε «ράτσες σκύλων» στο Google—προτάσεις αυτόματης συμπλήρωσης όπως «Λαμπραντόρ» ή «Γερμανικός Ποιμενικός» εμφανίζονται επειδή είναι οι πιο κοινές. Ομοίως, όταν μια τεχνητή νοημοσύνη δημιουργεί μια εικόνα ενός "ρολόι χειρός", λαμβάνει δείγματα του τρόπου με τον οποίο πιστεύει ότι μοιάζει το μέσο ρολόι χειρός με βάση τα μοτίβα που έχει ήδη δει.
Ακολουθεί μια βασική τεχνική λεπτομέρεια:
Τα μοντέλα παραγωγής δημιουργούν εικόνες εξερευνώντας τον «λανθάνοντα χώρο» τους, μια μαθηματική αναπαράσταση υψηλών διαστάσεων όλων όσων έχουν μάθει. Φανταστείτε αυτόν τον λανθάνοντα χώρο ως έναν πυκνό γαλαξία που αποτελείται από σχέδια, ιδέες και σχήματα. Αντικείμενα όπως τα «πρόσωπα ρολογιού» σχηματίζουν σμήνη σε αυτόν τον γαλαξία, και στην περίπτωση των ρολογιών... το πιο πυκνό, πιο εύκολα προσβάσιμο μέρος αυτού του σμήνου είναι — το μαντέψατε — 10:10.
Όταν το μοντέλο αρχίζει να δημιουργεί μια εικόνα, αυτές οι πυκνές περιοχές λειτουργούν σαν βαρυτικά πηγάδια. Είναι πιο πιθανό να επιλέξετε κάτι κοντά αντί να περιπλανηθείτε στη «δημιουργική τυχαιότητα».
Υπάρχει επίσης κάτι άλλο που παίζει εδώ: η κατάρρευση λειτουργίας.
Η κατάρρευση λειτουργίας είναι μια κοινή παγίδα στη μηχανική εκμάθηση όπου ένα μοντέλο τεχνητής νοημοσύνης αρχίζει να ευνοεί μόνο ένα στενό υποσύνολο δυνατοτήτων, αγνοώντας τις λιγότερο συχνά εμφανιζόμενες επιλογές. Είναι σαν ένας προβολέας που λάμπει μόνο στα πιο συνηθισμένα παραδείγματα, ενώ τα υπόλοιπα σβήνουν στο σκοτάδι. Επειδή τα ρολόγια στις 10:10 υπερεκπροσωπούνται δραματικά στα σύνολα δεδομένων εκπαίδευσης AI, γίνονται η «προεπιλογή». Κάθε φορά που ζητάτε από την τεχνητή νοημοσύνη, αυτό επιστρέφει σε αυτήν την ασφαλή και οικεία επιλογή.
Εδώ είναι το θέμα: δεν πρόκειται μόνο για ρολόγια. Η ίδια προκατάληψη σέρνεται σε όλα τα είδη παραγωγικών εξόδων. Ζητήστε από την τεχνητή νοημοσύνη να δημιουργήσει, ας πούμε, μια γενική εικόνα ενός «επιχειρηματία» και συχνά θα δείτε έναν στερεότυπο δυτικό άνδρα που φοράει κοστούμι και γραβάτα—γιατί αυτό είναι που κυριαρχεί στις στοκ εικόνες. Η τεχνητή νοημοσύνη είναι τόσο αμερόληπτη όσο τα δεδομένα της - και τα σύνολα δεδομένων, όπως γνωρίζουμε, είναι φορτωμένα με δεκαετίες, ακόμη και αιώνες, ανθρώπινης προκατάληψης.
Θεωρητικά ναι. Τεχνικά; Είναι πολύ πιο σκληρό καρύδι.
Για να ξεφύγει η τεχνητή νοημοσύνη από το όριο 10:10 - ή οποιαδήποτε άλλη βαθιά ριζωμένη πολιτισμική προκατάληψη - χρειάζεται δεδομένα και αλγόριθμους που αντιστέκονται ενεργά στο δίχτυ ασφαλείας του μέσου όρου. Δείτε πώς μπορεί να μοιάζει:
Διαφοροποίηση συνόλων δεδομένων : Πρώτον, βεβαιωθείτε ότι τα σύνολα δεδομένων εκπαίδευσης διαθέτουν εναλλακτικές που υποεκπροσωπούνται . Εάν τα δεδομένα εκπαίδευσης ενός AI παρουσίαζαν ρολόγια σε τυχαίες ώρες έως και 10:10, θα μπορούσαμε να αμβλύνουμε αυτήν την προκατάληψη. Αλλά η κλιμάκωση αυτού σε τεράστια σύνολα δεδομένων δεν είναι μικρό κατόρθωμα - και ο καθαρισμός των συνόλων δεδομένων απαιτεί σημαντικούς υπολογιστικούς και ανθρώπινους πόρους.
Πιθανότητες επαναστάθμισης : Οι μηχανικοί θα μπορούσαν να τροποποιήσουν τους αλγόριθμους ανταμοιβής ενός AI για να προωθήσουν ενεργά πιο ασυνήθιστα αποτελέσματα. Για παράδειγμα, θα μπορούσαν να προσθέσουν ποινές για υπερβολική έλξη προς προεπιλεγμένες εξόδους όπως το 10:10.
Έγχυση θορύβου σε προτροπές : Τα προηγμένα συστήματα θα μπορούσαν να εισάγουν «πρόθυμο θόρυβο», αναγκάζοντας ρητά την τεχνητή νοημοσύνη να τυχαιοποιήσει λεπτές πτυχές των εξόδων του, όπως τη θέση των δεικτών σε ένα ρολόι — ή, γενικότερα, την εξερεύνηση περιοχών του λανθάνοντος χώρου που δεν έχουν διερευνηθεί.
Προσαρμοσμένη λεπτομέρεια : Τα μοντέλα μπορούν επίσης να βελτιστοποιηθούν για να ωθήσουν τις δημιουργίες προς μεγαλύτερη δημιουργικότητα. Εκπαιδεύοντας μικρότερα, εξειδικευμένα μοντέλα σε πιο διαφορετικά ή εξειδικευμένα δεδομένα (όπως ένα σύνολο δεδομένων ρολογιών στις 7:13 ή 4:47), οι δημιουργοί μπορούν να προκαταλάβουν ορισμένα αποτελέσματα προς το σπάσιμο του καλουπιού.
Τούτου λεχθέντος, υπάρχει μια ολισθηρή πλαγιά εδώ. Η ενθάρρυνση της υπερβολικής τυχαιότητας σημαίνει ότι η τεχνητή νοημοσύνη θα μπορούσε να χάσει εντελώς τη γείωση της, δημιουργώντας αποτελέσματα που αισθάνονται ασυνάρτητα ή παράλογα και όχι «δημιουργικά». Η εύρεση του γλυκού σημείου ανάμεσα στα προεπιλεγμένα μοτίβα και την αληθινή καινοτομία παραμένει ένα από τα μεγαλύτερα διλήμματα στην ανάπτυξη της τεχνητής νοημοσύνης σήμερα.
Ο λόγος που η τεχνητή νοημοσύνη συνεχίζει να σχεδιάζει ρολόγια κολλημένα στις 10:10 δεν αφορά μόνο τα δεδομένα εκπαίδευσης ή τις ιδιορρυθμίες κωδικοποίησης - είναι μια μικρογραφία του τρόπου με τον οποίο η γενετική τεχνητή νοημοσύνη αντανακλά τα όρια της δημιουργικότητάς μας, τις προκαταλήψεις μας και τα δεδομένα μας. Όταν περιμένουμε την τεχνητή νοημοσύνη να «σκέφτεται έξω από το κουτί», ξεχνάμε ότι αρχικά χτίστηκε μέσα στο κουτί μας.
Αυτό που με γοητεύει σε αυτό δεν είναι το τεχνικό χάος του τρόπου με τον οποίο λειτουργούν οι λανθάνοντες χώροι ή οι διανομές προπόνησης (αν και θα το παραδεχτώ, αυτό από μόνο του είναι πολύ ωραίο). Αυτό που είναι εντυπωσιακό εδώ είναι πώς η τεχνητή νοημοσύνη μας αναγκάζει να υπολογίζουμε τα δικά μας μοτίβα . Κάναμε το 10:10 το παγκόσμιο σύμβολο των ρολογιών. Και μέχρι να αλλάξουμε τις συμβάσεις μας - ή να διδάξουμε την τεχνητή νοημοσύνη να εκτιμά την πολυμορφία πέρα από την εξοικείωση - θα συνεχίσει να επαναλαμβάνει αυτές τις επιλογές σε εμάς.
Έτσι, την επόμενη φορά που θα ζητήσετε από μια τεχνητή νοημοσύνη να δημιουργήσει ένα ρολόι που έχει κολλήσει στο παρελθόν, θεωρήστε το μια απαλή υπενθύμιση: η δημιουργικότητα δεν αφορά πάντα τους αλγόριθμους. Πρόκειται για πρόθεση.
Και προς το παρόν, το ρολόι της τεχνητής νοημοσύνης εξακολουθεί να σας χαμογελάει, για πάντα παγωμένο στις 10 παρά 10.