Sexamos honestos, a IA é incriblemente xenial, ata que tamén é incriblemente previsible.
A estas alturas, é probable que tiveses visto algúns exemplos que rouban titulares de IA xerativa evocando arte surrealista, imaxes deslumbrantes ou deseños incriblemente creativos. Pídelle que imaxina cidades alieníxenas bañadas de luz de neón ou bosques onde as árbores medran flores bioluminiscentes e, ¡bum!, preséntanche imaxes que superan os límites do que normalmente concibirían os humanos.
Pero despois, pídeslle a unha IA que debuxe un reloxo. E toda a maxia deténse. Que consegues? Un reloxo teimudamente atascado ás 10:10.
É case ridículo: non importa como lle solicites á IA: "debuxa un reloxo de pulso vintage!" "un reloxo futurista!" ou incluso "un reloxo derretido parecido a Dalí!", esas agullas do reloxo, dalgún xeito, atopan o camiño cara a esa posición estrañamente alegre das 10:10. Se se supón que a IA comprende os matices, a aleatoriedade e a creatividade, por que está tan atrapada nisto?
A resposta non é só un artefacto divertido dos modelos de adestramento, senón unha ollada microcósmica aos maiores desafíos aos que se enfronta a IA cando se trata de comprender a creatividade, os prexuízos e liberarse de convencións moi gastadas. Entón, abroche a pulseira e profundicemos neste misterio sorprendentemente filosófico e profundamente técnico.
Antes de comezar a mover os dedos coa IA, falemos de nós . O motivo da predilección da IA cara ás 10:10 non vén porque o algoritmo decida: "Si, aquí é onde o tempo se sente perfecto". Non, é simplemente regurxitar un comportamento que os humanos incorporamos ao deseño de reloxos durante décadas.
Practicamente todos os anuncios de reloxos que viches usan a mesma marca de tempo icónica de 10:10. E non, isto non é porque todos os fotógrafos de produtos do mundo uníronse colectivamente a un "culto 10:10". Aquí tes por que esta elección de tempo é tan dominante:
A simetría parece ben : ás 10:10, as agullas do reloxo crean unha boa sensación de harmonía visual. É simétrico, pero non demasiado ríxido. Tamén enmarca o logotipo da marca á perfección, que adoita ser un golpe na posición das 12 horas na maioría dos reloxos.
O efecto "Reloxo sorrinte" : mira detidamente: ás 10:10, as mans curvadas cara arriba imitan a forma dun sorriso. Xa sexa consciente ou subliminalmente, as marcas entenden que as indicacións de deseño felices e acolledoras venden máis produtos.
Sobrecarga de mercadotecnia : unha vez que esta convención se volveu dominante, bóla de neve. Desde anuncios ata imaxes de stock ata fotos de catálogo, onde aparecía un reloxo, as 10:10 era o estándar. Converteuse nunha regra de deseño autoperpetuada.
Durante décadas, alimentamos constantemente ao mundo con este visual, facéndoo tan omnipresente que ata os nosos cerebros o usan por defecto cando imaxinan unha esfera de reloxo. Nin sequera pensamos niso, só o esperamos.
E agora, a IA tamén o fai.
Para entender por que a IA, ás veces chamada "o gran imitador", non pode liberarse das 10:10, imos desempaquetar rapidamente como aprenden estes modelos.
Cada modelo de IA xerativa, incluídas as potencias como Stable Diffusion, DALL-E 2 e MidJourney, depende de conxuntos de datos masivos para o seu adestramento. Estes conxuntos de datos son enormes coleccións de imaxes (moitas veces miles de millóns) extraídas de Internet: fotografía de stock, repositorios en liña, contido xerado polos usuarios, o que queira.
Cando unha IA aprende o concepto de "reloxo" a partir destas imaxes, non se limita a analizar a estética ou a función dun reloxo. Busca patróns de repetición.
Adiviña o que domina as imaxes dos reloxos en Internet? Si, 10:10.
Para a "mente" acrítica da IA, a verdade estatisticamente máis significativa sobre os reloxos non é que din a hora. É que case sempre se ven así:
Se o 95 % das imaxes de "reloxo" que ve o algoritmo son esencialmente idénticas, adiviña que pasa cando lle pides que cree un reloxo? A IA non sabe nada mellor. Asume que quere calquera versión dun reloxo que lle resulte máis familiar: 10:10.
Podes estar pensando: "Espera, suponse que a IA é creativa! Por que non se rebela?
Aí é onde as cousas se complican. A IA pode parecer creativa, como se fose sacar ideas da nada, pero non o é. Pola contra, funciona de forma probabilística, tirando de patróns que se aprenden durante o adestramento. Déixame desmitificar iso.
Pense no cerebro da IA como un xigantesco xogo de "completar automático". Imaxina escribir "razas de cans" en Google: aparecen suxestións de autocompletar como "Labrador" ou "Pastor alemán" porque son as máis comúns. Do mesmo xeito, cando unha IA xera unha imaxe de "un reloxo de pulso", mostra o que pensa que parece o reloxo de pulso medio en función dos patróns que xa viu.
Aquí tes un detalle técnico clave:
Os modelos xerativos crean imaxes explorando o seu "espazo latente", unha representación matemática de gran dimensión de todo o que aprenderon. Imaxina este espazo latente como unha galaxia densa formada por patróns, ideas e formas. Obxectos como "esferas de reloxo" forman cúmulos nesta galaxia, e no caso dos reloxos... a parte máis densa e de máis fácil acceso dese cúmulo é, xa o adiviñaches, 10:10.
Cando o modelo comeza a xerar unha imaxe, estas áreas densas actúan como pozos gravitatorios. É máis probable que elixes algo preto en lugar de deambular cara á "aleatoriedade creativa".
Tamén hai algo máis en xogo aquí: colapso do modo.
O colapso do modo é unha trampa común na aprendizaxe automática onde un modelo de IA comeza a favorecer só un subconxunto de posibilidades, ignorando as opcións que se ven con menos frecuencia. É como un foco que brilla só nos exemplos máis comúns mentres que o resto se esvaece na escuridade. Debido a que os reloxos ás 10:10 están drasticamente sobrerrepresentados nos conxuntos de datos de adestramento de IA, convértense no "predeterminado". Cada vez que solicitas á IA, recóllese nesta opción segura e familiar.
Aquí está a cousa: non se trata só de reloxos. O mesmo prexuízo inflúe en todo tipo de saídas xerativas. Pídelle á IA que xere, digamos, unha imaxe xenérica de "un home de negocios" e moitas veces terás un varón occidental estereotipado con traxe e gravata, porque iso é o que domina as imaxes de stock. A IA é tan imparcial como os seus datos e os conxuntos de datos, como sabemos, están cargados de décadas, incluso séculos, de sesgo humano.
Teoricamente, si. Tecnicamente? É unha porca moito máis difícil de romper.
Para que a IA saia da súa rutina de 10:10 ou calquera outro sesgo cultural profundamente arraigado, necesita datos e algoritmos que resistan activamente a rede de seguridade da media. Aquí tes como pode parecer:
Diversificación de conxuntos de datos : en primeiro lugar, asegúrate de que os conxuntos de datos de formación conten con alternativas pouco representadas . Se os datos de adestramento dunha IA presentasen reloxos en momentos aleatorios ata as 10:10, poderiamos suavizar este sesgo. Pero escalar isto a conxuntos de datos masivos non é pequena, e a limpeza de conxuntos de datos require recursos computacionais e humanos importantes.
Reponderación das probabilidades : os enxeñeiros poderían modificar os algoritmos de recompensa dunha IA para promover activamente resultados máis pouco habituais. Por exemplo, poderían engadir penalizacións por gravitar demasiado cara a saídas predeterminadas como 10:10.
Inxección de ruído en avisos : os sistemas avanzados poderían introducir "ruído rápido", obrigando explícitamente á IA a aleatorizar aspectos sutís das súas saídas, como a posición das agullas nun reloxo ou, de forma máis ampla, explorar áreas pouco exploradas do espazo latente.
Axustes personalizados : os modelos tamén se poden afinar para impulsar as creacións cara a unha maior creatividade. Ao adestrar modelos máis pequenos e especializados en datos máis diversos ou de nicho (como un conxunto de datos de reloxos ás 7:13 ou ás 4:47), os creadores poden sesgar certos resultados para romper o molde.
Dito isto, aquí hai unha pendente esvaradía. Fomentar demasiada aleatoriedade significa que a IA podería perder a súa base por completo, creando resultados que se senten inconexos ou absurdos en lugar de "creativos". Atopar o punto ideal entre os patróns predeterminados e a verdadeira innovación segue sendo un dos maiores dilemas no desenvolvemento da IA hoxe en día.
A razón pola que a IA segue debuxando reloxos atascados ás 10:10 non é só sobre os seus datos de adestramento ou as peculiaridades de codificación, é un microcosmos de como a IA xerativa reflicte os límites da nosa creatividade, os nosos prexuízos e os nosos datos. Cando esperamos que a IA "pense fóra da caixa", esquecemos que foi construída dentro da nosa caixa para comezar.
O que me fascina disto non é a monotonía técnica de como funcionan os espazos latentes ou as distribucións de adestramento (aínda que admito que é moi xenial por si mesmo). O que chama a atención aquí é como a IA nos obriga a ter en conta os nosos propios patróns . Fixemos 10:10 o símbolo universal dos reloxos. E ata que non cambiemos as nosas convencións ou ensinemos á IA a valorar a diversidade en exceso, seguirá facendo eco desas opcións.
Entón, a próxima vez que lle pidas a unha IA que cree un reloxo atascado no pasado, considérao un recordatorio: a creatividade non sempre se trata de algoritmos. Trátase de intención.
E polo momento, a esfera do reloxo da IA aínda che sorrí, conxelada para sempre ás 10 e 10.