El Mal Alumne Pedagogías Críticas para Las Inteligencias Artificiales

El mal
alumne
–– Pedagogia
crítica per a
intel·ligències
artificials
Estampa
2
El mal alumne
Ajuntament de Barcelona Projecte d’investigació Publicació
Institut de Cultura de
Barcelona Estampa Textos
––Pedagogia crítica
Barcelona Producció 2017-18 El mal alumne. Pedagogia crítica Estampa (Roc Albalat,
per a intel·ligències artificials Pau Artigas, Marc Padró,
Consell d’Edicions i Marcel Pié i Daniel Pitarch)
per a intel·ligències
Publicacions de l’Ajuntament https://tallerestampa.com/
de Barcelona estampa/el-mal-alumne/ Coordinació
Gerardo Pisarello Prados, Josep Montserrat Rectoret
artificials
M. Montaner Martorell, Laura Barcelona Producció 2017-18 Anna Urdániz
Pérez Castallo, Jordi Campillo
Gámez, Marc Andreu Acebal, Director Edició
Águeda Bañón Pérez, José Pérez Oriol Gual i Dalmau Ajuntament de Barcelona
Freijo, Pilar Roca Viola, Maria Institut de Cultura
Truñó i Salvadó, Bertran Cazorla Jurat i tutories Folch
Estampa
Rodríguez, Anna Giralt Brunet David Armengol, Mónica Bello,
Joan Casellas, Latitudes Disseny gràfic
(Max Andrews i Mariana Cánepa Estampa
Luna), Alexandra Laudo
i Mireia Sallarès Impressió
Agpograf
Tutoria El mal alumne
Mónica Bello Traduccions i correccions
Discobole SL
Coordinació
Montserrat Rectoret i Blanch Imatges
Estampa, Internet Archive
Producció tècnica —35mm Stock Footage
Qwerty (Creative Commons Attribution
License), Prelinger Archive,
Suport David Domingo, Rijksstudio
Anna Urdániz Bondia (Rijksmuseum), Pep Herrero,
Nyamnyam, Claudia Pagès
Muntatge
JBM Muntatges i Produccions Programari lliure i conjunts
de dades
Disseny gràfic YOLO, Pix2Pix, Word-rnn,
Folch Tensorflow, WikiArt, Faces 1999
(Caltech Computational Vision),
Premsa Face Recognition Database (MIT-
Departament de Premsa de CBCL), Face Recognition Data
l’ICUB (Dr Libor Spacek), MUCT Face
Database, 2D Face Sets (Stirling,
Traduccions Psychological Image Collection)
Discobole SL
Agraïments
Transcripció vídeo sala i web Mónica Bello, David Domingo,
EMC Museu Picasso, MACBA,
MNAC, Fundació Antoni Tàpies,
Vídeo sala i web Museu del Disseny de Barcelona
Hugo Barbosa (hb.prgrms) i Fundació Joan Miró,
Nyamnyam, Claudia Pagès
Vigilància sala
Felipe Rangel (Sabico) Aquesta col·lecció és una iniciativa
coeditada per l’Ajuntament
Servei d’informació de Barcelona i The Flames by Folch.
Núria Miret
Judith López Dipòsit legal: B12525-2018
(Iliadas Team sl) ISBN Ajuntament de Barcelona:
978-84-9156-119-4
Neteja FolchStudio: 978-84-948751-1-3
Inés Pachay (Ferrovial) © De l’edició: Institut de Cultura
de l’Ajuntament de Barcelona i
FolchStudio
© Fotografies i textos: els autors
© Traduccions: els autors
barcelona.cat/barcelonallibres
lacapella.bcn.cat
7 El mal alumne
català
8 Visions artificials.
Aprenentatge automàtic i cultura visual
15 El mal alumno
español
16 Visiones artificiales.
Aprendizaje automático y cultura visual
23 The Bad Pupil
english
24 Artificial Visions.
Machine Learning and Visual Culture
31 Què és el que veus, YOLO9000?

¿Qué es lo que ves, YOLO9000?
What do you see, YOLO9000?
47 Taxonomies
Taxonomías
Taxonomies
53 Experts compulsius
Expertos compulsivos
Compulsive experts
57 Una imaginació mecanitzada
Una imaginación mecanizada
A mechanised imagination
63 L’ordre és el treball
El orden es el trabajo
Order is work
El mal alumne
El desenvolupament actual de la intel·ligència artificial se centra en
l’aprenentatge automàtic. Les màquines aprenen per si soles a dur
a terme tasques a partir dels exemples que els ensenyem. L’objectiu
d’aquests desenvolupaments és automatitzar la màxima quantitat de
processos i aplicar-los a grans bases de dades: classificar, cercar patrons,
predir comportaments o monitorar de manera massiva. La pitjor cara de
l’aprenentatge automàtic és la que està en consonància amb el nostre
món fet de vigilància contínua a gran escala i on les dades massives
s’equiparen als recursos naturals i a la seva explotació –l’anomenada
“mineria de dades”.
Si les màquines aprenen i ho fan en aquest context, el que cal és rei-
vindicar el mal alumne: tot allò que s’escapa de la norma. Si el món de la
intel·ligència artificial utilitza la metàfora de l’aprenentatge, el que cal
és pensar una pedagogia crítica. Si la intenció és que la intel·ligència ar-
tificial repliqui la dels humans a escales inhumanes, cal reivindicar una
intel·ligència artificial no mimètica que provoqui relacions i imatges in-
esperades. Si la cultura visual actual s’està expandint en el seu vessant
invisible, aquell en el qual les màquines generen imatges que només
veuran altres màquines, cal plantejar-se com podem encarnar aquestes
imatges per desfer la seva acció espectral al nostre voltant.
Aquesta publicació recull la recerca que hem dut a terme entorn de la
visió artificial i la generació d’imatges amb xarxes neuronals d’aprenen-
tatge profund entre els mesos de juny de 2017 i abril de 2018.
9 cat
Les xarxes neuronals estan pensades com a models predictius es-
Visions artificials. tadístics: es creen per funcionar en situacions futures, que hauran de
classificar o transformar segons les categories apreses. L’objectiu no és
Aprenentatge automàtic la creació d’una definició o d’una síntesi visible i discutible, sinó la ge-
neració de sortides (outputs) davant de noves entrades (inputs). Així,
i cultura visual una xarxa neuronal de visió artificial com la que esmentàvem no conté
una definició d’una cara, sinó que expressa, davant les imatges que li
proporcionem i amb un percentatge de seguretat, si allà hi ha una cara
En els darrers anys, una part de la recerca i la innovació tecnològica o no i a quina part de la imatge es localitza. De la mateixa manera, una
s’ha concentrat en una branca de la intel·ligència artificial: les tècni- xarxa neuronal aplicada al càlcul del preu d’una assegurança o a la pos-
ques d’aprenentatge automàtic –machine learning– que utilitzen xarxes sibilitat de reincidència criminal no proporcionaria una definició o una
neuronals artificials profundes. Articles acadèmics i notícies ens ex- explicació argumentada del seu funcionament, sinó un output davant
pliquen que aquestes eines digitals aprenen i que ho fan de manera, d’un nou cas. És aquesta opacitat del funcionament dels algorismes ge-
fins a cert punt, autònoma. Què és el que aprenen i quina és la seva nerats, l’aparent caixa negra de les seves operacions d’aprenentatge i les
autonomia? El que aprenen és a dur a terme tasques concretes, com funcions amb què conclouen, el que genera una certa angoixa i contes-
ara descriure el contingut d’una imatge. És important remarcar aques- tació davant els seus possibles usos, si han de servir per generar accions
ta exclusivitat: cada xarxa entrenada només duu a terme una tasca, i respostes que semblin fugir de les responsabilitats i la justificació rao-
aquella per a la qual s’ha dissenyat. Si es consideren autònomes, és nada. Si l’operació interna queda oculta, el que no hi ha de quedar és el
perquè les persones que les desenvolupen no intervenen en totes les motiu pel qual s’ha decidit que aquella tasca pot ser calculable; cal ex-
fases del procés de creació. El que podem decidir d’una xarxa neuro- plicar el què i el com de la tasca que volem que es dugui a terme i de les
nal artificial, a més de la tasca que volem que dugui a terme, és la seva dades que podem proporcionar.
estructura interna –nombre de capes, tipus de funcions matemàtiques La intel·ligència artificial s’aplica al món de les imatges per dues vies:
que cal aplicar i altres elements– i quin corpus de material li proporci- la visió artificial i la generació d’imatges. La visió artificial se centra en la
onem perquè aprengui. Igualment, també decidim sobre la seva qua- capacitat d’identificar el contingut de les imatges de manera automàti-
litat testant els resultats que produeix. Però allò en què no intervenim ca. En part, ho hem d’entendre així: com una voluntat d’automatització
és en la programació dels passos concrets que farà l’eina per resoldre del procés de descripció d’una imatge. Així doncs, un arxiu d’imatges
la tasca. Aquest funcionament intern sorgeix com a conclusió de l’en- (un arxiu històric públic, un banc d’imatges comercial, el fons fotogràfic
trenament, durant el qual la xarxa inicial s’autoconfigura amb una sè- d’un diari, les imatges pujades a les xarxes socials o un àlbum personal)
rie de valors (les operacions que fa la xarxa per decidir aquests valors ja no necessitaria que una persona es dediqués a introduir descripcions
es regeixen per principis estadístics i de probabilitat). Així, per tenir textuals i paraules clau, sinó que un programa informàtic podria execu-
una eina que identifiqui si en una imatge hi apareix una cara, ja no cal tar aquesta tasca. Però en el nostre món d’avui, això no només s’aplica
intentar construir una definició de “cara” (com seria indicar que una al conjunt d’imatges existents i catalogades, sinó també al flux continu
cara es caracteritza per tenir dos ulls, dues celles, un nas i una boca) de noves imatges proporcionades per la ubiqüitat de càmeres en funci-
ni determinar quin tipus de patrons, diferències de contrast, etc., po- onament. En aquest sentit, ja no parlaríem tant d’automatització de la
drien servir per identificar-la en una imatge, sinó que l’estratègia seria descripció com d’automatització de la percepció. No per una diferència
proporcionar a l’eina una gran quantitat d’imatges de cares, i la xarxa semàntica, en la qual caldria aprofundir (pot esgotar la descripció d’una
neuronal aprendria, basant-se en aquestes, què és una cara. O més ben imatge, la seva percepció?), sinó per una diferència de temporalitat: la
dit, aprendria què pot fer perquè davant d’una nova imatge pugui dir visió artificial pot operar en temps real. Si en el cas anterior l’exemple
que allà hi ha una cara i nosaltres hi estiguem d’acord. era el de l’aplicació de descriptors per a una imatge en un arxiu, en el
10 11 cat
cas de la visió artificial en temps real l’exemple civil més comú és el dels
vehicles amb conducció automàtica, i el militar, el de la detecció d’ob-
jectius. En el món virtual que ha envaït la nostra vida privada –xarxes
socials, correu electrònic, etc.– i que és alhora arxiu i present continu, la
visió artificial és l’eina necessària per convertir en informació monitora-
ble també les imatges, fins avui opaques a la lectura automàtica. Part de
la recerca en visió artificial respon també a aquest interès: apropiar-se
d’un element que contenia restes no consumibles pel sistema.
La visió artificial té una altra característica que convé remarcar, que
és que aquesta capacitat d’automatització de la descripció i la percepció
no és només una eina que pot emprar i percebre un ésser humà, sinó
que constitueix, de fet, un nou espectador: la xarxa neuronal mateixa.
No volem dir que la xarxa sigui un subjecte, sinó que, com assenya-
len artistes com Trevor Paglen1 o Hito Steyerl,2 avui en dia la majoria
d’imatges ja no estan pensades per ser vistes per una persona, sinó que
el seu espectador ideal, i molts cops únic, és també una màquina. Serien
imatges operatives, segons l’expressió del cineasta Harun Farocki,3 i si no- el que hi ha en una paraula. Les paraules i les imatges no se superposen
saltres també les podem percebre, és només per mitjà d’una interfície ni encaixen d’una única manera: la distància entre les unes i les altres es
que ens les tradueix i ens les fa visibles, però que és, des del punt de vista pot recórrer per múltiples camins.
de l’operació, innecessària. El món de les imatges és cada cop més una Per poder dur a terme l’entrenament d’una xarxa neuronal no només
zona d’activitat autònoma, en què la percepció humana està en minoria. cal un vocabulari –un corpus de paraules– sinó també un corpus d’imat-
Si la visió artificial és la descripció i la identificació del que hi ha repre- ges associat a cada un d’aquests termes. El desenvolupament de la in-
sentat en una imatge, és evident que un element essencial és la decisió tel·ligència artificial en els darrers anys s’ha basat en l’increment de la
sobre el vocabulari que descriurà la imatge. De fet, la visió artificial es capacitat de computació i en la disponibilitat de volums superiors de da-
descriu més acuradament entenent-la com una operació de classifica- des. S’utilitzen tècniques i estratègies –les xarxes neuronals artificials
ció, és a dir, d’assignar a l’input una o més categories. Quines són aques- mateixes– que ja havien estat conceptualitzades però que han produït
tes categories és, per tant, la pregunta inicial prèvia a tot entrenament i, resultats acceptables per a la indústria només quan s’han pogut aplicar
amb això, es decideix el que la xarxa pot dir (només veurà això i tot ho a grans bases de dades. Això comporta que els estàndards quantitatius
referirà a aquestes categories). Aquesta decisió no és un resultat de la actuals dels datasets d’imatges per a un entrenament siguin molt elevats
xarxa neuronal i no es pot escudar en l’aparent opacitat dels algorismes; i, en conseqüència, que només estiguin a l’abast de grans projectes i em-
és una decisió prèvia que ha de ser visible i discutible. Sabem que cap preses (per exemple, el dataset Open Images, desenvolupat per Google,
vocabulari no pot esgotar tot allò que hi ha en una imatge, ni cap imatge està format per 9 milions d’imatges anotades). La capacitat d’aconseguir
i etiquetar grans quantitats d’imatges desborda una tasca individual o
1
Paglen, Trevor: “Invisible Images (Your Pictures Are Looking at You)”, The New Inquiry, 8 de de- de poques persones, igual que la capacitat de computació per als entre-
sembre de 2016; https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/. naments desborda la majoria d’equips domèstics –parlant dins l’estàn-
2
Steyerl, Hito: “The Spam of the Earth: Withdrawal from Representation”, E-Flux, núm. 32, dard industrial. Els datasets de partida diferencien els projectes de visió
febrer de 2012; http://www.e-flux.com/journal/32/68260/the-spam-of-the-earth-withdrawal- artificial, però també existeixen una sèrie de datasets que s’han conver-
from-representation/. tit en eines comunes per a aquests projectes (per exemple, ImageNet,
3
Farocki, Harun: “Phantom Images”, Public, núm. 29, 2014, p. 12-22. que és un banc d’imatges anotades estàndard per als entrenaments i
12 13 cat
per testar i avaluar les que ja s’han entrenat). La xarxa neuronal aprèn
d’acord amb aquestes imatges. A partir de totes les imatges que li do-
nem relatives a una categoria, desenvoluparà una sèrie de processos
(funcions matemàtiques) que li permetran dir, davant una nova imatge,
si pertany a aquesta categoria o no. Això implica tenir imatges de cada
categoria prou heterogènies per reflectir diferents situacions futures, és
a dir, si es vol que identifiqui on hi ha persones en una imatge, cal te-
nir una gran quantitat d’imatges de persones i que aquestes apareguin
de moltes maneres possibles (de cara, d’esquena, acotades, estirades,
etc.) i en molts contextos possibles (interior, exterior, poca llum, molta
llum, etc.). Les característiques històriques i socials d’aquests datasets
formaran part de l’eina de detecció. La historicitat tant del vocabulari
com dels exemples visuals es fa evident quan veiem, per exemple, que
s’identifiquen telèfons mòbils en quadres del segle xviii. Vocabulari i
dataset d’imatges no poden ser universals, objectius i atemporals.
L’altre gran camp d’aplicació de les xarxes neuronals en el món de les
imatges és el vessant, no de reconeixement o classificació, sinó de crea-
ció d’imatges: el camp generatiu, entre altres, de les anomenades GAN
(generative adversarial networks o xarxes generatives antagòniques). En
aquest cas, l’aprenentatge està enfocat a produir una imatge d’unes
determinades característiques. Una xarxa comuna en aquest camp és
Pix2Pix, que s’entrena a partir d’un corpus elevat de parelles d’imatges.
Aquesta xarxa necessita molts exemples d’una imatge A i una imatge B
per aprendre, davant d’un nou input que li donem, a tractar-lo com la
imatge A de la parella i generar la B. Per exemple, l’artista i programa-
dor Gene Kogan ha entrenat una xarxa Pix2Pix amb imatges de mapes
de ciutats i el seu equivalent en imatge per satèl·lit.4 Davant d’una nova
entrada d’imatge (una sèrie de línies que dibuixem o un mapa d’una ciu-
tat diferent), la xarxa generaria una imatge per satèl·lit. Existeixen al-
tres tipus de xarxes generatives, però la majoria comparteixen aquest
plantejament de voler que la xarxa produeixi una imatge d’un tipus par-
ticular (estil, tècnica, textura, etc.).
En el projecte El mal alumne hem investigat tots dos camps: visió arti-
ficial i generació d’imatges. El catàleg d’experiments que segueix és una
mostra d’estratègies i exercicis per situar aquestes eines fora del seu ús
normatiu primari i desfer la transparència rere la qual s’amaguen.
4
https://opendot.github.io/ml4a-invisible-cities/.
14
El mal alumno
El desarrollo actual de la inteligencia artificial se centra en el aprendi-
zaje automático. Las máquinas aprenden por sí solas a realizar tareas a
partir de los ejemplos que les enseñamos. El objetivo de estos desarro-
llos es automatizar el mayor número posible de procesos y aplicarlos a
grandes bases de datos: clasificar, buscar patrones, predecir comporta-
mientos o monitorizar de manera masiva. La peor cara del aprendizaje
automático es la que está en consonancia con nuestro mundo hecho de
vigilancia continua a gran escala y en el que los datos masivos se equi-
paran a los recursos naturales y su explotación –la denominada “mine-
ría de datos”–.
Si las máquinas aprenden y lo hacen en este contexto, es necesario
reivindicar el mal alumno: todo aquello que escapa de la norma. Si el
mundo de la inteligencia artificial utiliza la metáfora del aprendizaje,
es necesario pensar una pedagogía crítica. Si la intención es que la in-
teligencia artificial replique la de los humanos a escalas inhumanas, es
necesario reivindicar una inteligencia artificial no mimética que provo-
que relaciones e imágenes inesperadas. Si la cultura visual actual se está
expandiendo en su vertiente invisible, aquella en que las máquinas ge-
neran imágenes que solo verán otras máquinas, es necesario plantearse
cómo podemos encarnar estas imágenes para deshacer su acción espec-
tral a nuestro alrededor.
Esta publicación recopila la investigación que hemos llevado a cabo
acerca de la visión artificial y la generación de imágenes con redes neu-
ronales de aprendizaje profundo entre los meses de junio de 2017 y abril
de 2018.
17 esp
Las redes neuronales están pensadas como modelos predictivos esta-
Visiones artificiales. dísticos: se crean para funcionar ante situaciones futuras, que deberán
clasificar o transformar según las categorías aprendidas. El objetivo no
Aprendizaje automático es la creación de una definición o de una síntesis visible y discutible, sino
la generación de salidas (outputs) ante nuevas entradas (inputs). Así, una
y cultura visual red neuronal de visión artificial como la que mencionábamos no contie-
ne una definición de una cara, sino que expresa, ante las imágenes que le
proporcionamos y con un porcentaje de seguridad, si ahí hay una cara o
En los últimos años, una parte de la investigación y la innovación tec- no y en qué parte de la imagen se localiza. Asimismo, una red neuronal
nológica se ha centrado en una área de la inteligencia artificial: las aplicada al cálculo del precio de un seguro o a la posibilidad de reinci-
técnicas de aprendizaje automático –machine learning– que utilizan re- dencia criminal no proporciona una definición o una explicación argu-
des neuronales artificiales profundas. Artículos académicos y noticias mentada de su funcionamiento, sino un output ante un nuevo caso. Es
nos explican que estas herramientas digitales aprenden y que lo hacen esta opacidad del funcionamiento de los algoritmos generados, la apa-
de forma, hasta cierto punto, autónoma. ¿Qué es lo que aprenden y cuál rente caja negra de sus operaciones de aprendizaje y las funciones con
es su autonomía? Aprenden a realizar tareas concretas, como por ejem- las que concluyen, lo que genera una cierta angustia y contestación ante
plo describir el contenido de una imagen. Es importante remarcar esta sus posibles usos, en caso de que deban servir para generar acciones y
exclusividad: cada red entrenada solo realiza una tarea, aquella para respuestas que parezcan huir de las responsabilidades y la justificación
la que fue diseñada. Si se consideran autónomas, es porque las perso- razonada. Si la operación interna queda oculta, lo que no debe quedar
nas que las desarrollan no intervienen en todas las fases del proceso de oculto es el motivo por el cual se ha decidido que esa tarea pueda ser cal-
creación. Lo que podemos decidir en una red neuronal artificial, ade- culable; es necesario explicar el qué y el cómo de la tarea que queremos
más de la tarea que queremos que cumpla, es su estructura interna –nú- que se lleve a cabo y de los datos que le podemos proporcionar.
mero de capas, tipo de funciones matemáticas que se deben aplicar y La inteligencia artificial se aplica al mundo de las imágenes por dos
otros elementos– y qué corpus de material le proporcionamos para que vías: la visión artificial y la generación de imágenes. La visión artificial
aprenda. Del mismo modo, también decidimos sobre su calidad testan- se centra en la capacidad de identificar el contenido de las imágenes de
do los resultados que produce. Pero en lo que no intervenimos es en la manera automática. En parte, debemos entenderlo así: como una volun-
programación de los pasos concretos que llevará a cabo la herramienta tad de automatización del proceso de descripción de una imagen. Así
para ejecutar la tarea. Este funcionamiento interno surge como conclu- pues, un archivo de imágenes (un archivo histórico público, un banco de
sión del entrenamiento, durante el cual la red inicial se autoconfigura con imágenes comercial, el fondo fotográfico de un periódico, las imágenes
una serie de valores (las operaciones que realiza la red para decidir estos subidas a las redes sociales o un álbum personal) ya no necesitaría que
valores se rigen por principios estadísticos y de probabilidad). Así, para una persona se dedicara a introducir descripciones textuales y palabras
tener una herramienta que identifique si en una imagen aparece una cara, clave, sino que un programa informático podría ejecutar esta tarea. Sin
ya no hace falta intentar construir una definición de “cara” (como sería embargo, en nuestro mundo actual, esto no solo se aplica al conjunto
indicar que una cara se caracteriza por tener dos ojos, dos cejas, una nariz de imágenes existentes y catalogadas, sino también al flujo continuo de
y una boca) ni determinar qué tipo de patrones, diferencias de contraste, nuevas imágenes proporcionadas por la ubicuidad de cámaras en fun-
etc., podrían servir para identificarla en una imagen, sino que la estrate- cionamiento. En este sentido, ya no hablaríamos tanto de automatiza-
gia sería proporcionar a la herramienta una gran cantidad de imágenes ción de la descripción como de automatización de la percepción. No por
de caras, y la red neuronal aprendería, a partir de estas, qué es una cara. una diferencia semántica, en la que se debería profundizar (¿puede ago-
O mejor dicho, aprendería qué puede hacer para que frente a una nueva tar la descripción de una imagen su percepción?), sino por una diferen-
imagen pueda decir que allí hay una cara y nosotros estemos de acuerdo. cia de temporalidad: la visión artificial puede operar en tiempo real. Si
18 19 esp
en el caso anterior el ejemplo era el de la aplicación de descriptores para podrá decir (solo verá eso y todo lo referirá a dichas categorías). Esta
una imagen en un archivo, en el caso de la visión artificial en tiempo real decisión no es un resultado de la red neuronal y no se puede escudar en
el ejemplo civil más común es el de los vehículos con conducción auto- la aparente opacidad de los algoritmos; es una decisión previa que debe
mática, y el militar, el de la detección de objetivos. En el mundo virtual ser visible y discutible. Sabemos que ningún vocabulario puede agotar
que ha invadido nuestra vida privada –redes sociales, correo electróni- todo lo que hay en una imagen, ni ninguna imagen lo que hay en una
co, etc.– y que es al mismo tiempo archivo y presente continuo, la vi- palabra. Las palabras y las imágenes no se superponen ni encajan de
sión artificial es la herramienta necesaria para convertir en información una única manera: la distancia entre unas y otras se puede recorrer por
monitorizable también las imágenes, hasta hoy opacas a la lectura auto- múltiples senderos.
mática. Parte de la investigación en visión artificial también responde a Para llevar a cabo el entrenamiento de una red neuronal no solo es
este interés: apropiarse de un elemento que contenía restos no consu- necesario un vocabulario –un corpus de palabras– sino también un cor-
mibles por el sistema. pus de imágenes asociado a cada uno de estos términos. El desarrollo
La visión artificial posee otra característica que conviene remarcar, de la inteligencia artificial en los últimos años se ha basado en el incre-
que es que esta capacidad de automatización de la descripción y la per- mento de la capacidad de cómputo y en la disponibilidad de mayores
cepción no solo es una herramienta que puede utilizar y percibir un ser volúmenes de datos. Se utilizan técnicas y estrategias –las propias redes
humano, sino que constituye, de hecho, un nuevo espectador: la pro- neuronales artificiales– que ya se habían conceptualizado, pero que han
pia red neuronal. No queremos decir que la red sea un sujeto, sino que, arrojado resultados aceptables para la industria a partir del momento
como señalan artistas como Trevor Paglen1 o Hito Steyerl,2 hoy en día la en que se han podido aplicar a grandes bases de datos. Esto implica que
mayoría de imágenes ya no están pensadas para ser vistas por una per- los estándares cuantitativos actuales de los datasets de imágenes para
sona, sino que su espectador ideal, y muchas veces único, es también un entrenamiento sean muy elevados y, en consecuencia, que solo es-
una máquina. Serían imágenes operativas, según la expresión del cineas- tén al alcance de grandes proyectos y empresas (por ejemplo, el data-
ta Harun Farocki,3 y si nosotros también las podemos percibir, es solo set Open Images, desarrollado por Google, está formado por 9 millones
por medio de una interfaz que las traduce y las hace visibles, pero que de imágenes anotadas). La capacidad de conseguir y etiquetar gran-
es, desde el punto de vista de la operación, innecesaria. El mundo de las des cantidades de imágenes desborda una tarea individual o de pocas
imágenes es cada vez más una zona de actividad autónoma, en la cual la personas, igual que la capacidad de cómputo para los entrenamientos
percepción humana está en minoría. desborda la mayoría de equipos domésticos –hablando dentro de los es-
Si la visión artificial es la descripción y la identificación de lo repre- tándares industriales–. Los dataset de partida diferencian los proyectos
sentado en una imagen, es evidente que un elemento esencial es la de- de visión artificial, pero también existe una serie de datasets que se han
cisión acerca del vocabulario que describirá la imagen. De hecho, la convertido en herramientas comunes para estos proyectos (por ejem-
visión artificial se describe con mayor precisión entendiéndola como plo, ImageNet, que es un banco de imágenes anotadas estándar para
una operación de clasificación, esto es, asignando al input una o más los entrenamientos y para testar y evaluar las que ya se han entrena-
categorías. Cuáles son estas categorías es, por lo tanto, la pregunta ini- do). La red neuronal aprende en función de estas imágenes. A partir
cial previa a todo entrenamiento y, con ellas, se decide lo que la red de todas las imágenes que le demos relativas a una categoría, desarro-
llará una serie de procesos (funciones matemáticas) que le permitirán
1
Paglen, Trevor: “Invisible Images (Your Pictures Are Looking at You)”, The New Inquiry, 8 de decir, ante una nueva imagen, si pertenece a esta categoría o no. Eso
diciembre de 2016; https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/. implica tener imágenes de cada categoría lo suficientemente hetero-
2
Steyerl, Hito: “The Spam of the Earth: Withdrawal from Representation”, E-Flux, n.º 32, febrero géneas para reflejar diferentes situaciones futuras, es decir, si se quie-
de 2012; http://www.e-flux.com/journal/32/68260/the-spam-of-the-earth-withdrawal-from- re que identifique dónde hay personas en una imagen, se necesita una
representation/. gran cantidad de imágenes de personas y que estas aparezcan de mu-
3
Farocki, Harun: “Phantom Images”, Public, n.º 29, 2004, pp. 12-22. chas maneras posibles (de cara, de espaldas, agachadas, acostadas, etc.)
20 21 esp
y en muchos contextos posibles (interior, exterior, poca luz, mucha luz, 18979 person 87 horse 8 leader
etc.). Las características históricas y sociales de estos datasets formarán 5324 organism 81 skilled worker 7 consumer goods
parte de la herramienta de detección. La historicidad tanto del vocabu- 5083 living thing 75 clock 7 cart
lario como de los ejemplos visuales se hace evidente cuando vemos, por
4435 artifact 67 entertainer 6 shelter
ejemplo, que se identifican teléfonos móviles en cuadros del siglo xviii.
3763 63 mammal 6 businessperson
Vocabulario y dataset de imágenes no pueden ser universales, objetivos
y atemporales. instrumentality 62 workhorse 5 tractor
El otro gran campo de aplicación de las redes neuronales en el mundo 2842 worker 61 ungulate 5 performer
de las imágenes es la vertiente, no de reconocimiento o clasificación, 1823 container 49 push-bike 5 military officer
sino de creación de imágenes: el campo generativo, entre otras, de las 1486 motor vehicle 47 defender 5 measuring
denominadas GAN (generative adversarial networks o redes generativas 1302 wheeled 43 trolleybus instrument
antagónicas). En este caso, el aprendizaje está enfocado a producir una
vehicle 38 carthorse 5 commodity
imagen de unas determinadas características. Una red común en este
campo es Pix2Pix, que se entrena a partir de un corpus elevado de pare-
995 train 37 placental 5 chair
jas de imágenes. Esta red necesita muchos ejemplos de una imagen A y 761 public transport 37 commuter 4 necktie
una imagen B para aprender, ante un nuevo input que le demos, a tratar- 660 self-propelled 36 draft horse 4 horse-drawn
lo como la imagen A del par y generar la B. Por ejemplo, el artista y pro- vehicle 33 sheet vehicle
gramador Gene Kogan ha entrenado una red Pix2Pix con imágenes de 612 traveler 33 odd-toed 4 canopy
mapas de ciudades y su equivalente en imágenes de satélite.4 Ante una 579 animal ungulate 3 object
nueva entrada de imagen (una serie de líneas que dibujemos o un mapa
475 furnishing 29 moped 2 rider
de una ciudad distinta), la red generaría una imagen de satélite. Existen
otros tipos de redes generativas, pero la mayoría comparten este plan- 460 bench 24 timepiece 2 neckwear
teamiento de querer que la red produzca una imagen de un tipo particu- 400 conveyance 21 inhabitant 2 instrument
lar (estilo, técnica, textura, etc.). 332 employee 20 equine 2 garment
En el proyecto El mal alumno hemos investigado ambos campos: vi- 318 timer 19 protective 2 clothing
sión artificial y generación de imágenes. El catálogo de experimentos 312 seat covering 2 carriage
que sigue es una muestra de estrategias y ejercicios para situar estas
291 bus 19 device 1 tramline
herramientas fuera de su uso normativo primario y deshacer la trans-
277 car 18 umbrella 1 stagecoach
parencia tras la que se esconden.
254 furniture 17 whole 1 even-toed ungulate
236 chordate 17 serviceman 1 commissioned
226 parking meter 16 ski officer
216 passenger train 16 skateboard 1 bow tie
185 park bench 16 covering 1 black tie
159 motorcycle 16 contestant 1 bicycle-built-for-
151 bicycle 11 board two
145 truck 9 workman
A Trip Down Market Street
4
https://opendot.github.io/ml4a-invisible-cities/. 130 vertebrate 9 wagon (Miles Brothers, 1906)
22 23
The Bad Pupil
The development of artificial intelligence today is focused on machine
learning. Machines learn by themselves to carry out tasks using ex-
amples that we teach them. The aim of these developments is to auto-
mate the maximum possible number of processes and to apply them to
vast databases: to classify, to identify patterns, to predict behaviour and
to carry out mass monitoring. The worst side of automatic learning is
the one that is in keeping with our world of constant surveillance on a
large scale, a world in which mass data are regarded as equivalent to
natural resources and their exploitation, termed ‘data mining’.
If machines learn and do so in this context, what we need to cham-
pion is the bad pupil: everything that sidesteps the norm. If the world
of artificial intelligence uses the metaphor of learning, what we need is
to formulate a critical pedagogy. If the intention is for artificial intelli-
gence to replicate that of humans on inhuman scales, what is required
is to champion non-mimetic artificial intelligence that gives rise to un-
expected relations and images. If visual culture today is expanding on
its invisible side, the one on which machines generate images that only
other machines will see, we need to consider how we can embody those
images in order to undo their ghostly action in our surroundings.
This publication contains the research we did on artificial vision and
image generation using deep learning neural nets between June 2017
and April 2018.
25 eng
Neural nets are designed as statistical predictive models: they are
Artificial Visions. created for use in future situations, which they will have to classify or
transform depending on the categories they have learned. The goal is
Machine Learning and Visual not the creation of a definition or of a visible synthesis open to discus-
sion but the generation of outputs in response to new inputs. Thus, an
Culture artificial vision neural network like the one mentioned does not con-
tain a definition of a face, but it expresses, in response to the images
we provide it with and with a degree of certainty, whether that image
In recent years, some research and technological innovation has contains a face or not and, if so, in which part of the image it is located.
been focused on a particular field in artificial intelligence: the ma- Similarly, a neural net applied to calculating the price of an insurance
chine learning techniques that use deep artificial neural networks. policy or the possibility of a criminal re-offending does not provide a
Academic articles and news reports tell us that these digital tools definition or well-argued explanation of its functioning, but an output
learn and that they do so in a way that is to a certain extent auton- in response to a new case. It is this opaqueness of the functioning of the
omous. What is it that they learn and what is their autonomy? What algorithms generated, the apparent black box of their learning opera-
they learn is to perform specific tasks, such as describing the content tions and the functions they arrive at, that generates a certain unease
of an image. It is important to note this exclusivity: each trained net- and opposition to their possible uses if they are employed to generate
work only carries out a single task, the one for which it was designed. actions and responses that seem to evade responsibilities and reasoned
These networks are regarded as autonomous inasmuch as people are justification. If the internal workings remain hidden, what must not re-
not involved in every phase of the process to create them. What we hu- main concealed is the reason why it has been decided that the task in
mans can decide about an artificial neural net, in addition to the task question can be calculated; it is essential to explain the task to be per-
we want it to perform, is its internal structure – the number of layers, formed and the data we can provide.
the types of mathematical function to be applied and other elements Artificial intelligence is used in the world of images in two ways: arti-
– and the body of material that we will provide it with in order for it ficial vision and image generation. Artificial vision focuses on the abil-
to learn. Similarly, we also make decisions about its quality by testing ity to identify the content of images automatically. In part, we should
the results it produces. However, we play no part in programming the regard this as a desire to automate the process of describing an image.
particular steps the tool takes to resolve the task. This internal func- So, an archive of images (a public history archive, a commercial image
tioning arises as a conclusion of the training, during which the initial bank, the photographic holdings of a newspaper, the images posted on
network configures itself by using a series of values (the operations social media or a personal album) no longer requires a person to intro-
the network does to decide these values are governed by principles of duce descriptive texts and key words, as a computer program can now
statistics and probability). So, to have a tool that can identify whether perform this task instead. However, in today’s world, artificial vision
an image contains a face, there is no need to attempt to construct a is not only employed for existing and catalogued images but for the
definition of a ‘face’ (by indicating, for example, that a face has two continual influx of new images provided by the cameras operating all
eyes, two eyebrows, a nose and a mouth) or to determine what kind of around us. Consequently, not only do we talk about machine descrip-
pattern, differences in contrast, etc. could be used to identify one in tion but also of machine perception. Not because of a semantic differ-
an image. Instead, the strategy employed is to provide the tool with a ence that needs to be explored (can the description of an image exhaust
large number of images of faces and the neural net learns what a face its perception?) but because of a time difference: artificial vision can
is by basing itself on these. Or rather, it will learn what it can do to en- operate in real time. Whereas in the previous example it was a matter
sure that when presented with a new image it can say that it contains a of the application of descriptors to an image in an archive, in the case
face and we agree with it. of real-time artificial vision, the most common civilian example is that
26 27 eng
of self-driving vehicles, and the most frequent military example is the
identification of targets. In the virtual world that has invaded our pri-
vate lives – social media, email, etc. – and which is both an archive of
the past and the present continuous, artificial vision is the tool needed
to turn images, previously unreadable by machines, into information
that can be monitored. Part of the research into artificial vision is also
in response to this interest: to appropriate an element that contained re-
mains that could not be consumed by the system.
Artificial vision has another characteristic worth noting and that is
that this ability to automate description and perception is not only a
tool that can make use of and perceive a human being, but that it in
fact constitutes a new spectator: the neural net itself. By this, we do not
mean that the network is a subject but that, as artists such as Trevor
Paglen1 and Hito Steyerl2 point out, most images today are not intend-
ed to be seen by one person; instead their ideal, and often their only,
viewer is also a machine. These are ‘operative images’, as the filmmaker
Harun Farocki3 puts it, and if we too are able to perceive them, it is only
by means of an interface that translates them for us and makes them no vocabulary can exhaust everything contained within an image, nor is
visible to us. However, from the operational point of view, this is un- there any image that can exhaust everything in a word. Words and im-
necessary. The world of images is increasingly an area of autonomous ages do not overlay each other, nor do they fit together in a single way:
activity in which human perception is in the minority. the distance between them can be travelled using many paths.
If artificial vision is the description and identification of the contents In order to train a neural net, not only is a vocabulary – a corpus of
of an image, it is evident that one essential element is the decision re- words – required, but also a body of images associated with each of these
garding the vocabulary to be used to describe the image. In fact, artificial terms. The development of artificial intelligence in recent years has
vision is more accurately described as an operation to classify, in oth- been based on the increase in computing capacity and on the availabil-
er words, to assign one or more categories to the input. Consequently, ity of larger volumes of data. Techniques and strategies – the artificial
what these categories are is the initial question prior to any training and, neural nets themselves – are used that had already been conceptual-
with it, the decision is made regarding what the network can say (it will ised but which have produced acceptable results for industry only when
only see this and it will refer everything to these categories). This de- it has been possible to apply them to huge databases. This means that
cision is not an output of the neural net and it is not possible to hide the current quantitative standards of datasets of images for training are
behind the apparent opaqueness of the algorithms; it is a prior decision extremely high and so they are only within the reach of large projects
that needs to be out in the open and subject to discussion. We know that and companies (for example, the Open Images dataset, developed by
Google, consists of 9 million annotated images). Acquiring and labelling
1
Paglen, Trevor: “Invisible Images (Your Pictures Are Looking at You)”, The New Inquiry, 8 large quantities of images is beyond the capability of one individual or
December 2016; https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/. a small group, just as the computing capacity for training is far greater
2
Steyerl, Hito: “The Spam of the Earth: Withdrawal from Representation”, E-Flux, no. 32, than that of most domestic equipment – speaking within the industri-
February 2012; http://www.e-flux.com/journal/32/68260/the-spam-of-the-earth-withdrawal- al standard. Artificial vision projects are distinguished by the datasets
from-representation/. on which they are based, but there is also a series of datasets that have
3
Farocki, Harun: “Phantom Images”, Public, no. 29, 2014, pp. 12-22. become common tools for these projects (for example, ImageNet, a
28 29 eng
standard bank of annotated images for training nets and for testing and
evaluating those already trained). The neural net learns on the basis of Experiments
these images. From the images relating to a category that we give a neu-
ral net, it will develop a series of processes (mathematical functions) Experimentos
that will enable it say whether a new image presented to it belongs to
this category or not. This means having images in each category that are Experiments
sufficiently varied to reflect different future situations. In other words, if
we wish to identify where there are people in an image, we need a large
number of images of people, and these people must be shown in many
different ways (face on, from behind, stooping, reclining, etc.) and in nu-
merous possible contexts (indoors, outdoors, dimly lit, brightly lit, etc.).
The historical and social characteristics of these datasets will form part
of the detection tool. The historicity of the vocabulary and of the visual
examples becomes clear when we see that mobile phones, for example,
are identified in 18th-century paintings. The vocabulary and dataset of
images are incapable of being universal, objective and timeless.
The other major field in the world of images in which neural nets are
applied is not image recognition or classification but creation: the gen-
erative field, among others, of GANs (generative adversarial networks).
In this case, the learning is focused on producing an image with cer-
tain characteristics. A common network in this area is Pix2Pix, which
trains itself using a large body of pairs of images. This network requires
many examples of an image A and an image B in order to learn to treat
a new input that we give it as image A of a pair and to generate the cor-
responding image B. For example, the artist and programmer Gene
Kogan has trained a Pix2Pix network using images of maps of cities and
their matching satellite image.4 When given a new image input (a series
of drawn lines or the map of a different city), the network generates a
satellite image. There are other types of generative networks, but most
share this approach of wanting the network to produce an image of a
particular nature (style, technique, texture, etc.).
In The Bad Pupil project, we have researched both fields: artificial vis-
ion and image generation. The catalogue of experiments that follows is
a selection of strategies and exercises to place these tools outside their
conventional primary use and to undo the transparency behind which
they hide.
4
https://opendot.github.io/ml4a-invisible-cities/.
30 31
Què és el que veus,
YOLO9000?
¿Qué es lo que ves,
YOLO9000?
What do you see,
YOLO9000?
YOLO9000 és una xarxa neuronal de reconeixement d’objectes entre-
cat
nada amb un dataset de 9.418 paraules i milions d’imatges. Els experi-
1 ments que segueixen estan enfocats a investigar-ne el funcionament:
entendre què veu i com parla.
YOLO9000 es una red neuronal de reconocimiento de objetos entre-
esp
nada con un dataset de 9.418 palabras y millones de imágenes. Los ex-
perimentos que siguen están enfocados a investigar su funcionamiento:
entender qué ve y cómo habla.
YOLO9000 is an object detection neural net trained using a dataset of
eng
9,418 words and millions of images. The experiments that follow fo-
cus on exploring its functioning: understanding what it sees and how
it speaks.
33
Les imatges dins la imatge
cat
La visió artificial de reconeixement d’objectes concep les imatges de

manera realista i discontínua. És a dir, es tracta d’identificar frag-
ments de la imatge com a representacions d’objectes o éssers vius, i
la imatge no s’interpreta com una totalitat sinó com un conjunt d’ele-
ments discrets.
Hem alterat la sortida gràfica de YOLO9000 amb diferents combinatò-
ries sobre què es veu i què s’oculta. Aquestes sortides gràfiques fan evident
el caràcter discret i parcial de la identificació (img. 1 i 2), juguen amb la
distància entre la identificació verbal i la visual (img. 3) o converteixen el
procés d’identificació en una pel·lícula abstracta (com un seguiment dels
moviments en la imatge amb el codi de colors de YOLO9000, img. 4).
Las imágenes dentro de la imagen

esp
La visión artificial de reconocimiento de objetos concibe las imágenes

de manera realista y discontinua. Es decir, se trata de identificar frag-
mentos de la imagen como representaciones de objetos o seres vivos, y
la imagen no se interpreta como una totalidad sino como un conjunto 3
de elementos discretos.
Hemos alterado la salida gráfica de YOLO9000 con diferentes com-
binatorias sobre lo que se ve y lo que se oculta. Estas salidas gráficas
evidencian el carácter discreto y parcial de la identificación (img. 1 y 2),
juegan con la distancia entre la identificación verbal y la visual (img. 3) o
convierten el proceso de identificación en una película abstracta (como
un seguimiento de los movimientos en la imagen con el código de colo-
res de YOLO9000, img. 4).
The images within the image

eng
Artificial vision for recognising objects regards images in a realistic and

broken manner. In other words, it identifies fragments of an image as
representations of objects or living beings; the image is not interpreted
as a totality but as a collection of discrete elements.
We have altered the graphic output of YOLO9000 using various
combinations regarding what is seen and what is hidden. These graph-
ic outputs reveal the discrete and incomplete nature of the identifica-
tion (img. 1 and 2), they play with the gap between verbal and visual
identification (img. 3), and they convert the identification process into
an abstract film (like a tracking of movements in the image using the 4
YOLO9000 colour code, img. 4).
34
Treballadors, mercaderies i amants historical images – film footage shot in the 20th century or paintings from
cat
Qualsevol imatge processada amb YOLO9000 és tant un experiment earlier centuries – intensifies this clash between the image and the word.
de monitoratge de la imatge com un experiment sobre la xarxa neuronal
mateixa. Com si es tractés d’un test de Rorschach, els vídeos i les imat-
ges que li subministrem són un mecanisme projectiu en què la xarxa ens
parla d’ella mateixa, d’allò que veu i d’allò que sap.
Les imatges 5-10 són una selecció d’identificacions efectuades per
YOLO9000. Són una mostra del seu vocabulari i de com la identificació
no funciona de manera unívoca, sinó provocant relacions i suplements de
sentit inesperats. En molts casos, afegir el text d’identificació no esgota la
imatge, sinó que l’obre a nous significats. El fet de subministrar-li imat-
ges històriques –tant si són filmacions del segle xx com pintures de segles
anteriors– incrementa aquest joc de xocs entre la imatge i la paraula.
Trabajadores, mercancías y amantes

esp
Cualquier imagen procesada con YOLO9000 es tanto un experimento

de monitorización de la imagen como un experimento sobre la propia
red neuronal. Como si de un test de Rorschach se tratara, los vídeos y
las imágenes que le suministramos son un mecanismo proyectivo en el
que la red nos habla de sí misma, de lo que ve y lo que sabe.
Las imágenes 5-10 son una selección de identificaciones efectuadas 5
por YOLO9000. Son una muestra de su vocabulario y de cómo la iden-

tificación no funciona de manera unívoca, sino provocando relaciones y
suplementos de sentido inesperados. En muchos casos, añadir el texto
de identificación no agota la imagen, sino que la abre a nuevos significa-
dos. El hecho de suministrarle imágenes históricas –tanto si son filma-
ciones del siglo xx como pinturas de siglos anteriores– incrementa este
juego de choques entre la imagen y la palabra.
Workers, commodities and lovers

eng
Any image processed using YOLO9000 is both an experiment in image

monitoring and an experiment on the neural net itself. Like a Rorschach
test, the images we supply it are a projective mechanism in which the
network talks to us about itself, what it sees and what it knows.
Images 5 to 10 are a selection of identifications made by YOLO9000
and are a sample of its vocabulary. They also demonstrate how identifi-
cation is not univocal but instead generates unexpected connections and
additional meanings. In many cases, adding the identification text does
not exhaust the image but opens up new significations. Supplying it with 6
36 37
7 8
39 cat
Competència lèxica
cat
El vocabulari de YOLO9000 està format per 9.418 paraules estructura-
des de manera jeràrquica. La imatge 11 mostra fragments d’una visualit-
zació en forma de xarxa d’aquesta jerarquia (es pot explorar de manera
interactiva aquesta visualització a la web del projecte).
Seleccionar les paraules del vocabulari és decidir tot allò que pot
identificar la xarxa. Si una xarxa aprengués només dues paraules, tot ho
diria amb aquestes dues paraules. En el cas de YOLO9000 el seu voca-
bulari prové principalment del dataset ImageNet.
ImageNet és una base de dades d’imatges anotades creada per la in-
vestigadora Fei-Fei Li amb les universitats de Stanford i Princeton com
un recurs per a la recerca en visió artificial. El seu corpus de paraules
prové de WordNet, una base de dades del lèxic de l’anglès organitzada
jeràrquicament en funció del significat de les paraules. ImageNet reco-
pila una gran quantitat d’imatges per a cada una de les categories, amb
la qual cosa transforma WordNet en una mena de diccionari visual. En
aquest sentit, els datasets d’imatges són una nova encarnació dels atles
9
visuals i la seva voluntat de “portar el món sobre les espatlles”, segons

l’expressió de Didi-Huberman.1 Però que les paraules tinguin un signi-
ficat no vol dir que tinguin una equivalència visual. Els límits de la rela-
ció entre imatges i paraules es fan evidents per a qualsevol que recorri
les categories d’ImageNet relatives a persones: es pot crear un dataset
d’imatges per a la categoria bad person? (img. 16). Els criteris morals són
elements que puguin ser visibles en les imatges? En el cas del gènere, les
imatges d’ImageNet també són eloqüents: per exemple, en la catego-
ria smasher, stunner, knockout [...] (“una dona molt atractiva o seducto-
ra”, segons la definició del mateix dataset), que no defineix el contingut
de la imatge sinó el tipus de mirada amb què s’ha construït (img. 15).
Aquests són exemples que de tan evidents semblen absurds, però tot i
això formen part d’aquest dataset, que és un dels estàndards en visió ar-
tificial. No deixa de poder-s’hi veure un símptoma sobre les fantasies de
la visió artificial i els límits i els perills de la definició visual.
Si l’arbre de conceptes prové de WordNet, les imatges que l’il·lus-
tren provenen principalment de plataformes com Flickr. El món visu-
al d’aquest dataset, per tant, s’ha creat amb un imaginari molt concret:
el de les xarxes socials i les plataformes 2.0. De fet, monitorar aquest
10
1
Didi-Huberman, Georges: Atlas. ¿Cómo llevar el mundo a cuestas?, Madrid: TF Editores / Museo
Reina Sofía, 2010.
41 cat
ilk
r's m
the
mo
her
rse
univers és una de les tasques per a les quals es desenvolupa la recerca
n
rizo
kos
cou
l ho e
a
soei dsid
are
min
ort s
en visió artificial. Però fins a quin punt l’entrenament queda marcat per
rees ntho
vita
b
al
me
b
aquest imaginari?
ity
cre or e
rem
ile
a
speomlin
L’etiquetatge de les imatges segons els conceptes predeterminats re-
are
deofl
c
ext
st
chnaoth st
cal
h
t
a
t r ic
smole
lf-m
quereix una gran força de treball. En el cas d’ImageNet, s’ha aconseguit
phi
d is
ha
gra
int
axaft k ndle
per mitjà d’Amazon Mechanical Turk, una plataforma en què s’ofereix
geo
po
ce
gri ick
tol st le
la
hic
h toc ha
pisroomand
p
rkp
s an
rap
dur a terme tasques concretes a canvi de pocs diners (cèntims de dòlar).
ice er g
ier
ys prin
wo
b h
p
og
r lac
geot s
top
A b p
glalpinerg
ci e e g
Els treballadors reben una definició i un conjunt d’imatges i han de se-
r
ice ca
kh ill ate
h
sin df cr
ate le
lannar
leccionar quines inclouen aquest objecte i enquadrar-lo dins la imatge.
o
u
r
l
y
Com assenyala l’artista i programador Nicolas Malevé,2 aquesta econo-
d cr
lle
va
sin
l
tab
ba
mia de la producció dels datasets provoca una paradoxa aparent, en què
be
le
ho
l
hil
les persones fan feina mecànica i rutinària i les màquines es qualifiquen
un
d’intel·ligents.
mo
Totes aquestes qüestions relatives a ImageNet porten a preguntar-se
per la possibilitat de crear datasets alternatius. Quins conceptes podri-
en incloure? Quina taxonomia els podria organitzar? Quins conjunts
d’imatges podrien utilitzar-se?
Competencia léxica
esp
El vocabulario de YOLO9000 está formado por 9.418 palabras estruc-

turadas jerárquicamente. La imagen 11 muestra fragmentos de una vi-
sualización en forma de red de esa jerarquía (esta visualización se pue-
de explorar de manera interactiva en la web del proyecto).
Seleccionar las palabras del vocabulario es decidir todo lo que puede
identificar la red. Si una red aprendiera solo dos palabras, todo lo diría
con estas dos palabras. En el caso de YOLO9000, su vocabulario pro-
d
viene principalmente del dataset ImageNet.
lan
ted
cuwl amp
ImageNet es una base de datos de imágenes anotadas creada por la

tiva
s
investigadora Fei-Fei Li con las universidades de Stanford y Princeton

ion
como un recurso para la investigación en visión artificial. Su corpus de

reg
ion
tt
palabras proviene de WordNet, una base de datos del léxico del inglés
reg
ing bu
p loo ow
ste in m
s
ter
pas
plainetru
line
fitt tte
f xb
le pciga pe
cra
int
organizada jerárquicamente en función del significado de las palabras.
ipe re
o
nic
po
ing
vorete
lca
en
ImageNet recopila una gran cantidad de imágenes para cada una de las
op
a
categorías, con lo que WordNet se convierte en una especie de diccio- nd
ing
ha
ss
r
sp
ma
nario visual. En este sentido, los datasets de imágenes son una nueva
t
ss ron
ion
ice
ma anf
ss
encarnación de los atlas visuales y su voluntad de “llevar el mundo a
if
e
pre
oc
de
n
tio
t
al
r idg s
on
va
lakang e
r alu
efr e
tur
ele
ff
t
na
cli
2
e
al
h ore
Malevé, Nicolas: “Machine Pedagogies”, disponible a: https://machineresearch.wordpress.com/
or
tur
sh
ac sh
na
pe
beore
2016/09/26/nicolas-maleve/ [consulta: gener de 2018]. 11
slo
f
ve
ca
42
cuestas”, según la expresión de Didi-Huberman.1 Pero que las palabras incluir? ¿Qué taxonomía los podría organizar? ¿Qué conjuntos de imá-
tengan un significado no quiere decir que tengan una equivalencia vi- genes podrían utilizarse?
sual. Los límites de la relación entre imágenes y palabras se hacen evi-
dentes para cualquiera que recorra las categorías de ImageNet relativas Lexical competence
eng
a personas: ¿se puede crear un dataset de imágenes para la categoría YOLO9000’s vocabulary consists of 9,418 words structured hierarch-
bad person? (img. 16). ¿Los criterios morales son elementos que se pue- ically. Image 11 shows fragments of a visualisation of this hierarchy in
den apreciar en las imágenes? En el caso del género, las imágenes de the manner of a network (this visualisation can be explored interactive-
ImageNet también son elocuentes: por ejemplo en la categoría smasher, ly on the project website).
stunner, knockout [...] (“una mujer muy atractiva o seductora”, según la To decide the words in the vocabulary is to decide everything that the
definición del propio dataset), que no define el contenido de la imagen net can identify. If a net only learns two words, it will say everything us-
sino el tipo de mirada con la que se ha construido (img. 15). Estos son ing these two words. In the case of YOLO9000, its vocabulary comes
ejemplos que de tan evidentes parecen absurdos, pero aún así forman mainly from the ImageNet dataset.
parte de este dataset, que es uno de los estándares en visión artificial. Es ImageNet is a database of annotated images created by researcher Fei-
imposible no ver en ellos un síntoma de las fantasías de la visión artifi- Fei Li with Stanford University and Princeton University as a resource for
cial, así como de los límites y los peligros de la definición visual. research into artificial vision. Its corpus of words comes from WordNet,
Si el árbol de conceptos proviene de WordNet, las imágenes que lo a lexical database for the English language organised hierarchically on
ilustran provienen principalmente de plataformas como Flickr. El mun- the basis of the meaning of words. ImageNet has compiled a large num-
do visual de este dataset, por lo tanto, se ha creado con un imaginario ber of images for each of the categories, thereby transforming WordNet
muy concreto: el de las redes sociales y las plataformas 2.0. De hecho, into a kind of visual dictionary. Image datasets are, therefore, a new in-
monitorizar este universo es una de las tareas para las que se desarrolla carnation of visual atlases and their wish to “shoulder the world”, as Didi-
la investigación en visión artificial. Pero, ¿hasta qué punto el entrena- Huberman puts it.1 However, words may have a meaning but this is not
miento queda marcado por este imaginario? to say that they have a visual equivalent. The limits of the connection be-
El etiquetado de las imágenes según los conceptos predeterminados tween images and words are plain to see if you look through the ImageNet
requiere una gran fuerza de trabajo. En el caso de ImageNet, se ha con- categories relating to people: is it possible to create a dataset of images
seguido por medio de Amazon Mechanical Turk, una plataforma en la for the category of a ‘bad person’? (img. 16). Are moral criteria elements
que se ofrece la realización de tareas concretas a cambio de poco di- that are visible in images? In the case of gender, the ImageNet images are
nero (céntimos de dólar). Los trabajadores reciben una definición y un also telling: for example, the ‘smasher, stunner, knockout […]’ category
conjunto de imágenes y deben seleccionar cuáles incluyen este objeto y (“a very attractive or seductive looking woman”, according to the defi-
encuadrarlo dentro de la imagen. Como indica el artista e investigador nition of the dataset itself ) does not define the content of the image but
Nicolas Malevé,2 esta economía de la producción de los datasets provo- the type of gaze with which it has been constructed (img. 15). These are
ca una aparente paradoja, en la que las personas llevan a cabo tareas examples that are so obvious they seem absurd, but even so they are part
mecánicas y rutinarias y las máquinas se califican de inteligentes. of this dataset, which is one of the standards in artificial vision. One can-
Todas estas cuestiones relativas a ImageNet llevan a preguntarse so- not help but see here a symptom of the fantasies regarding artificial vision
bre la posibilidad de crear datasets alternativos. ¿Qué conceptos podrían and the limits and dangers of visual definition.
While the tree of concepts comes from WordNet, the images that illus-
1
Didi-Huberman, Georges: Atlas. ¿Cómo llevar el mundo a cuestas?, Madrid: TF Editores / trate it come in the main from platforms such as Flickr. The visual world
Museo Reina Sofía, 2010.
2 1
Malevé, Nicolas: “Machine Pedagogies”, disponible en https://machineresearch.wordpress.com/ Didi-Huberman, Georges: Atlas. How to Carry the World on One’s Back?, Madrid: TF Editores /
2016/09/26/nicolas-maleve/ [consulta: enero de 2018]. Museo Reina Sofía, 2010.
44 45
12 person / leader / demigod, superman, Ubermensch
14
16
13 person / follower / Wagnerian
of this dataset has, therefore, been created using a very specific imagin-
ary: that of Web 2.0 social media and platforms. In fact, monitoring this
universe is one of the tasks for which research into artificial vision is being
pursued. But to what extent is the training influenced by this imaginary?
Labelling images according to predetermined concepts requires
a tremendous amount of work. In the case of ImageNet, it has been
achieved thanks to Amazon Mechanical Turk, a platform that offers to
undertake specific tasks in exchange for a small financial reward (calcu-
lated in dollar cents). Workers are given a definition and a collection of
images and they have to select those that include this object and draw
14 person / extrovert, extravert
a bounding box around it in the image. As the artist and programmer
Nicolas Malevé2 points out, this economy in the production of datasets
gives rise to a seeming paradox in which people do mechanical and rou-
tine work while machines are described as intelligent.
All of these issues related to ImageNet led us to wonder about the
possibility of creating alternative datasets. What concepts might they
include? What taxonomy could organise them? What groups of images
could be used?
2
Malevé, Nicolas: “Machine Pedagogies”, available from: https://machineresearch.wordpress.com/
15 person / female, female person / woman, adult female / smasher, stunner, knockout 2016/09/26/nicolas-maleve/ [retrieved January 2018].
47
Taxonomies
Taxonomías
Taxonomies
En la visió artificial, l’elecció de les paraules per descriure la imatge
cat
és la tasca menys automàtica: se n’encarreguen els humans. Sobre la
base d’aquests glossaris, la màquina actua com el nostre millor alum-
ne: aprèn el que nosaltres li fem veure. Aconseguir que una visió arti-
ficial funcioni implica educar-la en un sistema particular de veure. Els
experiments que segueixen es basen en la substitució del vocabulari de
YOLO9000 per altres llistes de paraules. Aquests exercicis plantegen
17
maneres de veure que obren diversos interrogants: quines categories
establim a l’hora de fer classificacions? Pot existir una taxonomia que
permeti una visió tècnicament neutra?
En la visión artificial, la elección de las palabras para describir la imagen
esp
es la tarea menos automática: corre a cargo de los humanos. En base a
estos glosarios, la máquina actúa como nuestro mejor alumno: aprende
lo que nosotros le hagamos ver. Conseguir que una visión artificial fun-
cione implica educarla en un sistema particular de ver. Los siguientes
experimentos se basan en la sustitución del vocabulario de YOLO9000
por otros listados de palabras. Estos ejercicios plantean maneras de ver
que abren varios interrogantes: ¿qué categorías establecemos al hacer
clasificaciones? ¿Puede existir una taxonomía que permita una visión
técnicamente neutra?
In artificial vision, the choice of words to describe an image is the least

eng
automatic task, as humans are commissioned to perform it. The machine

uses these glossaries to act as our best pupil: it learns what we make it
18
see. Getting artificial vision to work implies educating it in a particular
system of seeing. The experiments that follow are based on replacing
the YOLO9000 vocabulary with other lists of words. These exercises
posit ways of seeing that raise various questions: what categories do we
establish when we come to define our classifications? Is it possible for
there to be a taxonomy that enables technically neutral vision?
49
Tesaurus de Roget
cat
El vocabulari emprat per YOLO9000 és un tesaurus: un glossari jerar-

quitzat. Cada terme forma un arbre que conté els mots que en depenen
semànticament. Per a aquesta substitució s’ha utilitzat un altre tesaurus
cèlebre, l’elaborat el 1805 per Peter Mark Roget, metge britànic, teòleg
natural i lexicògraf. El tesaurus de Roget és una obra epistemològica que
conté conceptes relacionats amb l’existència, el canvi, el raonament o
els afectes. Un repertori abstracte que contrasta amb els termes con-
crets de YOLO9000. En aquest exercici, l’etiquetatge “persona” queda
substituït pel terme “ortodòxia”. O a uns feixos de bitllets se’ls adjudica
l’etiqueta “plaer físic” (img. 19).
19
Tesauro de Roget
esp
El vocabulario empleado por YOLO9000 es un tesauro: un glosario je- Improvised explosive device
cat
rarquizado. Cada término forma un árbol que contiene las palabras que L’any 2012 el Departament de Seguretat Nacional dels Estats Units
dependen semánticamente de él. Para esta sustitución se ha utilizado (DHS) es va veure obligat a publicar la llista de 377 paraules clau i frases
otro célebre tesauro, el elaborado en 1805 por Peter Mark Roget, médico que utilitza per monitorar correus electrònics i xarxes socials. La llista
británico, teólogo natural y lexicógrafo. El tesauro de Roget es una obra proporciona una visió del que l’espionatge entén com a “senyals d’ame-
epistemológica que contiene conceptos relacionados con la existencia, naces terroristes o d’altres tipus contra els EUA”. Substituir el vocabulari
el cambio, el razonamiento o los afectos. Un repertorio abstracto que de YOLO9000 per aquestes paraules és un gest que posa en relleu l’ús
contrasta con los términos concretos de YOLO9000. En este ejercicio, de la visió artificial com a eina de vigilància massiva (img. 17 i 18).
la etiqueta “persona” queda sustituida por el término “ortodoxia”. O a
unos fajos de billetes se les adjudica la etiqueta “placer físico” (img. 19). Improvised explosive device
esp
En 2012, el Departamento de Seguridad Nacional de Estados Unidos
Roget’s Thesaurus (DHS) se vio obligado a publicar la lista de 377 palabras clave y frases que
eng
The vocabulary used by YOLO9000 is a thesaurus: a hierarchical glos- utiliza para monitorizar correos electrónicos y redes sociales. La lista pro-
sary. Each term forms a tree that contains the words that depend on it porciona una visión de lo que el espionaje entiende como “señales de ame-
semantically. For this replacement, another famous thesaurus has been nazas terroristas o de otros tipos contra EE. UU.”. Sustituir el vocabulario
used, the one drawn up in 1805 by Peter Mark Roget, a British physi- de YOLO9000 por estas palabras es un gesto que pone de relieve el uso de
cian, natural theologian and lexicographer. Roget’s Thesaurus is an epi- la visión artificial como herramienta de vigilancia masiva (img. 17 y 18).
stemological work that contains concepts related to existence, change,
reasoning and the emotions, an abstract repertoire that contrasts with Improvised explosive device
eng
the concrete terms of YOLO9000. In this exercise, the ‘person’ label is In 2012, the US Department of Homeland Security (DHS) was forced to
replaced by the term ‘orthodoxy’, or bundles of banknotes are labelled publish the list of 377 keywords and phrases it uses to monitor emails
‘physical pleasure’ (img. 19). and social media. The list provides insights into what intelligence agen-
cies regard as “signs of terrorist or other types of threats against the
United States”. Replacing the YOLO9000 vocabulary with these words
is a gesture that draws attention to the use of artificial vision as a mass
surveillance tool (img. 17 and 18).
50 51
20
Blade_Runner.srt
cat
En aquest exercici el corpus textual substitutori ha estat la llista de di-

àlegs de Blade Runner (Ridley Scott, 1982). A les escenes inicials de
Charade (Stanley Donen, 1963), aquest YOLO alterat hi veu les frases de 21
ciència-ficció sobre la frontera entre éssers humans i màquines (img. 20).

Emporio celestial de conocimientos benévolos
cat
Blade_Runner.srt Aquest exercici de substitució pren el nom d’una enciclopèdia xinesa,
esp
En este ejercicio el corpus textual sustitutorio ha sido la lista de diálogos ficcionada per Jorge Luis Borges a El idioma analítico de John Wilkins,
de Blade Runner (Ridley Scott, 1982). En las escenas iniciales de Charade que permet fer un comentari sobre l’arbitrarietat de les taxonomies.
(Stanley Donen, 1963), este YOLO alterado ve las frases de ciencia fic- Com explica Borges, tota taxonomia representa un intent provisional
ción sobre la frontera entre seres humanos y máquinas (img. 20). del llenguatge per classificar una realitat inabastable (img. 21).
Blade_Runner.srt Emporio celestial de conocimientos benévolos

esp
eng
In this exercise, the textual corpus used as the replacement vocabulary Este ejercicio de sustitución toma el nombre de una enciclopedia china,
is the list of dialogues in Blade Runner (Ridley Scott, 1982). This altered ficcionada por Jorge Luis Borges en El idioma analítico de John Wilkins,
YOLO sees in the opening scenes of Charade (Stanley Donen, 1963) the que permite hacer un comentario acerca de la arbitrariedad de las taxo-
phrases of science fiction about the boundary between human beings nomías. Como explica Borges, toda taxonomía representa un intento pro-
and machines (img. 20). visional del lenguaje para clasificar una realidad inabarcable (img. 21).
Celestial Emporium of Benevolent Knowledge

eng
This exercise in replacement takes the name of a fictitious Chinese en-

cyclopaedia in Jorge Luis Borges’ essay The Analytical Language of John
Wilkins, which enables us to comment on the arbitrary nature of taxono-
mies. As Borges explains, every taxonomy represents a provisional attempt
by language to classify a reality that cannot be encompassed (img. 21).
52 53
Experts compulsius
Expertos compulsivos
Compulsive experts
El món de l’art ha estat el punt de partida de dos entrenaments. En el
cat
primer s’han utilitzat les categories de catalogació de Wikiart i el seu
corpus d’imatges per ensenyar a una xarxa a reconèixer estils artístics.
En aquesta situació, la visió artificial es veu forçada a enfrontar-se a la
idea d’estil i moviments artístics, i ho fa des d’un punt de vista pura-
ment formal, defugint qualsevol consideració conceptual, àmbit que,
22 Súper 8 (1996), David Domingo per definició, s’escapa de la seva comprensió. En el segon cas, els data-
sets d’entrenament són les col·leccions de diferents institucions artísti-
ques de Barcelona (MACBA, MNAC, Fundació Miró, Fundació Tàpies,
Museu Picasso i Museu del Disseny). Les imatges que conté cada col·
lecció són extremadament heterogènies. Forçada a fer-ne una síntesi,
la xarxa acaba produint interpretacions absurdes. En aquests casos, la
visió artificial ens serveix per satiritzar el discurs sobre l’art basat en la
classificació, que inevitablement homogeneïtza i simplifica la producció
artística (img. 24 i 25). Si les xarxes de classificació d’imatges són obses-
sives i compulsives, ja que tot ho relacionen amb el vocabulari que han
après, aquestes dues generen correspondències entre qualsevol imatge
i el vocabulari artístic (img. 22).
L’entrenament de xarxes de visió artificial també s’ha dut a terme en
altres àmbits. En uns casos, intentant que la xarxa treballi més sobre la
imatge que sobre els objectes representats: parlem de la identificació de
conceptes de composició o representació de l’espai (punt de fuga i ho-
ritzó, assumint el punt de vista de l’espectador ideal de la perspectiva)
o dels dispositius de creació de la imatge (per exemple, càmera web, te-
lèfon, etc.). En altres casos, entrenant la xarxa a identificar artistes par-
ticularment elusius com Cindy Sherman o Joan Fontcuberta (img. 23).
El mundo del arte ha sido el punto de partida de dos entrenamientos. En

esp
23
el primero se han utilizado las categorías de catalogación de Wikiart y su
corpus de imágenes para enseñar a una red a reconocer estilos artísticos.
En esta situación, la visión artificial se ve forzada a enfrentarse a la idea
55
de estilo y movimientos artísticos, y lo hace desde un punto de vista pu-
ramente formal, descartando cualquier consideración conceptual, ám-
bito que, por definición, escapa a su comprensión. En el segundo caso,
los datasets de entrenamiento son las colecciones de distintas institucio-
nes artísticas de Barcelona (MACBA, MNAC, Fundació Miró, Fundació
Tàpies, Museu Picasso y Museu del Disseny). Las imágenes que contie-
ne cada colección son extremadamente heterogéneas. Forzada a reali-
zar una síntesis, la red acaba produciendo interpretaciones absurdas. En
estos casos, la visión artificial nos sirve para satirizar el discurso sobre el
arte basado en la clasificación, que inevitablemente homogeneiza y sim-
plifica la producción artística (img. 24 y 25). Si las redes de clasificación 24 Són els microorganismes els que tindran l’última paraula (2017-2018), Nyamnyam
de imágenes son obsesivas y compulsivas, ya que todo lo relacionan con

el vocabulario que han aprendido, estas dos generan correspondencias
entre cualquier imagen y el vocabulario artístico (img. 22).
El entrenamiento de redes de visión artificial también se ha realizado
en otros ámbitos. En unos casos, intentado que la red trabaje más sobre
la imagen que sobre los objetos representados: hablamos de la identifi-
cación de conceptos de composición o representación del espacio (pun-
to de fuga y horizonte, asumiendo el punto de vista del espectador ideal
de la perspectiva) o de los dispositivos de creación de la imagen (por
ejemplo, cámara web, teléfono, etc.). En otros casos, entrenando la red
a identificar artistas particularmente elusivos como Cindy Sherman o
Joan Fontcuberta (img. 23).
25 Talk Trouble (2017), Claudia Pagès

The world of art provided the starting point for two trainings. In the
eng
first, the Wikiart cataloguing categories and its body of images were
used to teach a network to recognise artistic styles. In this situation, ar-
tificial vision is forced to tackle the idea of artistic style and movements
and it does so from a purely formal point of view, eschewing any con- the vocabulary they have learned, these two generate connections be-
ceptual consideration which, by definition, is beyond its understanding. tween any image and artistic vocabulary (img. 22).
In the second case, the training datasets were the collections of vari- Artificial vision networks have also been trained in other ambits:
ous art institutions in Barcelona (the MACBA, MNAC, Fundació Miró, in some cases, by attempting to make the network focus more on the
Fundació Tàpies, Museu Picasso and Museu del Disseny). The images image than on the objects depicted – we are talking about the identifi-
contained in each collection are very varied. Forced to arrive at a syn- cation of concepts to do with the composition or representation of the
thesis of them, the network ends up producing absurd interpretations. space (vanishing point and horizon, taking the ideal spectator’s point
In these cases, artificial vision enables us to satirise the discourse on art of view of the perspective) or devices for creating the image (for ex-
based on classification, which inevitably homogenises and simplifies ample, a webcam, phone, etc.); and in other cases by training the net-
artistic production (img. 24 and 25). Whereas networks for classifying work to identify particularly elusive artists such as Cindy Sherman and
images are obsessive and compulsive, since they link everything with Joan Fontcuberta (img. 23).
56 57
Una imaginació mecanitzada
Una imaginación mecanizada
A mechanised imagination
Pix2Pix és una xarxa GAN (generative adversarial network), és a dir, pen-
cat
sada per a la generació d’imatges. Com s’ha explicat abans, aquesta eina
s’ha ideat principalment per transformar l’estil d’una imatge, i funciona
a partir d’un entrenament amb parelles d’imatges –la xarxa aprendria a
fer automàticament el pas d’un tipus d’imatge de la parella a l’altra. En
els nostres experiments hem intentat produir una imaginació maquíni-
ca –la xarxa neuronal després de l’entrenament– i jugar a estimular-la
26 per provocar resultats inesperats.
Pix2Pix es una red GAN (generative adversarial network), esto es, pen-
esp
sada para la generación de imágenes. Como se ha explicado antes, esta
herramienta se ha ideado principalmente para transformar el estilo de
una imagen, y funciona a partir de un entrenamiento con pares de imá-
genes –la red aprendería a hacer automáticamente el paso de un tipo de
imagen del par al otro–. En nuestros experimentos hemos intentado pro-
ducir una imaginación maquínica –la red neuronal después del entrena-
miento– y jugar a estimularla para provocar resultados inesperados.
Pix2Pix is a GAN (generative adversarial network), in other words, it is

eng
designed to generate images. As explained earlier, this tool has been de-
signed principally to transform the style of an image. It functions on the
basis of training with pairs of images: the network uses its training to
learn to automatically go from one type of image in the pair to the other.
27 In our experiments, we have attempted to produce a machine imagina-
tion – the neural net after training – and to stimulate it to produce unex-
pected results.
59
el sentido inverso: a partir de una imagen dibujada, se genera la toma
fotográfica. Como los pares de imágenes de entrenamiento son de la fil-
mación y la rotoscopia de distintas rotondas del delta del Ebro, el tipo
de imagen fotorrealista que genera la red se corresponde con este en-
torno (carretera, señales de tránsito, paisaje plano, vegetación y cielo).
Con estas herramientas, se han buscado mecanismos para que la red
generara paisajes imaginados. Una de estas estrategias es el proceso re-
cursivo: se ha rotoscopiado automáticamente una rotonda filmada (img.
26) y esta rotoscopia generada por la red se ha vuelto a procesar para
convertirla en imagen fotográfica de nuevo (img. 27). El resultado es un
paisaje inventado por la red. La otra estrategia ha sido proporcionar a la
red solo fragmentos del paisaje rotoscopiado: enfrentada a inputs parcia-
les, la red genera una imagen entre el fotorrealismo y el glitch (img. 28).
28
Roundabouts
eng
Rotondes Using images from an earlier project (Rotondes. Panorames i fases per a
cat
A partir de les imatges d’un projecte anterior (Rotondes. Panorames i fa- un espectador en moviment, Marcel Pié / Estampa, 2017), a neural net
ses per a un espectador en moviment, Marcel Pié / Estampa, 2017) s’ha was trained to rotoscope, in other words, to convert video footage into
entrenat una xarxa neuronal a rotoscopiar, és a dir, a convertir en di- drawing. Training was also done in the opposite direction: a photo-
buix una filmació en vídeo. També s’ha dut a terme un entrenament en graphic shot was generated from a drawn image. As the training pairs
el sentit invers: a partir d’una imatge dibuixada, es genera la presa fo- of images were video footage and rotoscopes of various roundabouts in
togràfica. Com que les parelles d’imatges d’entrenament són de la fil- the Ebro Delta area, the type of photorealistic image generated by the
mació i la rotoscòpia de diferents rotondes del delta de l’Ebre, el tipus network is connected with this environment (highways, traffic signs, flat
d’imatge fotorealista que genera la xarxa es correspon a aquest entorn landscape, plant life and the sky).
(carretera, senyals de trànsit, paisatge pla, vegetació i cel). Using these tools, we sought mechanisms to make the network gener-
Amb aquestes eines, s’han buscat mecanismes per portar la xarxa a ate imaginary landscapes. One of these strategies is recursion: a filmed
generar paisatges imaginats. Una d’aquestes estratègies és el procés re- roundabout was automatically rotoscoped (img. 26) and this rotoscope
cursiu: s’ha rotoscopiat automàticament una rotonda filmada (img. 26) i generated by the network was reprocessed to turn it into a photograph-
aquesta rotoscòpia generada per la xarxa s’ha tornat a processar per con- ic image again (img. 27). The result is a landscape invented by the net-
vertir-la en imatge fotogràfica de nou (img. 27). El resultat és un paisatge work. The other strategy was to provide the network with just fragments
inventat per la xarxa. L’altra estratègia ha estat proporcionar a la xarxa of the rotoscoped landscape: faced with incomplete inputs, the network
només fragments del paisatge rotoscopiat: enfrontada a inputs parcials, generated an image that lies somewhere between photorealism and the
la xarxa genera una imatge entre el fotorealisme i el glitch (img. 28). glitch (img. 28).
Rotondas
esp
A partir de las imágenes de un proyecto anterior (Rotondes. Panorames i

fases per a un espectador en moviment, Marcel Pié / Estampa, 2017) se ha
entrenado una red neuronal a rotoscopiar, esto es, a convertir en dibujo
una filmación en vídeo. También se ha realizado un entrenamiento en
60 61
Auspicis
cat
Si Pix2Pix aprèn a generar una imatge B a partir d’una imatge A, es
poden plantejar experiments que no busquin una conversió a un es-
til determinat sinó desplaçar-se en l’espai i el temps. Inspirats per un
experiment del desenvolupador Damien Henry, hem utilitzat els foto-
grames consecutius d’un vídeo com a parelles d’entrenament, i hem
plantejat a la xarxa que aprengui a crear el fotograma següent: la pre-
dicció d’un futur immediat. Un altre experiment s’ha fet amb parelles
estereoscòpiques amb les quals la xarxa aprendria a generar la segona
imatge de la parella, és a dir, a veure la mateixa imatge des d’una pers-
pectiva lleugerament diferent (la diferència entre l’ull dret i l’ull es-
29
querre, uns sis centímetres més enllà).
Aquests entrenaments es desplacen metafòricament en el temps
i l’espai i són, en aquest sentit, auspicis, visualitzacions predictives
Cares del que passarà. Com que la predicció de comportaments és una de
cat
El parell d’imatges d’entrenament han estat, en aquest cas, les dues les obsessions de les dades massives i del monitoratge actuals, els
meitats d’una cara. La xarxa neuronal s’enfronta a completar la meitat resultats abstractes d’aquests experiments, quan es generen de ma-
d’un rostre amb la seva relació de simetria. Com en tots els casos, el re- nera recursiva (img. 30), funcionen com un comentari irònic sobre
sultat és una xarxa obsessiva que, davant de qualsevol input, genera úni- les promeses tecnològiques.
cament allò que sap. Les cares que imagina aquesta xarxa són una mena
de mitjana de totes les cares que ha vist, modificada per les característi- Auspicios
esp
ques de cada imatge d’entrada (img. 29). Si Pix2Pix aprende a generar una imagen B a partir de una imagen A,
se pueden plantear experimentos que no busquen una conversión a un
Caras estilo determinado sino un desplazamiento en el espacio y el tiempo.
esp
El par de imágenes de entrenamiento ha sido, en este caso, las dos mita- Inspirados por un experimento del desarrollador Damien Henry, hemos
des de una cara. La red neuronal se enfrenta a completar la mitad de un utilizado los fotogramas consecutivos de un vídeo como pares de entre-
rostro con su relación de simetría. Como en todos los casos, el resultado namiento, y hemos planteado a la red que aprenda a crear el fotograma
es una red obsesiva que, ante cualquier input, genera solo lo que sabe. siguiente: la predicción de un futuro inmediato. Otro experimento se ha
Las caras que imagina esta red son un especie de media de todas las ca- realizado con pares estereoscópicos con los que la red aprendería a ge-
ras que ha visto, modificada por las características de cada imagen de nerar la segunda imagen del par, esto es, a ver la misma imagen desde
entrada (img. 29). una perspectiva ligeramente distinta (la diferencia entre el ojo derecho
y el izquierdo, unos 6 cm más allá).
Faces Estos entrenamientos se desplazan metafóricamente en el tiempo y
eng
The pair of training images in this case were the two halves of a face. The el espacio y son, en este sentido, auspicios, visualizaciones predictivas
task of the neural net was to complete half of a face based on its sym- de lo que pasará. Dado que la predicción de comportamientos es una de
metrical relationship. As in all the cases, the result is an obsessive net- las obsesiones de los datos masivos y de la monitorización actuales, los
work which, in response to any input, only generates what it knows. The resultados abstractos de estos experimentos, cuando se generan de ma-
faces imagined by this network are a kind of average of all the faces it nera recursiva (img. 30), funcionan como un comentario irónico acerca
has seen, modified by the characteristics of every input image (img. 29). de las promesas tecnológicas.
62 63
L’ordre és el treball
El orden es el trabajo
Order is work
Els procediments de les xarxes neuronals artificials que hem descrit re-
cat
latius a les imatges també s’apliquen a altres camps com la generació de
text. Es poden dur a terme entrenaments amb corpus de textos, a par-
tir dels quals la xarxa aprendria a produir-ne de nous. En el nostre cas
hem entrenat una xarxa a partir d’escrits sobre educació de finals del
30
segle xix o principis del xx, d’autors com Montessori, Ferrer i Guàrdia,
Mallart i Cutó o Vigotski. En el resultat que oferim aquí hem substituït
la paraula niño per red neuronal.
Omens
eng
Pix2Pix learns to generate an image B from an image A, making it pos- Los procedimientos de las redes neuronales artificiales que hemos des-
esp
sible to consider experiments that do not seek a conversion to a par- crito relativos a las imágenes también se aplican a otros campos como
ticular style but a shift in time and space. Inspired by an experiment la generación de texto. Se pueden realizar entrenamientos con corpus
conducted by the developer Damien Henry, we used consecutive stills de textos a partir de los cuales la red aprendería a producir otros nue-
from a video as training pairs and we gave the network the task of learn- vos. En nuestro caso hemos entrenado una red a partir de escritos sobre
ing to create the next still, in other words, to predict the immediate fu- educación de finales del siglo xix y principios del xx, de autores como
ture. Another experiment was done using stereoscopic pairs with which Montessori, Ferrer i Guàrdia, Mallart i Cutó o Vygotski. En el resultado
the network was to learn to generate the second image in the pair, in que aquí ofrecemos hemos sustituido la palabra niño por red neuronal.
other words, to see the same image from a slightly different perspective
(the difference between the right eye and the left eye, a difference of The procedures of artificial neural nets in relation to images that we
eng
some 6 centimetres). have described are also applied in other fields such as text generation.
These trainings move metaphorically in time and space and are, as It is possible to train neural nets using corpuses of texts, from which the
a result, omens, predictive visualisations of what will occur. As pre- network will learn to produce new ones. In our case, we have trained a
dicting behaviour is one of the obsessions of Big Data and monitoring network using writings on education dating from the late 19th and early
today, the abstract results of these experiments, when generated in a 20th century by authors such as Montessori, Ferrer i Guàrdia, Mallart i
recursive manner (img. 30), function as an ironic commentary on the Cutó and Vygotsky. In the output presented here, we have replaced the
promises of technology. word niño (child) with red neuronal (neural net).
64 65
¿Por qué consagrar un punto de vista que
la red neuronal no se salga de las vías más
rápidas y directas? Esto también, como lo
injertamos en tallos desequilibrados, poco
desarrollados de ahí los medios que tienen
la convicción de una cadena de detalle que
la educación por el arte es una forma de te-
rapia, un medicamento que se ha de admi-
nistrar en dosis solo cuando el paciente está
enfermo. La vida de la red neuronal es más
rica y ha de ser vivida en la primera parte de
la escritura. Resulta de los ojos de la creduli-
dad de los métodos educativos que se con-
sideren más apropiados para preparar a las
redes neuronales con base a trazar ingenua-
mente, o a expresarse, pero no dejan de ser
artificiales. Son incapaces de entrar en con-
diciones de extraer y después redactar sus
antecesores, y en que la red neuronal tie-
ne que imprimir a pesar de su trabajo y de
la deducción abstracta; deberá decirse: su-
pongamos que..., dado que..., ahora bien...,
entonces... Aun cuando no se irrite frente a
la abstracción, el orden es el trabajo.
66

El Mal Alumne Pedagogías Críticas para Las Inteligencias Artificiales

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

El Mal Alumne Pedagogías Críticas para Las Inteligencias Artificiales

Uploaded by

Copyright:

Available Formats

El mal

31 Què és el que veus, YOLO9000?

YOLO9000 és una xarxa neuronal de reconeixement d’objectes entre-

YOLO9000 es una red neuronal de reconocimiento de objetos entre-

YOLO9000 is an object detection neural net trained using a dataset of

La visió artificial de reconeixement d’objectes concep les imatges de

Las imágenes dentro de la imagen

La visión artificial de reconocimiento de objetos concibe las imágenes

The images within the image

Artificial vision for recognising objects regards images in a realistic and

Trabajadores, mercancías y amantes

Cualquier imagen procesada con YOLO9000 es tanto un experimento

por YOLO9000. Son una muestra de su vocabulario y de cómo la iden-

Workers, commodities and lovers

Any image processed using YOLO9000 is both an experiment in image

visuals i la seva voluntat de “portar el món sobre les espatlles”, segons

El vocabulario de YOLO9000 está formado por 9.418 palabras estruc-

ImageNet es una base de datos de imágenes anotadas creada por la

investigadora Fei-Fei Li con las universidades de Stanford y Princeton

como un recurso para la investigación en visión artificial. Su corpus de

organizada jerárquicamente en función del significado de las palabras.

13 person / follower / Wagnerian

En la visión artificial, la elección de las palabras para describir la imagen

In artificial vision, the choice of words to describe an image is the least

automatic task, as humans are commissioned to perform it. The machine

El vocabulari emprat per YOLO9000 és un tesaurus: un glossari jerar-

En aquest exercici el corpus textual substitutori ha estat la llista de di-

ciència-ficció sobre la frontera entre éssers humans i màquines (img. 20).

Blade_Runner.srt Emporio celestial de conocimientos benévolos

Celestial Emporium of Benevolent Knowledge

This exercise in replacement takes the name of a fictitious Chinese en-

El mundo del arte ha sido el punto de partida de dos entrenamientos. En

de imágenes son obsesivas y compulsivas, ya que todo lo relacionan con

25 Talk Trouble (2017), Claudia Pagès

Pix2Pix is a GAN (generative adversarial network), in other words, it is

A partir de las imágenes de un proyecto anterior (Rotondes. Panorames i

You might also like