Los fanáticos son mejores que la tecnología en la organización de información en línea

 

Felicitaciones a los fans. Uno de los nominados para los Premios Hugo de este año es Archive of Our Own, un archivo de fanfiction que contiene casi 5 millones de fanworks, aproximadamente del tamaño de la Wikipedia en inglés, y varios años más jóvenes. No solo los fanfics, fanart, fanvids y otros fanworks, por impresionantes que sean, hacen de Archive of Our Own uno de los mayores honores en ciencia ficción y fantasía. También es la arquitectura del sitio en sí.

 

En un momento en el que estamos tratando de descubrir cómo hacer que Internet sea habitable para los humanos, sin explotar a otros humanos en el proceso, AO3 (AO3, a sus amigos) ofrece algo que el resto de la tecnología podría aprender.

 

Aquí hay un problema que los usuarios de AO3, como el resto de Internet, encuentran todos los días: ¿Cómo encuentra una cosa en particular que le interesa, mientras filtra todas las otras cosas que no le interesan? La mayoría de los sitios web terminan con etiquetas de algún tipo. Es posible que busque en la base de datos de revistas médicas los artículos etiquetados como “cataratas”, busque en el sitio de fotos de archivo las imágenes etiquetadas como “empresarios” o haga clic en un hashtag de redes sociales para ver qué dice la gente sobre el último episodio de #GameOfThrones.

 

 

 

Las etiquetas son útiles pero también tienen problemas. Aunque “cataratas”, “empresarios” y #GameOfThrones pueden parecer las etiquetas más obvias para mí, alguien más podría haber etiquetado estos mismos temas como “cirugía de cataratas”, “empresario” y #GoT. Otra persona podría haberse ido con “esclerosis nuclear” (un tipo específico de catarata), “vida de oficina” y #Daenerys. Y así.

 

Hay dos formas principales de abordar el problema de la proliferación de marcado. Una es ser completamente laissez-faire: deje que los carteles etiqueten lo que quieran y espero que los usuarios puedan averiguar qué palabras deben buscar. Es fácil de configurar, pero tiende a provocar una explosión de etiquetas, ya que los carteles se apilan en más etiquetas en caso de que los buscadores no sepan cuál es el mejor. Las etiquetas de laissez-faire son comunes en las redes sociales; Si publico una foto estética de un libro que estoy leyendo en Instagram, tengo más de 20 etiquetas relevantes para elegir, como #book #books #readers #reader #reading #reads #goodreads #read #booksofig #readersofig #booksofinstagram #readersofinstagram #readstagram #bookstagram #bookshelf #bookshelves #bookshelfie #booknerd #bookworm #bookish #bookphotography #bookcommunity #booklover #booksbooksbooks #bookstagrammer #booktography #readers #readabook #readmorebooks #readingtime #alwaysreading #igreads #instareads #amreading “Estoy leyendo” …  pero párrafos completos de etiquetas.

 

 

Las etiquetas son útiles pero también tienen problemas. Aunque “cataratas”, “empresarios” y #GameOfThrones pueden parecer las etiquetas más obvias para mí, alguien más podría haber etiquetado estos mismos temas como “cirugía de cataratas”, “empresario” y #GoT. Otra persona podría haberse ido con “esclerosis nuclear” (un tipo específico de catarata), “vida de oficina” y #Daenerys. Y así.

 

La otra solución a la proliferación de etiquetas de la competencia es implementar un sistema de etiquetado rígido controlado de arriba hacia abajo. Al igual que Dewey Decimal System tiene una única subcategoría para Shakespeare, los navegadores de bibliotecas pueden encontrar Hamlet cerca de Romeo y Julieta, los sistemas de etiquetado rígido definen una lista única de etiquetas que no se superponen y requieren que todos los usen. Son más populares en las bases de datos profesionales y técnicas que en las redes sociales públicas, pero en teoría son una buena idea: si solo permites la etiqueta “catarata”, nadie tendrá que duplicar esfuerzos al buscar también en ” Cataratas “y” Cirugía de cataratas “.

 

El problema es que las etiquetas rígidas requieren esfuerzo para aprender; es difícil convencer al público en general para que memorice una taxonomía gigantesca. Además, se vuelven obsoletos. Los sistemas de etiquetado son una forma de imponer un orden en el mundo real, y el mundo no deja de moverse y cambiar una vez que haya configurado sus buenas categorías. Tome palabras relacionadas con el género y la sexualidad: la forma en que hablamos sobre estos temas ha evolucionado mucho en las últimas décadas, pero las bases de datos de bibliotecas y médicas han sido más lentas para mantenerse al día.

 

Archive of Our Own no tiene ninguno de estos problemas. Utiliza un tercer sistema de etiquetado, uno que combina los mejores elementos de ambos estilos.

 

En AO3, los usuarios pueden colocar las etiquetas que deseen. (Autocompletar está ahí para ayudar, pero no tienen que usarlo). Luego, detrás de escena, los voluntarios humanos buscan cualquier etiqueta nueva que nadie más haya usado antes y las combina con cualquier etiqueta existente existente, un proceso conocido como la lucha de etiquetas. Arrancar significa que no necesitas saber si la etiqueta más popular para tu nuevo fanfic con Sherlock Holmes y John Watson es Johnlock o Sherwatson o John / Sherlock o Sherlock / John o Holmes / Watson o cualquier otra cosa. Y definitivamente no necesitas etiquetar tu fic con todos ellos por si acaso. En su lugar, elige el que más te guste, los wranglers de la etiqueta hacen su trabajo detrás de la escena, y los lectores que busquen cualquiera de estos sinónimos aún podrán encontrarte.

 

 

El truco de AO3 es que involucra a los seres humanos por diseño, aproximadamente 350 voluntarios voluntarios de etiquetas en 2019, de 160 personas en 2012, quienes pasan unas pocas horas a la semana para decidir si las nuevas etiquetas deben tratarse como sinónimos o subconjuntos de etiquetas existentes, o simplemente dejado solo Las Sillas de Discurso de Etiquetas de AO3 estiman que el grupo está en camino de disputar alrededor de 2.7 millones de etiquetas nunca antes usadas en 2019, frente a los 2.4 millones en 2018.

 

Laissez-faire y los sistemas de etiquetado rígido fallan porque suponen demasiado: que los usuarios pueden crear un orden desde un sistema completamente abierto o que una taxonomía predefinida puede abarcar todo tipo de etiquetas que una persona pueda desear. Cuando estas suposiciones no se resuelven, siempre parece ser culpa del usuario. Las creencias de AO3 sobre la naturaleza humana son más pragmáticas, como un arquitecto que diseña caminos donde los peatones han comenzado a desgastar el césped, reconociendo cómo la variación y la estandarización pueden encajar. El sistema Wrangler es uno en el que el comportamiento normal del usuario puede tener éxito, un sistema que acepta que los usuarios necesitan periódicamente la ayuda de alguien con una vista de pájaro de la imagen general.

 

Los usuarios aprecian esta ayuda. De acuerdo con la Silla briar_pipe de Tag Wrangling, “A veces obtenemos usuarios que vienen de Instagram o Tumblr u otro sitio no moderado. Podemos decir que son nuevos en AO3 porque se etiquetan con cada variación de un concepto: abreviaturas, diferentes órdenes de palabras, todo Me encanta cómo se excitan las personas cuando se dan cuenta de que no tienen que hacer eso aquí “.

 

Cuando hice un tweet sobre las etiquetas de AO3 hace un tiempo, recibí muchos comentarios de personas que deseaban que sus sistemas de etiquetado profesional fueran tan buenos, incluidos usuarios de sitios de noticias, catálogos de bibliotecas, sitios web de ventas comerciales, sitios web de asistencia al cliente y PubMed prominente base de datos de investigación médica). Los otros sitios web que se compararon favorablemente con AO3 también estaban en el lado del espectro y usaron un sistema similar de etiqueta facilitada por el hombre: librarything (un sitio web donde puedes enumerar todos tus libros) y Danbooru (un tablero de imágenes de anime). Pero, podríamos preguntarnos, ¿por qué usar humanos? ¿No podría el aprendizaje automático o la IA u otra palabra de moda de alta tecnología cambiar las etiquetas?

 

 

Una razón para los humanos es que AO3 comenzó a desarrollar sus rutinas en 2007, cuando la tecnología no era tan avanzada y tenían muchos voluntarios dispuestos. Pero incluso ahora, los manipuladores de etiquetas se muestran escépticos de que una máquina pueda asumir sus tareas. Un wrangler, que va por el mango de spacegandalf, me señaló el ejemplo de un personaje de un drama de audio llamado The Penumbra Podcast que no tenía un nombre oficial en el texto para varios episodios después de su presentación. Sin embargo, las personas escribían fanfic (y trataban de etiquetarlo por carácter) antes de tener algún nombre para etiquetarlo.

 

Debido a que spacegandalf había escuchado este podcast (AO3 recurre y asigna intencionalmente a los fanáticos de la etiqueta que son miembros de los fandoms por los que disputan), tenían el contexto necesario para saber que “Big Guy Jacket Man o como sea que se llame” se refirió a la misma persona como su apodo un poco más oficial “El hombre de la chaqueta marrón” y su último nombre oficial, Jet Sikuliaq (y que ninguno de estos nombres debe confundirse con un personaje misteriosamente diferente de otro drama de audio, el Hombre del bronceado Chaqueta de Bienvenido a Night Vale).

 

Con todas estas etiquetas correctamente desordenadas, no solo puedo encontrar “Big Guy Jacket Man” y “The Man in the Brown Jacket” y “Jet Sikuliaq” en los mismos resultados de búsqueda, sino que también puedo profundizar y buscar crossover fic que contiene tanto el Hombre con la chaqueta marrón como el Hombre con la chaqueta marrón, y, uno espera, un mundo entero de amigos con chamarras de colores. Lamentablemente, no hay ninguno, pero al menos sé que tengo una respuesta concluyente.

 

Sin los wranglers de la etiqueta, me quedaría atascado haciendo una búsqueda normal de “jacket” o “jacket man”, el primero de los cuales me da cientos de resultados sobre otros personajes irrelevantes que llevan una chaqueta esta vez, y el segundo de lo que pierde algunos resultados genuinamente relevantes sobre nuestra chaqueta de hombres de interés.

 

Otra de las Sillas de Discurso de Etiqueta, Qem, también piensa que la disputa de etiqueta de máquina es poco probable, apuntando a la traducción automática como una historia de advertencia. “Hay términos en fandom que, aunque comúnmente se entienden en contexto entre los fanáticos, no lo serían cuando lo sacas del contexto fandom”, dice Qem. Por ejemplo, palabras aparentemente inocuas como “barra oblicua” y “limón” no se refieren a un signo de puntuación o a una fruta cítrica en contextos de fannish, y los manipuladores de etiquetas ya saben que la traducción automática solo puede manejar lo literal, no los significados subculturales. El copresidente de Qem, briar_pipe, es un poco más optimista: “Personalmente lo creo podría ser interesante tener asociaciones AI / humanos para este tipo de trabajo de datos, pero debe haber seres humanos que estén al tanto de las limitaciones de la IA y estén dispuestos a llamar a los AI sobre errores, o de lo contrario esa asociación es inútil “.

 

 

AI ciertamente tiene limitaciones. Parece que siempre hay un nuevo informe de productos que afirman ser AI (Amazon Mechanical Turk, M de Facebook, Google Duplex, el escáner de recibos de Expensify), pero de hecho a menudo involucran hordas de humanos mal pagados, no compensados e invisibilizados que realizan el “trabajo fantasma” que se atribuye a la IA.

 

La etiqueta wranglers en AO3 no se pagan en absoluto. La organización matriz del archivo, la Organización para Obras Transformativas, es una organización sin fines de lucro, y todos los involucrados en el proyecto son voluntarios. Pero también es difícil considerarlos “explotados” como los humanos falsos de la IA. Los Wranglers son más como los voluntarios que editan Wikipedia o moderan los grupos de Facebook. En lugar de trabajar para una corporación sin rostro que preferiría fingir que son máquinas, estos voluntarios se benefician de las mismas comunidades a las que sirven. Esta naturaleza orientada a la comunidad está en el corazón del éxito de AO3: fue creada por fanáticos que se cansaron de las políticas de eliminación caprichosa de los sitios de alojamiento de fanfiction con fines de lucro y decidieron comprar sus propios servidores, aprender a codificar y crear un sitio que era exactamente lo que querían, incluido un sistema de etiquetado increíblemente funcional que funciona en base a bases de datos profesionales y plataformas sociales de miles de millones de dólares.

 

Cuando los tecnólogos lamentan el creciente dominio de Internet por parte de algunas grandes corporaciones, hay una tendencia a buscar contrainspiración, por así decirlo, en proyectos de colaboración como Wikipedia o software de código abierto. Pero los fanáticos también han estado creando cosas libremente entre sí desde los primeros días de Internet, y fandom contiene mucha gente de demografía poco representada en estos proyectos analizados con mayor frecuencia, tal vez tanto una razón del éxito de Archive of Our Own como una razón. Que este éxito ha sido pasado por alto. Ya sea que gane el Hugo o no, esta nominación es un paso para atraer a AO3 la atención que merece.

 

Fuente: Gretchen McCulloch/ Wired