Portada | Dossier | Búsqueda | Agenda | Enlaces | Créditos | Suscripciones

La web semántica: una visión crítica

Lluís Codina 14/02/03

Biomedia (Barcelona). Dado que uno de los términos de moda para los próximos años con  relación a Internet va ser la web semántica, en este pequeño texto nos proponemos tres cosas: primero, intentaremos exponer las razones que justifican y orientan la web semántica, segundo informar sobre la infraestructura que se supone que la hará posible y, tercero, dar nuestra propia interpretación sobre las posibilidades reales de la web semántica a corto y medio plazo.

Qué pueden hacer los ordenadores

La web semántica (o semantic web) es, de momento, el nombre de una aspiración; el nombre de un objetivo muy ambicioso que, de cumplirse, cambiaría de forma radical la Web tal como la conocemos hoy. ¿En qué consiste esta aspiración? Ni más ni menos que en conseguir que las páginas que forman la Web dejen de ser simples cadenas de caracteres para los ordenadores y se conviertan en textos con sentido, es decir, con semántica,  tal como, de hecho, lo son para los seres humanos.

¿Porqué un objetivo semejante? Muy sencillo: tal como se codifican las páginas web actuales, principalmente mediante el lenguaje HTML, tienen muy poco sentido para las máquinas. En efecto, si vemos el código fuente de una página web actual, encontramos, por ejemplo, un trozo de código como el siguiente:


<b><i>Cómo conseguir la paz mundial</i></b>

cuando el ordenador lo interprete, a través del programa navegador, aparecerá como un texto en negrita y cursiva, como éste:


Cómo conseguir la paz mundial

Con esto casi se acaba casi todo lo que es capaz de hacer un ordenador con ese texto. Otra cosa que pueden hacer los ordenadores es construir índices con las palabras que aparecen en las páginas web. Después, cuando alguien envía una pregunta a un motor de búsqueda, lo que hace este último  es comparar las palabras de la pregunta con las palabras de su índice. Por ejemplo, supongamos que a un gobernante, a punto de embarcarse en una peligrosa aventura militar le embargan las dudas a causa de la decidida oposición ciudadana a la guerra y decide indagar en Internet para ver si encuentra documentos sobre temas de guerra y paz.

Puede que entre en Google y ponga, por ejemplo, la siguiente pregunta: «¿son las guerras inevitables?» esperando encontrar ideas sobre el tema. Lo que hará Google es comparar las palabras de su pregunta, después de quitar los términos más comunes como «son» y «las» con las palabras de su índice. Si encuentra un documento que tenga la palabra «guerras» y la palabra «inevitables», lo devolverá como respuesta. Si no, pues nada. Ya está, ahora si que ya hemos visto prácticamente todo lo que pueden hacer los ordenadores que tenga que ver con procesamiento de información textual.

¿Un nuevo objetivo?

Con estas limitaciones, la búsqueda en Internet, como todo el mundo sabe, está repleta de frustraciones. Si alguien busca por «caballos», no encontrará nada que trate sobre «yeguas». Si alguien busca sobre cómo evitar la guerra, no encontrará un documento sobre cómo conseguir la paz, etc. La web semántica quiere solucionar esto. ¿Les suena? A mi sí, a mi me suena a inteligencia artificial. Por tanto, aunque no quieran llamarlo así, están buscando el mismo objetivo, a saber, que los ordenadores entiendan que un documento sobre «yeguas» puede ser muy relevante para una necesidad de información sobre «caballos», y que la semántica de una pregunta como «¿es posible evitar la guerra?» es la misma que la de una pregunta como «¿es posible conseguir la paz?».

Además, ya puestos, se espera que los ordenadores puedan desarrollar tareas de gestión que requieran interpretar información y tomar decisiones. Por ejemplo, supongamos que yo sé que necesitaré tomar un vuelo para digamos, una bella ciudad Galicia el día tal dentro de dos semanas y que necesitaré regresar a Barcelona tres días después. En lugar de meterme en la web de dos o tres compañías aéreas para buscar las mejores ofertas y horarios y reservar billetes y después en Google para buscar un hotel, etcétera, etcétera, lo que se espera que pueda hacer es entrar en mi asistente digital personal y encargarle la tarea. Mi asistente digital será un programa que conocerá más o menos mis gustos, sabrá, por ejemplo, que no me hace feliz tirar el dinero, así que elegirá la mejor oferta económica, pero sabrá que no soy masoquista y no me reservará un vuelo que salga a las 4 de la mañana, etcétera. Tomará los datos personales que necesite y cerrará las transacciones con los agentes de software de la empresa de aviación y del hotel y, por último, hará las anotaciones correspondientes en mi agenda, para que no se me olvide nada y no llegue tarde al aeropuerto. ¿Qué les parece? ¿Fácil, no? Ni hablar, nos están hablando, ni más ni menos que de un objetivo en el que la informática ha fracasado totalmente y sin ningún matiz en los últimos cuarenta años: la inteligencia artificial, ¿por qué va a funcionar ahora?

Infraestructura

Los medios con los cuales se supone que se conseguirá la web semántica son los siguientes: primero, un nuevo lenguaje de codificación de páginas, un nuevo lenguaje de marcado. Este lenguaje se denomina XML. Con XML se pueden diseñar lenguajes de marcado muy estructurados y muy explícitos en los cuales, en lugar de etiquetas como <b> e <i>, habrá etiquetas como <título>, <autor>, <ciudad>, etc. Como, para cada tipo de información o de documento harán falta etiquetas específicas, por ejemplo, en las webs de las compañías aéreas necesitarán etiquetas como <vuelo> <hora de salida>, <destino>, etc., se ha creado un metalenguaje, el XML, que permite definir lenguajes específicos, es decir conjuntos de etiquetas específicos para cada necesidad de información. Por ejemplo, los editores de diarios disponen ya de su propio conjunto de etiquetas, así como los matemáticos para expresar ecuaciones, etc.

El segundo elemento con el que se cuenta son los metadatos. Los metadatos son información sobre la información. En realidad, es una antigua fórmula. ¿Cómo busca usted un libro en la biblioteca? Primero busca en el catálogo, ya sea catálogo en papel o en ordenador. Los catálogos de las bibliotecas son metadatos. ¿Cómo busca usted la buena película de la semana que, por equivocación, han programado en televisión? Consultando una guía de televisión, en el diario o dónde sea. Esas guías son metadatos, etc.

Las páginas web ya tienen metadatos. Al menos, suelen tener el metadato título, en forma de etiqueta <title> en una zona invisible para las personas, pero visible para los ordenadores. Además, algunas páginas, muy pocas, suelen tener otros metadatos, como <keyword>, <description>, etcétera. Además, existe una ambiciosa norma de alcance internacional que proporciona una lista unificada y normalizada de hasta quince metadatos del tenor de los ya comentados para que los editores y autores que lo deseen las incluyan en sus páginas web. La idea es simple: si las páginas web tuvieran metadatos del tipo <título>, <autor>, <tema>, <lugar de publicación>, etcétera, los usuarios podríamos  hacer preguntas mucho más precisas a los motores de búsqueda. Podríamos, por ejemplo, hacer peticiones de información de este tenor: «búscame documentos publicados en tal o cual lugar y que traten de este y este tema, bajo este punto de vista».

¿Cuál es el problema? Pues que los metadatos los ponen –y aquí está el detalle-  los propios autores de los documentos. ¿Y qué pasa con los autores de los documentos? Varias cosas: primero, no están entrenados para poner metadatos. Ustedes ríanse, pero se necesita mucho entrenamiento para saber elegir buenas palabras clave. En segundo lugar, los autores –no todos, ni mucho menos- mienten. Así de sencillo. Quieren que sus páginas web den muy alto en los buscadores, de manera que colocan treinta veces la misma palabra, con pequeñas variantes, para que den muy alto en los rankings de los motores de búsqueda para los temas que a ellos les interesa, aunque su página no tenga en realidad mucha calidad. En tercer lugar, las personas nos equivocamos, y los autores de las páginas web se equivocan: se olvidan de poner metadatos, los ponen mal, los ponen en unas páginas sí y en otras no, se equivocan en la ortografía, etc. Conclusión: casi ningún motor de búsqueda se fía de los metadatos para buscar o para ordenar los resultados.

Además, los metadatos actuales no tienen ni semántica ni sintaxis. Para dotarlos de ambas cosas, se han creado otros lenguajes, otras normas. La más importante se denominada RDF (Resource Description Framework). Esta norma especifica una especie de gramática para que los autores de páginas web puedan describir las propiedades semánticas de los documentos en una notación estándar. Se trata de una notación basada en nociones muy básicas. Hay objetos y los objetos tienen propiedades. Para describir el contenido de una página web, entonces, se puede utilizar la norma RDF mediante etiquetas XML para expresar los temas de un documentos, entre otras cosas. Así, que la gran esperanza de la web semántica se basa en tres cosas: XML para hacer los documentos más explícitos; metadatos (expresados también en metadatos) para hacer los documentos más fáciles de representar, indicar y buscar; una nueva generación de software que sepa explotar las dos cosas precedentes.

Posibilidades reales a corto y a medio plazo

El lector ya habrá deducido que, según la opinión de quien esto escribe, las posibilidades a corto y medio plazo de la web semántica son muy reducidas. Efectivamente. Una cosa es que se trate de un objetivo loable y otra que se trate de un objetivo factible. Permítanme un ejemplo muy significativo. Las personas, los gobiernos y las ONG deben perseguir el fin de la pobreza en el mundo y la instauración plena de los derechos humanos en todos los rincones del planeta. Es un ejemplo de fin loable, con el que todos debemos comprometernos, pero no parece alcanzable ni a medio ni a corto plazo. ¿Debe por ello abandonarse? Ni mucho menos. Todo lo contrario. Debe perseguirse con ahínco, porque es la única forma de conseguir progresos en tales terrenos, aunque sean parciales.

El problema con la web semántica, tal como la presentan sus defensores, es la inmensa cantidad de ingenuidad que destila. Por lo menos, los programas contra la pobreza y a favor de los derechos humanos se han sofisticado bastante en las últimas décadas. Se marcan objetivos medibles, se buscan alicientes para los actores implicados, se cuenta con las limitaciones reales, se dispone de modelos económicos y jurídicos, etcétera. De este modo, los progresos, aunque parciales, son posibles, sostenidos y constatables en diversos terrenos y los miles o millones de personas beneficiadas con tales políticas tienen nombre y apellidos.

¿Qué sucede con la web semántica tal como la presentan sus defensores? No hay por donde cogerla. Empecemos por el etiquetado XML. ¿Porqué razón, millones de creadores de páginas web se van a poner a estudiar el  lenguaje XML, absurdamente difícil y abstracto si pueden publicar en el sencillísimo HTML? Sigamos con los metadatos: si casi nadie usa metadatos ahora, porqué razón va a enloquecer todo el mundo de deseo de ponerlos en sus páginas y expresados además en una norma mucho más complicada, como RDF?

Por último, si la inteligencia artificial suma ya casi cuarenta años de fracasos en lograr que los ordenadores piensen, ¿por qué va a tener éxito ahora, así, de repente?

Por tanto, las posibilidades de que la web semántica, sin que se produzca antes un cambio de paradigma en las ciencias de la computación, sea una realidad son ridículas. En los próximos años dispondrán ustedes de un test muy eficiente para medir a falsos gurús: cuando vean  a alguien que les habla de los grandes beneficios para la humanidad que, justo pasado mañana, nos traerá la web semántica, no lo duden, o no sabe de lo que habla o únicamente le interesa llamar la atención o ambas cosas.

Por último, no nos engañemos: el objetivo es magnífico. Pero es importante no crear expectativas absurdas, y sobre todo, aunque solamente fuera por estética, ni siquiera por ética, habría que evitar  volver a la irracionalidad de los primeros años de la web. Fueron unos años de plomo en lo que se refiere al pensamiento crítico: no había día que un chiflado o un desaprensivo no anunciara una supuesta ley histórica, económica, social o política que Internet no rompiera. Eso produjo, entre otras cosas, la burbuja de Internet, mucha especulación y muchos recursos tirados de forma ridícula por la ventana. Pero, sobre todo, fue un fracaso de la razón. No volvamos a caer otra vez en lo mismo.

Lluís Codina es profesor titular de Ciencias de la Documentación en la Universidad Pompeu Fabra y miembro del Observatorio de la Comunicación Científica

Más información en Biomedia:
Scielo, una metodología para la publicación electrónica (5/12/01)
La Biblioteca Pública de Ciencia: una iniciativa noble que requiere un poco más de reflexión. Juan Carlos López García (21/09/01)

Más información en la red:
Semantic Web Science Foundation: http://swsf.semanticweb.org
Segunda Conferencia Internacional sobre Web Semántica (ISWC2003): http://iswc2003.semanticweb.org
James Hendler: «Science and the Semantic Web», Science 2003; 299 (5606): 520-521:
http://www.sciencemag.org/cgi/content/summary/299/5606/520

WWW Consortium. Semantic Web: http://www.w3.org/2001/sw/
Tim Berners-Lee, James Hendler and Ora Lassila: «The Semantic Web. A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities», Scientific American 2001: http://www.sciam.com/article.cfm?colID=1&articleID=00048144-10D2-1C70-84A9809EC588EF21

Arriba

Portada


Dossier | Búsqueda | Agenda | Enlaces | Créditos | Suscripciones

(C) BIOMEDIA es una publicación del OCC (UPF) y RUBES EDITORIAL