|
|||||
| Portada | Dossier | Búsqueda | Agenda | Enlaces | Créditos | Suscripciones La web semántica: una visión crítica
Biomedia (Barcelona). Dado que uno de los términos de moda para los próximos años con relación a Internet va ser la web semántica,
en este pequeño texto nos proponemos tres cosas: primero, intentaremos exponer
las razones que justifican y orientan la web semántica, segundo informar sobre
la infraestructura que se supone que la hará posible y, tercero, dar nuestra
propia interpretación sobre las posibilidades reales de la web semántica a
corto y medio plazo. Qué pueden
hacer los ordenadores La web semántica (o semantic
web) es, de momento, el nombre de una aspiración; el nombre de un objetivo
muy ambicioso que, de cumplirse, cambiaría de forma radical la Web tal como la
conocemos hoy. ¿En qué consiste esta aspiración? Ni más ni menos que en
conseguir que las páginas que forman la Web dejen de ser simples cadenas de
caracteres para los ordenadores y se conviertan en textos con sentido, es
decir, con semántica, tal como, de
hecho, lo son para los seres humanos. ¿Porqué un objetivo semejante? Muy sencillo: tal como se
codifican las páginas web actuales, principalmente mediante el lenguaje HTML, tienen
muy poco sentido para las máquinas. En efecto, si vemos el código fuente de una
página web actual, encontramos, por ejemplo, un trozo de código como el
siguiente: … cuando el ordenador lo interprete, a través del programa
navegador, aparecerá como un texto en negrita y cursiva, como éste: … Con esto casi se acaba casi todo lo que es capaz de hacer
un ordenador con ese texto. Otra cosa que pueden hacer los ordenadores es
construir índices con las palabras que aparecen en las páginas web. Después,
cuando alguien envía una pregunta a un motor de búsqueda, lo que hace este
último es comparar las palabras de la
pregunta con las palabras de su índice. Por ejemplo, supongamos que a un
gobernante, a punto de embarcarse en una peligrosa aventura militar le embargan
las dudas a causa de la decidida oposición ciudadana a la guerra y decide
indagar en Internet para ver si encuentra documentos sobre temas de guerra y
paz. Puede que entre en Google y ponga, por ejemplo, la
siguiente pregunta: «¿son las guerras inevitables?» esperando encontrar ideas
sobre el tema. Lo que hará Google es comparar las palabras de su pregunta,
después de quitar los términos más comunes como «son» y «las» con las palabras
de su índice. Si encuentra un documento que tenga la palabra «guerras» y la
palabra «inevitables», lo devolverá como respuesta. Si no, pues nada. Ya está,
ahora si que ya hemos visto prácticamente todo lo que pueden hacer los
ordenadores que tenga que ver con procesamiento de información textual. ¿Un nuevo
objetivo? Con estas limitaciones, la búsqueda en Internet, como
todo el mundo sabe, está repleta de frustraciones. Si alguien busca por
«caballos», no encontrará nada que trate sobre «yeguas». Si alguien busca sobre
cómo evitar la guerra, no encontrará un documento sobre cómo conseguir la paz,
etc. La web semántica quiere solucionar esto. ¿Les suena? A mi sí, a mi me suena
a inteligencia artificial. Por tanto, aunque no quieran llamarlo así, están
buscando el mismo objetivo, a saber, que los ordenadores entiendan que un
documento sobre «yeguas» puede ser muy relevante para una necesidad de
información sobre «caballos», y que la semántica de una pregunta como «¿es
posible evitar la guerra?» es la misma que la de una pregunta como «¿es posible
conseguir la paz?». Además, ya puestos, se espera que los ordenadores puedan
desarrollar tareas de gestión que requieran interpretar información y tomar
decisiones. Por ejemplo, supongamos que yo sé que necesitaré tomar un vuelo
para digamos, una bella ciudad Galicia el día tal dentro de dos semanas y que
necesitaré regresar a Barcelona tres días después. En lugar de meterme en la web
de dos o tres compañías aéreas para buscar las mejores ofertas y horarios y
reservar billetes y después en Google para buscar un hotel, etcétera,
etcétera, lo que se espera que pueda hacer es entrar en mi asistente digital
personal y encargarle la tarea. Mi asistente digital será un programa que
conocerá más o menos mis gustos, sabrá, por ejemplo, que no me hace feliz tirar
el dinero, así que elegirá la mejor oferta económica, pero sabrá que no soy
masoquista y no me reservará un vuelo que salga a las 4 de la mañana, etcétera.
Tomará los datos personales que necesite y cerrará las transacciones con los
agentes de software de la empresa de aviación y del hotel y, por último,
hará las anotaciones correspondientes en mi agenda, para que no se me olvide
nada y no llegue tarde al aeropuerto. ¿Qué les parece? ¿Fácil, no? Ni hablar,
nos están hablando, ni más ni menos que de un objetivo en el que la informática
ha fracasado totalmente y sin ningún matiz en los últimos cuarenta años: la
inteligencia artificial, ¿por qué va a funcionar ahora? Infraestructura Los medios con los cuales se supone que se conseguirá la
web semántica son los siguientes: primero, un nuevo lenguaje de codificación de
páginas, un nuevo lenguaje de marcado. Este lenguaje se denomina XML. Con XML
se pueden diseñar lenguajes de marcado muy estructurados y muy explícitos en
los cuales, en lugar de etiquetas como <b> e <i>, habrá etiquetas
como <título>, <autor>, <ciudad>, etc. Como, para cada tipo
de información o de documento harán falta etiquetas específicas, por ejemplo,
en las webs de las compañías aéreas necesitarán etiquetas como <vuelo>
<hora de salida>, <destino>, etc., se ha creado un metalenguaje, el
XML, que permite definir lenguajes específicos, es decir conjuntos de etiquetas
específicos para cada necesidad de información. Por ejemplo, los editores de
diarios disponen ya de su propio conjunto de etiquetas, así como los
matemáticos para expresar ecuaciones, etc. El segundo elemento con el que se cuenta son los
metadatos. Los metadatos son información sobre la información. En realidad, es
una antigua fórmula. ¿Cómo busca usted un libro en la biblioteca? Primero busca
en el catálogo, ya sea catálogo en papel o en ordenador. Los catálogos de las
bibliotecas son metadatos. ¿Cómo busca usted la buena película de la semana
que, por equivocación, han programado en televisión? Consultando una guía de
televisión, en el diario o dónde sea. Esas guías son metadatos, etc. Las páginas web ya tienen metadatos. Al menos, suelen
tener el metadato título, en forma de etiqueta <title> en una zona
invisible para las personas, pero visible para los ordenadores. Además, algunas
páginas, muy pocas, suelen tener otros metadatos, como <keyword>,
<description>, etcétera. Además, existe una ambiciosa norma de alcance
internacional que proporciona una lista unificada y normalizada de hasta quince
metadatos del tenor de los ya comentados para que los editores y autores que lo
deseen las incluyan en sus páginas web. La idea es simple: si las páginas web
tuvieran metadatos del tipo <título>, <autor>, <tema>,
<lugar de publicación>, etcétera, los usuarios podríamos hacer preguntas mucho más precisas a los
motores de búsqueda. Podríamos, por ejemplo, hacer peticiones de información de
este tenor: «búscame documentos publicados en tal o cual lugar y que traten de
este y este tema, bajo este punto de vista». ¿Cuál es el problema? Pues que los metadatos los ponen –y
aquí está el detalle-
los propios autores de los documentos. ¿Y qué pasa con los autores de
los documentos? Varias cosas: primero, no están entrenados para poner
metadatos. Ustedes ríanse, pero se necesita mucho entrenamiento para saber
elegir buenas palabras clave. En segundo lugar, los autores –no todos, ni mucho
menos- mienten. Así de sencillo. Quieren que sus páginas web
den muy alto en los buscadores, de manera que colocan treinta veces la misma
palabra, con pequeñas variantes, para que den muy alto en los rankings
de los motores de búsqueda para los temas que a ellos les interesa, aunque su
página no tenga en realidad mucha calidad. En tercer lugar, las personas nos
equivocamos, y los autores de las páginas web se equivocan: se olvidan de poner
metadatos, los ponen mal, los ponen en unas páginas sí y en otras no, se
equivocan en la ortografía, etc. Conclusión: casi ningún motor de búsqueda se
fía de los metadatos para buscar o para ordenar los resultados. Además, los metadatos actuales no tienen ni semántica ni
sintaxis. Para dotarlos de ambas cosas, se han creado otros lenguajes, otras
normas. La más importante se denominada RDF (Resource Description Framework). Esta norma especifica una especie
de gramática para que los autores de páginas web puedan describir las
propiedades semánticas de los documentos en una notación estándar. Se trata de
una notación basada en nociones muy básicas. Hay objetos y los objetos tienen
propiedades. Para describir el contenido de una página web, entonces, se puede
utilizar la norma RDF mediante etiquetas XML para expresar los temas de un
documentos, entre otras cosas. Así, que la gran esperanza de la web semántica
se basa en tres cosas: XML para hacer los documentos más explícitos; metadatos
(expresados también en metadatos) para hacer los documentos más fáciles de
representar, indicar y buscar; una nueva generación de software que sepa
explotar las dos cosas precedentes. Posibilidades
reales a corto y a medio plazo El lector ya habrá deducido que, según la opinión de
quien esto escribe, las posibilidades a corto y medio plazo de la web semántica
son muy reducidas. Efectivamente. Una cosa es que se trate de un objetivo
loable y otra que se trate de un objetivo factible. Permítanme un ejemplo muy
significativo. Las personas, los gobiernos y las ONG deben perseguir el fin de
la pobreza en el mundo y la instauración plena de los derechos humanos en todos
los rincones del planeta. Es un ejemplo de fin loable, con el que todos debemos
comprometernos, pero no parece alcanzable ni a medio ni a corto plazo. ¿Debe
por ello abandonarse? Ni mucho menos. Todo lo contrario. Debe perseguirse con
ahínco, porque es la única forma de conseguir progresos en tales terrenos,
aunque sean parciales. El problema con la web semántica, tal como la presentan
sus defensores, es la inmensa cantidad de ingenuidad que destila. Por lo menos,
los programas contra la pobreza y a favor de los derechos humanos se han
sofisticado bastante en las últimas décadas. Se marcan objetivos medibles, se
buscan alicientes para los actores implicados, se cuenta con las limitaciones
reales, se dispone de modelos económicos y jurídicos, etcétera. De este modo,
los progresos, aunque parciales, son posibles, sostenidos y constatables en
diversos terrenos y los miles o millones de personas beneficiadas con tales
políticas tienen nombre y apellidos. ¿Qué sucede con la web semántica tal como la presentan
sus defensores? No hay por donde cogerla. Empecemos por el etiquetado XML.
¿Porqué razón, millones de creadores de páginas web se van a poner a estudiar
el lenguaje XML, absurdamente difícil y
abstracto si pueden publicar en el sencillísimo HTML? Sigamos con los
metadatos: si casi nadie usa metadatos ahora, porqué razón va a enloquecer todo
el mundo de deseo de ponerlos en sus páginas y expresados además en una norma
mucho más complicada, como RDF? Por último, si la inteligencia artificial suma ya casi
cuarenta años de fracasos en lograr que los ordenadores piensen, ¿por qué va a
tener éxito ahora, así, de repente? Por tanto, las posibilidades de que la web semántica, sin
que se produzca antes un cambio de paradigma en las ciencias de la computación,
sea una realidad son ridículas. En los próximos años dispondrán ustedes de un
test muy eficiente para medir a falsos gurús: cuando vean a alguien que les habla de los grandes
beneficios para la humanidad que, justo pasado mañana, nos traerá la web
semántica, no lo duden, o no sabe de lo que habla o únicamente le interesa
llamar la atención o ambas cosas. Por último, no nos engañemos: el objetivo es magnífico.
Pero es importante no crear expectativas absurdas, y sobre todo, aunque
solamente fuera por estética, ni siquiera por ética, habría que evitar volver a la irracionalidad de los primeros
años de la web. Fueron unos años de plomo en lo que se refiere al pensamiento
crítico: no había día que un chiflado o un desaprensivo no anunciara una
supuesta ley histórica, económica, social o política que Internet no rompiera.
Eso produjo, entre otras cosas, la burbuja de Internet, mucha especulación y
muchos recursos tirados de forma ridícula por la ventana. Pero, sobre todo, fue
un fracaso de la razón. No volvamos a caer otra vez en lo mismo. Lluís Codina
es profesor titular de Ciencias de la Documentación en la Universidad Pompeu
Fabra y miembro del Observatorio de la Comunicación Científica Más
información en Biomedia: Más
información en la red: |
|||||
|
|
|||||