¿Por qué necesitamos un nuevo estándar para la Web Semántica?

 
Tutorial¿Qué es RDF y para que es bueno?
 
semantic-web

En la Web Semántica, las computadoras hacen la búsqueda por nosotros. La “WebSem”[1] permite a los ordenadores buscar conocimiento distribuido a través de la web, ensamblarlo, y luego tomar acciones basadas en este.  Para usar una analogía, la web actual es una plataforma descentralizada para presentaciones distribuidas mientras que la WebSem es una plataforma descentralizada para conocimiento distribuido.  RDF es el estándar de la W3C[2] para codificar conocimiento

Por supuesto que hay conocimiento en la web actual, pero está fuera de los límites de los computadores.  Considera una página de Wikipedia. la cual puede transmitir mucha información a lector humano, pero la computadora que muestra la página solo ve marcas de presentación.  Los computadores le encuentran sentido a HTML, imágenes, Flash, etc., casi siempre para crear una presentación para el usuario final.  El verdadero contenido, el conocimiento transmitido a los humanos, es opaco a los ordenadores.

Lo que significa “semántica” en la Web Semántica no es que los computadores van a entender el significado de algo, sino que las piezas lógicas del conocimiento pueden ser manipuladas mecánicamente para útiles usos.

Ahora imaginemos una nueva web donde el contenido real puede ser manipulado por las computadoras.  Por ahora, imagínatela como una web de bases de datos.  Un sitio web semántico publica una base de datos acerca de una linea de productos, con productos y descripciones, mientras otro publica una base de datos de reseñas de dichos productos.  Un tercer sitio para más detalle publica una base de datos de productos en existencia.  ¿Qué estándar haría más fácil escribir una aplicación para engranar las bases de datos distribuidas, con el fin de que un ordenador pudiera ayudar a un usuario a la hora de comprar?

No hay ningún impedimento actualmente para que alguien escriba un programa que haga ese tipo de cosas, de la misma manera que nada impidió que hiciéramos intercambio de datos antes de tener a XML.  Pero los estándares facilitan la construcción de aplicaciones, especialmente en un sistema descentralizado.  Aquí tenemos algunos aspectos a considerar que nos gustaría tener en un estándar de conocimiento distribuido:

1. Los archivos en la Web Semántica necesitan poder expresar información de manera flexible.  La vida no puede ser perfectamente empaquetada en tablas, como en una base de datos relacional, o en jerarquías, como en XML.  La información acerca de películas y shows de TV contenida en el grafo a continuación es mejor expresada como un  grafo[3]:

Conocimiento expresado como grafo

Conocimiento expresado como grafo

Por supuesto, no podemos estar dibujando grafos a través de la web, en vez de eso necesitamos una notación tabular para dichos grafos.  Compara la tabla de abajo con la figura de arriba.  Cada fila representa una arista en la figura.  La primera columna tiene el nombre del nodo al inicio de la arista.  La segunda columna tiene el nombre (o etiqueta) de la arista[4].  La tercera columna tiene el nombre de el nodo al final de la arista.

Conocimiento expresado de forma tabular

Conocimiento expresado de forma tabular

Ya sea que representemos el grafo como una imagen o como una tabla, estamos hablando de lo mismo.  Ambos describen de forma abstracta lo que es llamado un grafo.  Más sobre esto en breve.

2. Los archivos en la Web Semántica necesitan una manera de relacionarse.  Un archivo de precios de productos publicado por un vendedor y un archivo con críticas de esos productos publicado independientemente por un consumidor necesitan tener una forma de indicar que ellos están hablando de lo mismo.  Solo usando los nombres de los productos no es suficiente.  Dos productos pueden existir en el mundo llamados El súper limpiador 3000[5] y queremos eliminar la ambigüedad de la WebSem para que los computadores puedan procesar la información con certeza.  La WebSem necesita identificadores únicos globales que puedan ser asignados de manera descentralizada.

3. Usaremos vocabularios para hacer afirmaciones acerca de las cosas, pero esos vocabularios deben ser capaces de mezclarse fácilmente.  Un vocabulario de shows de TV desarrollado por aficionados y un vocabulario de películas desarrollado independientemente por cinéfilos expertos deben ser capaces de usarse conjuntamente en el mismo archivo, para hablar de las mismas cosas, por ejemplo para afirmar que un actor ha aparecido tanto en shows de TV como en películas.

Esos son algunos de los requerimientos que RDF (Marco de descripción de recursos) provee en su estándar, tal y como lo veremos en la siguiente sección.  Antes de ponernos muy abstractos, aquí tenemos ejemplos concretos de RDF de la información del grafo anterior, primero en el formato Notation3 (N3), el cual sigue la forma tabular de la codificación del gráfo subyacente:

Ejemplo en N3
Ejemplo en N3

Ejemplo en N3

Y está el formato estándar RDF/XML, el cual puede tener una forma más intuitiva y es más explícita en la estructura jerárquica del grafo, pero en la mayoría de los casos tiende a oscurecerlo:

Ejemplo en RDF/XML
Ejemplo en RDF/XML

Ejemplo en RDF/XML

RDF fue originalmente creado en 1999 como un estándar por encima de XML para codificación de metadatos — literalmente, datos sobre datos.  Los Metadatos son por supuesto cosas como quien hizo la página, cual fue la fecha de una entrada de este blog, etc., información que es en algún sentido secundaria en contraste al resto de contenido de la web regular.  Desde eso, y quizás después de la actualización de la especificación en 2004, el alcance de RDF en realidad evolucionó en algo grande.  Los usos más excitantes de RDF no son los de codificar información acerca de recursos web. sino información acerca de relaciones entre cosas del mundo real: Gente, lugares, conceptos, etc.

______________________________________

[1] La abreviación original es SemWeb en inglés.
[2] World Wide Web Consortium: http://www.w3.org/.
[3] Este grafo ha sido modificado con series y películas más conocidas para los hispanohablantes con el fin de que sea más fácil de entender el ejemplo (El grafo original contiene información de series y películas populares en los Estados Unidos).
[4] Las etiquetas de las aristas se han conservado en inglés para que el lector se vaya acostumbrado ya que la gran mayoría se encuentran de esta forma (Es igual cuando programamos dado que los lenguajes se encuentran en inglés).  Es posible escribirlas en español, pero sería doble trabajo pues tocaría anotar de manera extra la equivalencia de esa etiqueta en el idioma extranjero para que se pueda procesar de manera exitosa.
[5] En el texto original el nombre del producto es The Super Duper 3000.

About these ads

Deja un comentario

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s