miércoles, 4 de agosto de 2010

Google, Twitter y Facebook contruyen la semántica web

Texto escrito por: Jim Giles, reportero de New Scientist. Escribe sobre ciencia, política y medio ambiente.


Una forma verdaderamente significativa de interactuar con la web puede estar al fin aquí, se llama web semántica Movie Camera . La idea fue propuesta hace una década por Tim Berners-Lee (creador del código HTML), entre otros. Ahora, un triunvirato de los pesos pesados de Internet -Google, Twitter y Facebook- lo están haciendo realidad.

La característica definitoria de la web semántica es que la información debe ser almacenada en un formato legible por una máquina. Fundamentalmente, esto permite a los ordenadores manejar información para que encontremos la más útil, porque los conceptos serían procesados dentro de los documentos y no sólo los documentos en sí mismos.

Imagínate etiquetando una historia sobre Barack Obama: tu ordenador almacenará la URL, pero no tiene manera de saber si el contenido está relacionado con la política o, por ejemplo, la cocina. Sin embargo, si cada página web estuviese etiquetada con información sobre su contenido, podemos hacer preguntas a las web y esperar una respuesta sensata.

Es una idea tremendamente atractiva, pero ha habido pocos ejemplos prácticos. Eso está por cambiar.

La adquisición de Google este mes de Metaweb , una compañia de San Francisco basada en la búsqueda semántica es un paso en la dirección correcta. Metaweb posee Freebase, una base de datos de código abierto. ¿Por qué Google quiere Freebase? En parte debido a que contiene información sobre más de 12 millones de "entidades" web, desde las personas hasta las teorías científicas. Pero sobre todo por la forma en la que acumula Freebase su conocimiento, es casi como si una persona lo estuviera haciendo, estableciendo vínculos entre las piezas de información de una manera que tenga sentido para ellos.

Las entradas de Freebase, seleccionadas a partir de fuentes como Wikipedia, son etiquetadas para que los ordenadores puedan entender sobre qué trata cada una y vincularlas entre ellas. En las listas de Freebase, por ejemplo, una entrada sobre "Chicago" trata de una ciudad y otra describe el musical. Las entradas también están vinculadas a otras entradas pertinentes, como otros pueblos o espectáculos.

Las etiquetas de Freebase y los enlaces ayudarán a Google a desarrollar búsquedas más inteligentes. Por ejemplo, puedes solicitar una lista de "colegios de la costa oeste de EE.UU. con los derechos de matrícula por debajo de 30.000 dólares", o "más de 40 actores que han ganado al menos un Oscar". Jack Menzel, director de gestión de productos Google, lo escribió en una entrada de blog.

Google no está solo. Recientemente se conocieron los detalles de las "anotaciones " de Twitter, un sistema que permite que los tweets sean etiquetados con información que no aparece en el mensaje pero que puede ser leída por los ordenadores. Un tweet sobre una película, por ejemplo, puede que enlace directamente a un trailer de la película o a la página de su DVD en Amazon (para comprarla). Una versión de prueba podría ponerse en marcha este verano.

Mientras tanto, los cambios de Facebook para su protocolo de Gráfico Abierto también tienen un elemento semántico. El protocolo permite a los desarrolladores web cuyos sitios están dedicados a temas específicos, tales como un restaurante, agregar etiquetas y un "like" para su sitio. Las etiquetas le dicen a los servidores de Facebook que la página está a punto - tal vez incluyendo la ubicación del restaurante - y cuando uno de sus usuarios hace clic en el botón, se establece un enlace entre ese sitio y su perfil de Facebook.

La iniciativa de Facebook y Twitter podrían cambiar la naturaleza misma de la forma en que interactuamos con la web. Escritores de software podrán crear aplicaciones que busquen bares y restaurantes que tus amigos de Facebook han disfrutado, o las películas y los libros de tus contactos de Twitter más que pomocionados (over-hyped). La participación de Facebook debería ayudar a superar uno de los mayores obstáculos a los que se enfrenta la web semántica: persuadir a propietarios de sitios web para etiquetar sus contenidos (ver "La solución del huevo y la problema de la gallina") .

Joshua Shinavier , un estudiante de doctorado del Instituto Politécnico Rensselaer en Troy, Nueva York, ha desarrollado una aplicación que ejecuta búsquedas de tweets utilizando los datos de localización que contienen. El software de Shinavier, que planea lanzar la próxima semana, utiliza el sitio web Geonames para trasladar la información de latitud y longitud a las etiquetas dentro de nombres de lugares. A continuación busca los lugares en DBpedia, una versión de Wikipedia construida según líneas similares a Freebase. La combinación de DBpedia y Geonames hará posible la búsqueda de todos los tweets a partir de determinados tipos de lugares, como ciudades universitarias o regiones costeras.

Mientras que los usuarios pueden encontrar que la web semántica puede ayudarles a conseguir un asidero para algunas preguntas complejas, su principal atractivo puede ser para los anunciantes. "La totalidad de las obras son a propósito de la publicidad", dice Alex Iskold de Adaptative Blue , una sede en Nueva York basada en la puesta en marcha de tecnologías semánticas. "Mejores datos significará mejores anuncios".

Así que los anunciantes pueden aprovechar las capacidades presagiadas gracias a herramientas como la de Shinavier para sondear los gustos de los consumidores de regiones específicas. Las etiquetas semánticas de Facebook también atraerán a los anunciantes, que pueden utilizarlas para explorar las conexiones entre los usuarios y sus intereses.

La visión de Berners-Lee puede estar finalmente aquí, pero viene con algo que él no pidió, anuncios finamente adaptados a nuestros gustos y disgustos.

Y los de nuestros amigos.

Resolver el problema de la gallina y el huevo

Se podría argumentar que la web semántica es un ejemplo clásico del problema de la gallina y el huevo. La única manera de crear una web que sea intuitiva para los usuarios y donde las páginas sean comprensibles para los ordenadores, además, es a través de páginas web etiquetadas. Pero sin etiquetas en las páginas web, no hay ningún incentivo para crear aplicaciones que puedan utilizarlas. Y sin las aplicaciones en su lugar no hay ninguna razón para etiquetar sitios Web.

Facebook está trabajando en ello: los sitios web que incluyen redes sociales como el botón "Like" y ahora etiquetas apropiadas consiguen enlaces desde las páginas de Facebook. Tan poderoso es Facebook que muchos otros sitios aún esperan que proporcione las etiquetas apropiadas. De la misma forma que los desarrolladores web han ajustado los sitios para mejorar su ranking de Google (Pagerank), moviéndose junto a Facebook deberían mejorar su visibilidad.

"Por eso estamos todos muy entusiasmados", dice Alex Iskold de Adaptive Blue, una sede en Nueva York que se centra en la puesta en marcha de tecnologías semánticas. "El problema de los incentivos se ha resuelto."

El botón "Like" de Facebook no resuelve el problema de los incentivos por completo, siquiera. Si puedes encontrar una manera de adjuntar etiquetas a los blogs de los usuarios y a los tweets, tienes una fuente de datos mucho más rica.

Uno de los productos de Adaptative Blue, un sistema de recomendaciones de entretenimiento llamado GetGlue, puede ayudar. En lugar de obligar a los usuarios a generar etiquetas de Twitter de forma manual, los sitios web pueden utilizar GetGlue para producir automáticamente etiquetas basadas en URLs incluidas en tweets. Si un mensaje contiene un enlace a una película bíblica de la página de IMDb, Inception, por ejemplo; GetGlue etiquetará el mensaje de manera apropiada.


Traducción al español: Francisco Fernández