Wolfram Alpha, Metaweb, Topicmarks: cómo lograr que las computadoras nos entiendan

March 3rd, 20115:16 pm @

0


La web semántica es algo muy perseguido por los buscadores. ¿Que qué es eso de la web semántica? Pues es, tal y como explica el vídeo, que los ordenadores puedan “comprender” e interpretar la web y sus contenidos, dejando de ser un conjunto de palabras a ser un conjunto de conceptos e ideas.

Google ya había dado pasos hacia esta web semántica con su buscador. Por ejemplo, cuando buscamos “Al Gore Birthday” en la versión inglesa, nos aparece no sólo el resultado de webs que contengan esas palabras, sino una respuesta. Es decir, el buscador ha entendido lo que queremos y nos ha dado una respuesta concreta. Lo mismo pasa si buscamos “weather Madrid”, o “time Spain”: el buscador nos da una respuesta concreta y no sólo un conjunto de enlaces.

Sin embargo, esto es relativamente sencillo, y el buscador no puede responder a preguntas más complejas. Por eso, Google ha adquirido Metaweb, una empresa muy fuerte en el campo de la web semántica, y además creadora de Freebase, una base de datos abierta sobre personas, lugares y cosas, y todo ello relacionado entre sí.

Lo que Google pretende con esta compra está claro: mejorar su buscador y adelantarse a la competencia haciéndolo más inteligente, capaz de responder preguntas complejas. En cuanto a Freebase, Google ayudará en su desarrollo y ampliación, y probablemente la usará para mejorar los resultados de su buscador.

Aquí, publicación original de este post.

***

Siempre ha sido muy difícil que las máquinas entiendan nuestro lenguaje. Buscadores como Wolfram Alpha o proyectos como Metaweb tratan de conseguir que las máquinas nos entiendan y puedan “pensar”. Topicmarks es otro proyecto que va por un camino muy similar.

Este servicio hace algo que, aunque para nosotros es extremadamente simple, para una máquina es un horror: entender un texto, resumirlo y sacar los hechos clave. Su funcionamiento es muy sencillo: subimos un archivo, una URL o pegamos un texto, pulsamos “Upload” y Topicmarks se pondrá a trabajar.

Cuando acabe, tendremos un knode, que nos dará los hechos clave o frases más importantes, un resumen del texto, las palabras clave y un glosario de términos. Los resultados son impresionantes y además útiles. Con un knode de Topicmarks podemos entender decentemente un texto en mucho menos tiempo que leyéndolo.

Es gratuito y no requiere registro (aunque sí para mantener un historial de nuestros knodes). De momento sólo funciona con textos en inglés, aunque en su web dicen que pronto añadirán más idiomas. A mí me ha sorprendido mucho la potencia de este servicio, y sobre todo las aplicaciones que puede tener su tecnología para que las máquinas puedan entendernos.

Aquí, publicación original de este post.

***

Explicación sobre Metaweb (en inglés, con subtítulos en español)

***

En Topicmarks, también apuestan por las posibilidades de la tecnología semántica y el análisis textual, aunque el producto que han desarrollado va por otros derroteros. De hecho, están tan convencidos de que éste es un buen momento para lanzar aplicaciones de tecnología semántica que han conseguido una nueva ronda de financiación de 500.000 dólares en Silicon Valley.

Su punto de partida: ¿Por qué leerse un montón de páginas cuando algo puede resumirse en 10 líneas? Su propuesta: una aplicación que entiende textos de todo tipo y extrae de ellos una decena de hechos clave que presenta también en forma de resumen ejecutivo, es decir, un servicio con posibilidades de conseguir fans y clientes en un momento en el que casi todo parece poder reducirse a 140 caracteres.

Su funcionamiento es sencillo. Basta con conectarse a la página de Topicmarks, registrarse (gratuitamente), subir un documento (en inglés) en formato .doc, PDF o HTML o pegar la URL del texto a resumir en la casilla indicada. En sólo unos segundos, Topicmarks ofrece lo que la compañía llama knode, o sinopsis inteligente, que incluye el peso del documento en Kb, el tiempo de lectura que se ahorra el usuario, el recuento de frases y palabras que contiene, una nube de tags y un pequeño resumen que, al parecer, está lo suficientemente bien escrito como para que lo copien los estudiantes.

O eso cuenta Ronald Siebelink, CEO de Topicmarks, que dice haber recibido quejas de varios profesores en este sentido. Los ejemplos que tiene en la web le dan la razón. Las pruebas realizadas por esta periodista con varios textos (en inglés) se lo discuten. Hay escritos que la máquina no procesa. Con otros, los resultados no son perfectos, aunque es cierto que las frases tienen sentido.

Siebelink cuenta en varias publicaciones que la actual versión de la aplicación, que también tiene plug-in para Firefox, es producto de más de cuatro años de investigación en inteligencia artificial y que su objetivo a largo plazo es conseguir que su tecnología de resumen esté disponible en “todos los dispositivos en los que se pueda leer información digital.”

De momento, para este año, se conforma con conseguir mejorar la web e integrarse en servicios de almacenamiento de documentos online como Dropbox o Scribd. Después, dice, habrá que atacar otros idiomas, los feeds RSS y los Social Media. Porque Twitter también se puede resumir…

Aquí, publicación original de este artículo.

***

El científico británico Stephen Wolfram tiene una visión clara del futuro –una visión que se remonta a su niñez en los 60 y 70. En esos días, no vaticinábamos que la tecnología digital nos traería maneras convenientes de comprar o nuevas formas para hablar con nuestros amigos en frases cortas. El sueño era mucho más grande: que las computadoras resolverían cosas por nosotros, un poco como Hal, en 2001, Odisea del Espacio (sin la intención homicida).

Fue con esta aspiración que Wolfram lanzó Wolfram|Alpha, un website que intenta responder cualquier pregunta factual. Wolfram dice que quiso crear una “cosa locamente ambiciosa, como las viejas computadoras de la ciencia ficción”. Actualmente, por ejemplo, cuando queremos saber algo en la web, nuestra acción por default es googlearla, pero Google sólo busca palabras más que respuestas calculadas, así que sólo nos lleva a los que ha sido ya escrito, que puede o no ser lo que queremos saber. Wolfram|Alpha, por su parte, es un intentp de cambiar la forma en que interactuamos con el conocimiento en la web, de hacerla más inteligente –proveyendo respuestas recién computadas de una atendida base de datos con sus fuentes.

Cuando Wolfram|Alpha fue lanzada, en 2009, fue recibida inicialmente como la liquidadora de Google. Los usuarios fluyeron al sitio para preguntar el tipo de preguntas que uno hace a Google, pero cuando no les dio lo que querían, gruñeron y no regresaron. Algunos usuarios, por ejemplo, tipearon sus propios nombres y el motor de búsqueda no les dio respuesta alguna. O hicieron preguntas complicadas, no recibieron respuesta y concluyeron que no era lo suficientemente inteligente. Wolfram ha dicho que el sitio fue hecho público porque estaba en ese estadio de desarrollo en que era necesario entender el tipo de pregunta que la gente haría –el bombo publicitario, dice, fue útil, aún si el sitio no estuvo a la altura de las expectativas iniciales de los usuarios–. “Si se consideran los mayores fenómenos de la web –Google, Facebook–,  uno suele conocerlos sólo cuando se han vuelto muy grandes”, dice. “Nos pasó que lanzamos con una gran afluencia”.

En el último año y medio, sin embargo, Wolfram|Alpha ha estado creciendo en forma sostenida y contiene ahora unos 10 billones de puntos de información, haciendo de ella, afirma Wolfram, el mayor conjunto de datos integrados del mundo. Sus áreas más fuertes son las ciencias –uno puede pedirle que resuelva problemas matemáticos, que ofrezca mapas del cielo nocturno o descomponga químicos (…) No puede contestar cualquier pregunta –pero puede hacer mucho (…)

En verdad, el movimiento hacia una búsqueda de explicaciones vía pregunta-repuesta explica el reciente crecimiento en popularidad del website Quora, que tiene 7,6 millones de páginas vistas por día. En Quora, los usuarios envían preguntas y respuestas, y votan sobre cuáles respuestas son mejores. Pero Quora descansa sobre respuestas humanas que llegan cuando los usuarios se toman el tiempo para hacerlas, mientras que las de Wolfram|Alpha son generadas por computadora y entregadas en dos segundos.

Wolfram, de 51 años, ha sido por largo tiempo una de las figuras científicas más intrigantes de Gran Bretaña. Publicó su primer trabajo académico cuando era un escolar en Eton, en los 70. A los 20, tenía un doctorado en física, era la persona más joven en ganar el MacArthur “genius” award y, para mitad de sus veinte, estaba en el elitista Institute for Advanced Study at Princeton, cuyos egresados incluían a Albert Einstein y Kurt Gödel (…).

Wolfram|Alpha no pretende ser sólo una base masiva de datos de hechos tomados al azar –los hechos deben ser capaces de “hablar” entre sí, de modo que puedan ser utilizados en computaciones. Por ejemplo, si uno hace la pregunta: ¿cuál fue el clima en Londres el día en que el Príncipe William nació?, el sitio necesita ser capaz de conectar información sobre el clima con información biográfica. Si uno pregunta: ¿cuál es la distancia a la Luna dividida por el largo del río Amazonas?, necesita vincular datos astronómicos y geográficos (Las respuestas, por cierto, son lluvioso y cubierto con una temperatura de 16 grados C y una proporción de 63.07). Para fundir diferentes tipos de información, esta debe estar codificada de modos inteligentes cuando es introducida en la base de datos (…)

Hasta ahora, las preguntas que Wolfram|Alpha responde más acabadamente son sobre matemáticas y ciencia. Si uno de los objetivos del sitio es extender el rango de problemas que uno puede resolver sin utilizar papel y lápiz –del modo en que la calculadora de bolsillo significó que uno ya no necesitaba saber cómo hacer grandes divisiones–, Wolfram|Alpha ha tenido éxito. Hay una gran porción de difíciles preguntas mátemáticas que contestará instantáneamente. El nivel A de cálculo casero se ha vuelto, en efecto, obsoleto (…)

Hablando con Wolfram, es imposible no ser contagiado por su entusiasmo. Pero, aunque pueda haber sido guiado por sus ambiciones intelectuales, también es un hombre de negocios. Wolfram|Alpha puede parecer un proyecto filantrópico, pero, dice, ya es redituable. Ha firmado un acuerdo con el buscador de Microsoft, Bing –un rival directo de Google–, que usa Wolfram|Alpha insertado en su página de resultados. Y, dice, pronto se anunciarán más acuerdos.

Después de su débil comienzo, Wolfram|Alpha recibe hoy unas 20 preguntas por segundo, lo que supone unas 2 millones por día. (Esto lo convierte en el sitio número 3,304 en el ranking de la web, de acuerdo con el motor de búsqueda de Wolfram|Alpha). Cada semana se agrega más información, y las preguntas que entran van indicando en qué dirección proseguir (cuando una de las preguntas más populares era “tamaño del pene”, un investigador de Wolfram Research pasó un día y medio compilando información global autorizada sobre el tema). Areas altamente requeridas, como deportes, música y autos, están siendo desarrolladas y, se espera, serán lanzadas online este año (…)

Preguntas que solo Wolfram|Alpha puede responder …

1 Uno se encuentra con un pariente lejano y descubre que es el primo del nieto de la hermana del tatarabuelo de uno. Si uno pone “primo del nieto de la hermana del tatarabuelo “, el motor mostrará el árbol familiar, dirá que el pariente es un primo segundo y que uno tiene una “proporción de relación sanguínea” de 1/128.

2 Uno quiere encontrar el precio de una acción en determinado día, así que tipea: “Precio del capital de Nike el día en que Wayne Rooney nació”. La respuesta es $0.86.El sitio también ofrece un gráfico de la performance del capital el año anterior y el año posterior al  24 de octubre de 1985.

3 Uno se pregunta qué tan grande es Walmart comparado con el producto bruto de Gran Bretaña. Tipea “Cuál es el ingreso de Walmart como fracción del producto bruto de Gran Bretaña?”. La respuesta es 0.186, más un gráfico que muestra el cambio desde 1985 a 2010.

4 Uno está discutiendo con amigos sobre los grandes éxitos del cine del año pasado. Tipea: “La Red Social, El Origen, Harry Potter y Las Reliquias de la Muerte  boletería”. Se obtiene un cronograma de ganancias y una lista comparativa de información sobre el total de ingresos, ranking, exhibiciones e ingreso promedio por exhibición.

5 ¿Qué tiene de interesante el número 76577655163 –extraído al azar del propio cerebro? El sitio responde que es un número primo, que es aproximadamente 0.26 multiplicado por la cantidad de estrellas en nuestra galaxia 0.26, 0.72 por la cantidad de gente que ha existido y 12 por la cantidad de gente que vive actualmente.

Aquí, versión completa de este artículo en inglés.

 

Posts relacionados: