Liberando datos de torneos y árbitros de ajedrez

Visto el éxito de mi idea de no pagar la licencia FIDE, me puse a estudiar cuántos árbitros españoles habían pagado la licencia. Pero claro, ese dato no va a ningún sitio, si no tenemos los datos de qué y cuántos torneos arbitra cada uno.

En 2010 y 2011, aproveché que la FEDA había publicado en su web la memoria deportiva presentada a la Asamblea y que en esa memoria había datos de torneos, número de jugadores y nombre de árbitros, para crear dos hojas excel con los datos de los torneos de 2009 y 2010.

Sin embargo, en la información de la Asamblea de la FEDA del año 2012 publicada en la web, no había ningún documento similar con los datos de 2011, por lo que me propuse hacerlo desde la web de la FIDE. Sin embargo, la FIDE no da ninguna opción para descargar los datos ni tampoco ofrece un API para acceder a los datos. Por lo tanto, y siguiendo con la filosofía OpenData que últimamente está promoviendo que las Administraciones Públicas liberen los datos en formatos reutilizables, me pasé la noche de Reyes y parte del día de Reyes, preparando alguna forma para extraer los datos de la web de la FIDE. Y de ahí nació fideparser.

fideparser es un script que utilizando screen-scrapping, es decir, descargándose la web y copiando y pegando los datos que hay allí, crea archivos en formato Excel. Es muy fácil de instalar y utilizar (siempre que no utilicéis Windows). Tenéis un poco de ayuda sobre la sintaxis concreta en esta página (repito, no lo he probado en Windows, puede que funcione y puede que no).

Con ese script, he exportado los datos de los torneos jugados en 2011 (torneos evaluados desde marzo de 2011 hasta enero de 2012) y 2012 (torneos evaluados desde marzo de 2012 hasta enero de 2013) y he combinado esos datos en dos documentos Excel. De la misma forma, he extraído los datos de los árbitros españoles que han abonado la licencia FIDE de la web de árbitros de la FIDE, y he cruzado los datos utilizando tablas dinámicas.

El resultado, aquí lo tenéis:

Y para que los tengáis como referencia, los datos de años anteriores (con datos extraídos de la documentación de la Asamblea de la FEDA):

Ah y que conste que el script funciona también con otros países, aquí tenéis los mismos datos de 2012 pero de torneos de Francia.

¿Y todo esto para qué?

Pues tiene dos motivos:

  1. Tener los datos en formato manejable, para que la gente pueda hacer estadísticas. Por ejemplo, quiénes son los árbitros que más arbitran, cuáles son los torneos más grandes, a cuántos jugadores arbitra cada árbitro al año y todos los demás que se le puedan ocurrir a cualquiera.
  2. Saber qué porcentaje de los torneos que se jugó el año pasado, tendría ahora un árbitro con licencia.

El script no funciona…

Puede ser. El script se basa en leer la página web, y si le cambian el formato el script se rompe. Pero el script es Software Libre (con licencia GPL) y cualquiera puede mejorarlo. Vale, puede ser que tú no tengas los conocimientos pero es posible. El código fuente está liberado en GitHub, allí puedes consultar cómo se generan todos los excels (y alguna que otra opción más). Si ves algún error en el script, por favor avísame.

Si lo has probado y no te funciona o tienes Windows y no consigues instalarlo y quieres los datos de algún período de tiempo de algún país en concreto, ponte en contacto conmigo y te responderé.

Te pago una cerveza

¡Gracias! Cuando nos veamos me la pagas!

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s