data science

Lenguajes de programación básicos en data science

La hiperconectividad del mundo en el que vivimos ha provocado que en la actualidad se generen más datos que en cualquier momento de la historia. Colgar una foto en Instagram o ver una película en Netflix son ejemplos cotidianos de actividades con las que generamos este tipo de datos. Muchas compañías conocen a sus consumidores mejor que nunca gracias al exhaustivo análisis que sus departamentos de data science hacen de la información que obtienen de nosotros.

Esto ha provocado que el sector del análisis de datos esté en auge. Cada vez se demandan más perfiles con estos conocimientos y muchos matemáticos, ingenieros y estadísticos se ven atraídos por las buenas condiciones laborales que suele ofrecer el sector. Si te llama la atención este mundo, quieres darle un giro a tu carrera o simplemente tienes curiosidad por aprender; te muestro los lenguajes de programación más populares para iniciarte en data science.

R

R es un lenguaje de programación especializado en el análisis estadístico de datos. Creado en 1995, la licencia es totalmente gratuita y cuenta con el apoyo de la R Foundation. Además dispone de una comunidad muy amplia siempre dispuesta a ayudar con cualquier duda que te surja en el camino.

Su principal ventaja es la gran cantidad de paquetes de análisis de que dispone. Cualquier análisis estadístico imaginable lo podrás hacer con R. También tiene un ecosistema muy rico de paquetes de visualización de datos que le hace una referencia en este campo.

programacion R
Ejemplo de programación con R

El principal inconveniente de R es que no es muy rápido en comparación con otros lenguajes. También puede ser algo difícil de aprender para alguien con poca o nula experiencia programando.

En definitiva, si te interesa el puro análisis cuantitativo y estadístico de los datos, R es el lenguaje que mejor se adaptaría a tus necesidades.

Python

Creado en 1991, se ha convertido en uno de los lenguajes más populares entre la comunidad de data science. Es un lenguaje relativamente fácil de aprender para los no iniciados en programación, así que puede ser un buen punto de partida para si eres nuevo en esto. Al igual que sucede con R, la comunidad Python es muy colaborativa. También es totalmente open source, así que puedes descargar todos los paquetes en la web de Python.

python stack overflow
Gráfico que muestra el crecimiento de la popularidad de Python, el lenguaje sobre el que más consultas se hacen en Stack Overflow

En análisis estadístico es menos completo que R, sin embargo es mucho más potente a la hora de desarrollar procesos de aprendizaje automático (ejemplo: algoritmos que usan Netflix y Spotify para recomendarte series y música). Es decir, es un lenguaje pensado para «ir más allá del análisis» y realizar algoritmos más sofisticados orientados al aprendizaje profundo e inteligencia artificial. Es un lenguaje muy flexible para crear cosas nuevas, como por ejemplo la inteligencia artificial de Google que consiguió vencer al campeón mundial de Go en 2016 (hicieron un documental contando esta historia que se llama AlphaGo, lo recomiendo!).

En resumen, si os tira más el mundo del machine learning que el análisis puro, Python será el lenguaje que os convendrá manejar mejor.

SQL

SQL hace referencia a las siglas en inglés de «lenguaje de consulta estructurado». Se comenzó a usar en 1974 y se utiliza para definir, administrar y consultar información en bases de datos relacionales. Ha sufrido algunas modificaciones con los años, pero los principios básicos se han mantenido constantes. En cuanto a la licencia, hay tanto opciones gratuitas como de pago.

sql

Una de las principales ventajas es que permite gestionar y consultar grandes bases de datos de manera muy eficiente. También presenta una sintaxis muy legible (poco dada a ambigüedades) y se puede integrar con otros lenguajes de programación.

Por contra, las funciones son mucho más limitadas que en R o Python. Es un lenguaje muy bueno para el procesamiento de datos, pero no está pensando como herramienta analítica avanzada.

¿Dónde los puedo aprender?

Como es lógico, la creciente popularidad del data science ha provocado un aumento de la oferta formativa en este campo. Ahora mismo tienes disponible tanto formación oficial (Grados y Másters) como infinidad de cursos online y escuelas especializadas en bootcamps (cursos intensivos), muchos de ellos con una relación calidad-precio espectacular. Aquí puedes ver algunos ejemplos de la oferta de formación que hay disponible hoy en día:

Grados

Máster

Plataformas de cursos online

  • Udemy: Plataforma de aprendizaje online con cursos de muchas variedades (Finanzas, Marketing, IT, etc). En el apartado «Desarrollo» hay muchos cursos de de análisis de datos por 10-12€. Algunos son auténticas joyas.
  • Coursera: Aquí puedes encontrar cursos online de Universidades Top. Fue desarrollada en 2011 por académicos de la Universidad de Stanford con el fin de acercar la formación de alta calidad al público general.
  • Google Actívate: Web de formación online propiedad de Google que ofrece cursos gratuitos relacionados con el mundo digital. Para programación tiene algunos cursos básicos. Puede servir como toma de contacto.
  • Aprender Gratis: Plataforma que recopila más de 2.000 cursos totalmente gratuitos de muchos campos.
  • Miríada X: Surgida de la colaboración entre Telefónica y el Banco Santander, tiene acuerdos de colaboración con universidades de España, Portugal, Latinoamérica e Israel. Puedes encontrar tanto cursos gratuitos como de pago.
  • Udacity: Plataforma especializada en cursos sobre data science. Actualmente no tiene oferta de cursos en español, pero están en proceso de implementar cursos en nuestro idioma.
  • EdX: Creada mano a mano entre Hardvard y el MIT, EdX tiene una oferta muy variada en cursos de analítica de datos.
  • Datacamp: Plataforma que funciona mediante suscripción. Tiene cierto contenido gratuito, pero para sacarle el máximo provecho habría que suscribirse al plan estándar, que da acceso a 343 cursos por 25 dólares al mes.

Escuelas que ofrecen Bootcamps

  • Le Wagon: Escuela que está presente en 39 ciudades del mundo. En España están tanto en Madrid como en Barcelona. Para aprender data science ofrecen un curso de 9 semanas.
  • Ironhack: Es una de las escuelas privadas más populares en este tipo de formación. Con 9 oficinas en el mundo, en España les puedes encontrar en Madrid y Barcelona. Debido a la situación actual, han lanzado una modalidad de aprendizaje en remoto, por lo que ya no hace falta desplazarse a sus campus para poder realizar sus cursos.
  • The Bridge: Este campus de talento digital está en Madrid y ofrece tanto cursos para individuales como para empresas. Uno de sus bootcamps estrella está enfocado en data science.
  • Hack a boss: Escuela que ofrece cursos en Coruña y Vigo. También han lanzado un curso en remoto, por lo que cualquiera que hable español podrá acceder a su formación a partir de ahora.
  • Neoland: Escuela especializada en formación digital con sedes en Madrid y Barcelona. Ofrece dos modalidades en sus cursos de data science: full time (432 horas/12 semanas) y part-time (320 horas/24 semanas). También disponen de modalidad online para aprender desde cualquier lugar.
  • Keepcoding: Interesante para los principiantes, ya que ofrecen un curso de una semana para aprender a programar desde cero. Por supuesto, disponen también de bootcamps más avanzados con duraciones de 4-6 meses. Están en Madrid y Barcelona y tienen acuerdos con empresas como Facebook, Accenture y Deloitte. En su web puedes encontrar la programación de los eventos que realizan.
  • Skylab: Escuela situada en Barcelona que dispone de un curso full-time para principiantes de 11 semanas y otro intensivo de 13 semanas de nivel más avanzado. En su web comparten el listado de empresa con las que colaboran.

Conclusión

En este post no he reflejado todos los lenguajes de programación dedicados al análisis de datos, pero sí están los más recomendables según mi criterio para alguien que quiera iniciarse en este terreno. No hay uno mejor o peor que el otro, simplemente hay que tener claro cuál funciona mejor según lo que quieras hacer.  Respecto a la formación, si crees que debería incluir algún programa o escuela adicional, no dudes en dejar un comentario!