10 buenas prácticas para comenzar en Ciencia de Datos
2. Aprender orden y limpieza de datos con código
- Es una habilidad fundamental
- No todo es perfecto como en los tutoriales
- Permite resultados replicables y reproducibles
3. Documentar
- Aprender Markdown
- Usar Jupyter Notebooks, Quarto, Material for MkDocs, etc.
- Documentar aunque sea de uso personal, tu yo del futuro lo agradecerá
- También aplica a tener un portafolio de proyectos (github, sitio web)
- Esta práctica también ayuda a mejorar nuestras habilidades comunicativas
4. Leer la documentación
- Todas las respuestas están ahí
- Utilizar mal una función (sobre todo las estadísticas) nos puede llevar a errores fantasma
5. Mantener el orden
Utilizar nombres explicativos en variables, archivos, encabezados, en todo. (Recurso)
Mantener un sistema de carpetas que te permita una fácil navegación dentro y fuera del código (Recurso)
Utilizar un gestor de paquetes y ambientes
Después de una “semana del caos” , tómate un tiempo para ordenar
6. Aprender (y usar) control de versiones
Habilidad fundamental a la hora de buscar trabajo
Puedes practicar con repositorios “de mentira” con otras personas
También puedes practicar haciendo contribuciones pequeñas a proyectos de código abierto
Nota: nadie se sabe todos los comandos de git
7. No todos los datos son para modelar
No olvidar el análisis exploratorio
Acá es cuando entran los conocimientos de estádistica y por sobre todo, el criterio.
Pensar en las necesidades del cliente
Un modelo simple muchas veces es mejor que uno más complejo
8. Conocer tu nicho y tus límites
- ¿En qué campo tienes conocimientos?
- Compartir hallazgos
- Trabajar en equipo
- Hacer todas las preguntas
9. Ojo con la magia de la programación
- No porque pueda hacer 100 gráficos en loop eso es un resultado valorable
- Es mejor un (1) gráfico bien pensado
- Aplica para tablas, modelos y todo tipo de resultados
- Aplica a cuando escribo informes también
10. Hacer pruebas de concepto
- A veces programando perdemos la perspectiva de lo que estamos haciendo, lo cual nos puede llevar a errores.
- Hacer pruebas con una porción pequeña de los datos y probar que funcione primero antes de correr algo que puede demorar 2 horas y estar mal.