.. _working-in-chaman: Trabajando en el cluster ======================================= Subiendo y descargando archivos y datos ---------------------------------------- Debemos usar **SCP** (Secure copy protocol) ó **SFTP** (Secure file transfer protocol) para transferir datos y archivos entre su máquina local y el cluster lamb. Usuarios con Unix/Linux y Cygwin pueden usar el comando ``scp``. Usuarios de Windows pueden usar `MobaXTerm `_, `Putty `_ y `Filezilla `_ para SFTP. Manejando tareas ---------------- Hay múltiples comandos disponibles que son bastante útiles para monitorear el estado de las tareas, verificar el estado del cluster y para solucionar problemas. .. rubric:: showq | Muestra todos los trabajos en las colas de lamb. | .. code-block:: shell $ showq .. rubric:: qstat | Este comando provee de otra manera de ver información de las colas de ejecución. Recibe multiples argumentos, y los usuarios se les alienta el experimentar puesto que tiene una variedad de opciones para la entrega de información. | .. code-block:: shell # Muestra el estado de todas las tareas $ qstat -a .. code-block:: shell # Muestra todas las tareas que están corriendo. $ qstat -r .. code-block:: shell # Muestra información detallada del JodID 12345 $ qstat -f 12345 .. code-block:: shell # Mostrar información sobre todas las colas del cluster $ qstat -q .. code-block:: shell # Mostrar las tareas en el cluster de un usuario en específico $ qstat -u .. rubric:: showstart | Provee de un tiempo estimado para que una tarea en espera se le asignen recursos. .. code-block:: shell $ showstart 12345 .. rubric:: checkjob | Provee de información sobre una tarea .. code-block:: shell $ checkjob 123345 .. code-block:: shell # Mostrar aun mas información sobre la tarea $ checkjob -v 12345 .. rubric:: tracejob | Muestra la bitácora generada de una tarea. La salida es un poco difícil para leer pero puede ser bastante útil para solucionar problemas. .. code-block:: shell # Muestra información sobre la tarea 12345. (Solo muestra información hasta 24 horas atras) $ tracejob 12345 .. code-block:: shell # Este comando mostrara la bitacora de 2 dias atras. $ tracejob -n 2 12345 .. rubric:: qdel | Elimina una tarea de la cola. .. code-block:: shell # Elimina la tarea 12345 $ qdel 12345 .. Pendiente, que es este comando y como puede ser util .. rubric:: mdiag TODO .. rubric:: pbsnodes | pbsnodes muestra todos los nodos de computo del cluster asi como sus propiedades y estado. .. code-block:: shell # Este comando genera mucha información se recomienda usar la pipa y less para navegar por la salida. $ pbsnodes | less Sistema de archivos LUSTRE -------------------------- ¿Qué es LUSTRE? ^^^^^^^^^^^^^^^ Lustre es un sistema de archivos compartidos de alto desempeño para clusters Linux manejado por el software de Lustre. Es altamente escalable y puede soportar miles de nodos cliente, petabytes de almacenamiento, y un rendimiento de cientos de gigabytes por segundo. La carpeta que que contiene este sistema de archivos se encuentra montado en ``/LUSTRE``. Cada sistema de archivos Lustre es en realidad un conjunto de varios mini sistemas de archivos, a los que se les llama "Object Storage Targets" (OSTs). El software de Lustre presenta los OSTs como un solo sistema de archivos unificado. Mas información --------------- Sugerimos que los usuarios puedan revisar las páginas de manuales y la documentación oficial de PBS en éste `vinculo `_