Trabajando en el cluster

Subiendo y descargando archivos y datos

Debemos usar SCP (Secure copy protocol) ó SFTP (Secure file transfer protocol) para transferir datos y archivos entre su máquina local y el cluster lamb. Usuarios con Unix/Linux y Cygwin pueden usar el comando scp. Usuarios de Windows pueden usar MobaXTerm, Putty y Filezilla para SFTP.

Manejando tareas

Hay múltiples comandos disponibles que son bastante útiles para monitorear el estado de las tareas, verificar el estado del cluster y para solucionar problemas.

showq

Muestra todos los trabajos en las colas de lamb.

$ showq

qstat

Este comando provee de otra manera de ver información de las colas de ejecución. Recibe multiples argumentos, y los usuarios se les alienta el experimentar puesto que tiene una variedad de opciones para la entrega de información.

# Muestra el estado de todas las tareas
$ qstat -a
# Muestra todas las tareas que están corriendo.
$ qstat -r
# Muestra información detallada del JodID 12345
$ qstat -f 12345
# Mostrar información sobre todas las colas del cluster
$ qstat -q
# Mostrar las tareas en el cluster de un usuario en específico
$ qstat -u <usuario>

showstart

Provee de un tiempo estimado para que una tarea en espera se le asignen recursos.
$ showstart 12345

checkjob

Provee de información sobre una tarea
$ checkjob 123345
# Mostrar aun mas información sobre la tarea
$ checkjob -v 12345

tracejob

Muestra la bitácora generada de una tarea. La salida es un poco difícil para leer pero puede ser bastante útil para solucionar problemas.
# Muestra información sobre la tarea 12345. (Solo muestra información hasta 24 horas atras)
$ tracejob 12345
# Este comando mostrara la bitacora de 2 dias atras.
$ tracejob -n 2 12345

qdel

Elimina una tarea de la cola.
# Elimina la tarea 12345
$ qdel 12345

pbsnodes

pbsnodes muestra todos los nodos de computo del cluster asi como sus propiedades y estado.
# Este comando genera mucha información se recomienda usar la pipa y less para navegar por la salida.
$ pbsnodes | less

Sistema de archivos LUSTRE

¿Qué es LUSTRE?

Lustre es un sistema de archivos compartidos de alto desempeño para clusters Linux manejado por el software de Lustre. Es altamente escalable y puede soportar miles de nodos cliente, petabytes de almacenamiento, y un rendimiento de cientos de gigabytes por segundo. La carpeta que que contiene este sistema de archivos se encuentra montado en /LUSTRE.

Cada sistema de archivos Lustre es en realidad un conjunto de varios mini sistemas de archivos, a los que se les llama “Object Storage Targets” (OSTs). El software de Lustre presenta los OSTs como un solo sistema de archivos unificado.

Mas información

Sugerimos que los usuarios puedan revisar las páginas de manuales y la documentación oficial de PBS en éste vinculo