.. _working-in-chaman:
Trabajando en el cluster
=======================================
Subiendo y descargando archivos y datos
----------------------------------------
Debemos usar **SCP** (Secure copy protocol) ó **SFTP** (Secure file transfer protocol) para transferir datos y archivos entre su máquina local y el cluster lamb. Usuarios con Unix/Linux y Cygwin pueden usar el comando ``scp``. Usuarios de Windows pueden usar `MobaXTerm `_, `Putty `_ y `Filezilla `_ para SFTP.
Manejando tareas
----------------
Hay múltiples comandos disponibles que son bastante útiles para monitorear el estado de las tareas, verificar el estado del cluster y para solucionar problemas.
.. rubric:: showq
| Muestra todos los trabajos en las colas de lamb.
|
.. code-block:: shell
$ showq
.. rubric:: qstat
| Este comando provee de otra manera de ver información de las colas de ejecución. Recibe multiples argumentos, y los usuarios se les alienta el experimentar puesto que tiene una variedad de opciones para la entrega de información.
|
.. code-block:: shell
# Muestra el estado de todas las tareas
$ qstat -a
.. code-block:: shell
# Muestra todas las tareas que están corriendo.
$ qstat -r
.. code-block:: shell
# Muestra información detallada del JodID 12345
$ qstat -f 12345
.. code-block:: shell
# Mostrar información sobre todas las colas del cluster
$ qstat -q
.. code-block:: shell
# Mostrar las tareas en el cluster de un usuario en específico
$ qstat -u
.. rubric:: showstart
| Provee de un tiempo estimado para que una tarea en espera se le asignen recursos.
.. code-block:: shell
$ showstart 12345
.. rubric:: checkjob
| Provee de información sobre una tarea
.. code-block:: shell
$ checkjob 123345
.. code-block:: shell
# Mostrar aun mas información sobre la tarea
$ checkjob -v 12345
.. rubric:: tracejob
| Muestra la bitácora generada de una tarea. La salida es un poco difícil para leer pero puede ser bastante útil para solucionar problemas.
.. code-block:: shell
# Muestra información sobre la tarea 12345. (Solo muestra información hasta 24 horas atras)
$ tracejob 12345
.. code-block:: shell
# Este comando mostrara la bitacora de 2 dias atras.
$ tracejob -n 2 12345
.. rubric:: qdel
| Elimina una tarea de la cola.
.. code-block:: shell
# Elimina la tarea 12345
$ qdel 12345
..
Pendiente, que es este comando y como puede ser util
.. rubric:: mdiag
TODO
.. rubric:: pbsnodes
| pbsnodes muestra todos los nodos de computo del cluster asi como sus propiedades y estado.
.. code-block:: shell
# Este comando genera mucha información se recomienda usar la pipa y less para navegar por la salida.
$ pbsnodes | less
Sistema de archivos LUSTRE
--------------------------
¿Qué es LUSTRE?
^^^^^^^^^^^^^^^
Lustre es un sistema de archivos compartidos de alto desempeño para clusters Linux manejado por el software de Lustre. Es altamente escalable y puede soportar miles de nodos cliente, petabytes de almacenamiento, y un rendimiento de cientos de gigabytes por segundo. La carpeta que que contiene este sistema de archivos se encuentra montado en ``/LUSTRE``.
Cada sistema de archivos Lustre es en realidad un conjunto de varios mini sistemas de archivos, a los que se les llama "Object Storage Targets" (OSTs). El software de Lustre presenta los OSTs como un solo sistema de archivos unificado.
Mas información
---------------
Sugerimos que los usuarios puedan revisar las páginas de manuales y la documentación oficial de PBS en éste `vinculo `_