Hochleistungsrechner

Hochleistungsrechner (HPC High­Performance­Computing)

Stand: 06.04.2014


Die primäre Aufgabe des HPC-Servers Altix ist die Bereitstellung von ausreichend hoher Rechenleistung und geeigneten Softwarepaketen.

Seit Dezember 2004 betreibt das RZ  ein System vom Typ SGI Altix 3700. Im Juni 2006 wurde das System erweitert und durch eine SGI Altix 330 ergänzt.
Die HPC-Ressourcen konnten im Juni und Dezember 2007 durch die Beschaffung einer SGI  Altix 4700 geeignet erweitert werden. Im Dezember 2010 ist die Beschaffung einer SGI Altix UV 1000 eingeleitet worden. Dieses System wird dann  nach der Freigabe für den Benutzerbetrieb das System Altix 3700 ersetzen. Das neue System basiert auf der Intel XEON Prozessorfamilie mit der x86_64 Architektur.
Sämtliche Prozessoren können den gesamten installierten Hauptspeicher als einheitliche, zusammenhängend erscheinende Ressource nutzen - wobei der schnelle Zugriff auf dieses global adressierbare Shared-Memory ermöglicht wird - durch die architekturinterne Interconnect-Technologie SGI NUMAlink.

        **** BENUTZERBETRIEB FÜR ALTIX UV 1000 nach Absprache  ****

Technische Daten:

  • SGI Altix UV 1000
    • 48 Hexa - Core Intel Prozessoren vom Typ "XEON X7542" (x86_64 Architektur) mit 2.67 GHz Taktfrequenz, 18 MByte L3-Cache
    • Davon sind 276 Cores ausschliesslich über das Warteschlangen-System PBS PRO nutz- und erreichbar.
    • Die übrigen 12 Cores sind für kleinere, kurze Benutzer-Interaktionen und für Systemroutinen vorgehalten. Hier werden keine Produktionsjobs geduldet!
    • 2048 GByte Hauptspeicher als "distributed shared memory"
    • ca. 10 TByte  lokaler Plattenplatz auf zwei externen SAS-RAID0-Systemen mit den Filesystemen "/scratch" (3.5 TB) und "/scratch2" (7 TB).
    • Hostname: altix-uv.rz.unibw-muenchen.de
  • SGI Altix 4700   /// Systemabschaltung zum 15.05.14 ///
    • 28 Dual-Core Prozessoren vom Typ Itanium2 "Montecito" mit 1.6 GHz Taktfrequenz,
      9MByte L3-Cache und 6.4 GFlop/s Spitzenleistung
    • 224 GByte Hauptspeicher als "distributed shared memory"
    • ca. 3,5 TByte  lokaler Plattenplatz auf einem externen SAS-RAID0-System
    • Hostname: altix-blade.rz.unibw-muenchen.de
  • SGI Altix 3700     ///  Systemabschaltung zum 30.06.2012 ///
    • 28 Prozessoren vom Typ Itanium2 "Madison" mit 1.5 GHz Taktfrequenz,
      4 bzw. 6 MByte L3-Cache und 6.0 GFlop/s Spitzenleistung
    • 64 GByte Hauptspeicher als "distributed shared memory"
    • ca. 600 GByte Plattenplatz für die temporäre Datenhaltung
    • Hostname: altix-batch.rz.unibw-muenchen.de
  • SGI Altix 330      /// Systemabschaltung zum 30.06.2013 ///
    • 10 Prozessoren vom Typ Itanium2 "Madison" mit 1.5 GHz Taktfrequenz,
      4 MByte L3-Cache und 6.0 GFlop/s Spitzenleistung
    • 20 GByte Hauptspeicher als "distributed shared memory"
    • 600 GByte  Plattenplatz für die temoräre Datenhaltung
    • Diese Maschine ist primär für den interaktivern Betrieb vorgesehen.
      Deshalb ist die maximale Rechenzeit auf 10800 Sekunden beschränkt.
      In der betriebsschwachen Zeit von 18:00 Uhr - 08:00 können insgesamt 8 der verfügbaren  Prozessoren genutzt werden.
    • Hostname: altix330.rz.unibw-muenchen.de, altix.rz.unibw-muenchen.de

 

Zugang zu den Systemen über SecureShell:

ssh -Y -l <RZ-Kennung> <Hostname>

Siehe dazu auch FAQ "Wie kann ich X11-Applikationen auf entfernten Linux-Rechnern (z.B. altix-uv) starten?"

 

Nutzbare Filesysteme

Die SGI Altix Systeme (altix und altix-blade) nutzen gemeinsame Heimatverzeichnisse (/home/<kennung>), welche die zentralen Fileserver via NFS bereitstellen. Jeder Nutzer bekommt ein permanentes Nutzungskontingent (Quota) zugeteilt. Es erfolgt täglich eine zentrale Datensicherung der Heimatverzeichnisse.

Zur Datenhaltung von temporären Datenbeständen steht Ihnen das Filesystem /scratch zur Verfügung. Dieser /scratch Bereich
- unterliegt  n i c h t  der zentralen Datensicherung
- Dienstag - Freitag , 07:30 Uhr, Prüfung und Löschung von Dateien, die > 30 Tage nicht mehr benutzt wurden.

Betriebssystem

Als Betriebssystem kommt jeweils ein 64 Bit SLES 10 / SLES 11 mit einigen von SGI vorgenommenen Erweiterungen zum Einsatz.
Neben einigen kommerziellen Softwarepaketen stehen Compiler von Intel (ifort, icc) und GNU (gcc, g++, g77) zur Verfügung.

 

 

Rechnen auf dem System  SGI Altix UV 1000

Hostname: altix-uv.rz.unibw-muenchen.de

Hier ist als Betriebssystem SLES 11 SP1 für x86_64 im Einsatz. Damit kann dieses System auch seine Home-Verzeichnisse zusammen mit "applxsrv.rz.unibw-muenchen.de" nutzen.

Das System ist auf einen Betrieb mit einem Warteschlangensystem ausgelegt, d.h. es sind mit einer fixen Resourcenzuteilung (Cores+RAM) verschiedene Warteschlangen definiert.
Pro Core stehen 5.33 GB zur Verfügung, Nodes 2...31, 10.66 GB bei den Nodes 32...47.
Für den interaktiven Betrieb stehen 12 Cores mit ~ 60GB inkl. der Systemverwaltung zur Verfügung.
Hier sollen/können lediglich kurze Programmläufe mit geringer Speicheranforderung gestarted werden. Ab sofort ist eine Limitierung der CPU-Zeit für alle interaktiven Aufträge von 3600 Sekunden pro Prozess gesetzt. Dieses Limit wird beim submitieren von Jobs z.B "qsub -I -V -q n6t96h" nicht wirksam! Als Default-Queue ist "n6t96h" gesetzt.
 

1. Variante

Sie defineren die Angaben für Ihren Programmlauf in einem Shellscript.

vi/nedit run_job

#!/bin/bash
#PBS -o /scratch/<kennung>/myjob.out
#PBS -j oe
#PBS -S /bin/bash
#PBS -q n6t96h
#PBS -N myjob
#PBS -M name.vorname@unibw.de
#PBS -m abe
cd mydir
./<myprog>

<< ENDE SHELL

chmod 700 run_job


Starten Job

qsub run_myjob

Damit wird in der Warteschlange "n6t96h" das Programm "myprog" zur Ausführung gebracht und sie erhalten Mails zum Jobablauf.
 

2. Variante

Sie steuern die von ihnen gewünschte Warteschlange interaktiv an.
Mit dem Kommando "qsub -q <queue-name> -I -V" wird eine neue Shell gestartet, analog zur SSH-Verbindung z.B per Putty.
Danach werden alle von ihnen gestarteten Tasks in dieser "Queue-Umgebung" ausgeführt.

Wann enden diese "interaktiven" Jobs?

  1. Mit Steuerung-D wird dieser Job wieder beendet.
  2. Mit dem Erreichen der vorgegebenen Verweil/Rechenzeit.
  3. Bricht ihre Task in der Queue "n12t96h" nach 1 Stunde ab, bleiben die Ressourcen dieser Queue für weitere 95 Stunden belegt. Deshalb sollten sie hier ihre Tasks immer unter Kontrolle haben.


Beim Jobstart bekommen Sie eine Jobnummer z.B 123.altix-uv

Mit dem Kommando "qdel 123" können sie den Job vorzeitig beenden.
Mit "qstat -a" bekommen sie eine Übersicht gestarteter Jobs.
Mit "qstat -Q" bekommen Sie eine Queue Übersicht
Pro Kennung können derzeit max. 48 Cores verwendet werden. Wenn es sie Systemauslastung des Systems zulässt, werden vom Administrator wartende Jobs aktiviert.

Wie ist der Queue-Name zu interpretieren:
n steht für Core, die folgende Ziffer bestimmt die max. Anzahl der nutzbaren Cores.
t steht für Time, die folgende Ziffer bestimmt die max. Verweilzeit/Rechenzeit aller genutzer Cores
h steht für Stunde und ist die Masseinheit für die vorgestellte Ziffer

z.B n24t96h besagt, dass mit max. 24 Cores 96 Stunden Rechenzeit erreicht werden kann.

Ergänzender Hinweis

Die System-Erweiterung um 16 Pozessoren = 96 Cores beinhaltet gleichzeitig eine Verdoppelung des Arbeitsspeichers pro Prozessor auf 64GB. Im Bedarfsfall können diese "BIG-RAM" Prozessoren durch die Option "-l mem=128gb" in der Warteschlange "n12t96h" angesteuert werden. Mit der Abfrage "qstat -f <Job ID>|grep exec_vnode" bekommen sie die ausführenden Knoten (Vnodes,Prozessoren) angezeigt. Die Vnodes 32 bis 47 verfügen jeweils über 64GB pro Prozessor.

Bei Fragen und Problemen senden sie bitte eine EMail an "support@unibw.de".

Bild altix-blade und altix-uv / altix

altix-blade und altix-uv / altix-330

 

Bei Problemen wenden Sie sich bitte an die Systemgruppe rzhpc:

  • Tel.: 3218 oder 3202