Storage_review_04_2 by lanyuehua

VIEWS: 39 PAGES: 17

									    Storage Review
             Workshop CCR
         Sardegna, Maggio 2004




Stefano Zani e Pierpaolo Ricci (INFN CNAF)
                        Storage Review
• Grazie all’aumento delle dimensioni dei dischi rigidi, oggi si possono
  superare i 3 TB di spazio disco applicando qualsiasi modello di
  storage:
    – DAS (Direct attached storage), NAS (Network Attached Storage), SAN
      (Storage Area Network) .
• Ovviamente I modelli di NAS e SAN possono scalare a numeri
  notevolemte maggiori (dell’ordine delle decine o centinaia di
  TeraByte).
• Tecnologie in rapida evoluzione.
    – Dischi rigidi
        • Rapida evoluzione su Ultra ATA e SATA (320-400GB) con relativo crollo
          dei prezzi.
        • Momentaneo rallentamento nella uscita dei Dischi FC (MAX 180GB).
    – Raid Controller
        • ATA,SCSI,FC.
        • Controller ATA  FC, SATAFC.
    – Switch Fibre Channel.
        • Nuovi modelli sul mercato con relativo abbassamento dei costi.
      DAS e NAS di fascia bassa

• In generale si tratta di Server Rack_mountable di 3-4 RackUnit
  “imbottiti” di dischi rigidi ATA o SATA gestiti da un paio di RAID
  controller (3Ware, Adaptec ..).
• Costi bassi (2K€ al TB) in calo.
• Buona flessibilita` nella gestione (Linux Box).
• Si trovano comunemente sul mercato Apparati basati su server
  biprocessore Intel in grado di ospitare 16 dischi da 250 GB (4TB
  Lordi, 3 TB Netti Raid5+2HotSpare).
• Problemi rilevati più frequentemente:
    – Sono stati rilevati comportamenti anomali Blocco totale di alcuni modelli
      (Basati su 3Ware) per motivi che non sono stati diagnosticati nemmeno
      dalla casa madre.
    – Guasti frequenti di dischi e controller.
                 NAS di fascia alta
•   Apparati complessi (spesso sono delle Storage Area Network
    chiuse con un sistema di gestione proprietario).
•   I principali produttori sono EmC2 (DELL), NetApp, Procom, IBM.
•   I costi sono ancora alti (6-8K€ al TB) a fronte di una dichiarata
    maggiore continuita` di servizio e una ridondanza a caldo di
    tutti i componenti essenziali.
•   Scalano fino a dimensioni di decine di TB con un unico sistema di
    controllo.
•   I sistemi di controllo e notifica sono in genere molto efficienti.
•   permettono in genere espansioni dei volumi logici senza
    interruzioni di servizio.
•   Sono sistemi chiusi e in genere esportano i propri volumi solo via
    NFS, CIFS, HTTP e HTTPS.
•   Alcuni produttori possono esportare porzioni di spazio
•   Disco Via FC(Verso una SAN) o via iSCSI.
                                             SAN
                                Principali componenti

Disk Device “semplici”
Si tratta di “Shelf” di dischi (da 8 a 16 dischi ) dotati di 1 o 2 controller RAID con
    un numero di uscite Fibre Channel comprese fra 2 e 4.
Tecnologia dei dischi: F.C., SCSI, ATA o SATA.
Sistemi di gestione:
• permettono la configurazione dei raid set e la creazione di partizioni logiche
    (E’ fortemente consigliato verificare la presenza di un sistema efficiente di E-Mail Notification
    in caso di guasto sui componenti essenziali quali dischi, controller, alimentatori o ventole).
•   Tramite il sistema di gestione è spesso possibile definire piu Array con Hot Spare dedicati o
    con un unico Hot Spare Globale.


Principali produttori: Axus (Brownie), Dell, Infortrend, RAIDTech,
Prezzi indicativi per soluzioni ATA to F.C. (2-2,8 K€ al TB).
                                          SAN
                             Principali componenti

Disk Device “Complessi”
Si tratta di apparati complessi dotati di unità dedicate alla gestione di
    quantità disco molto elevate (da decine a centinaia di TB).
Sono in grado di fornire un numero elevato di uscite F.C. lato host. In
    pratica realizzano tutte le funzionalità tipiche di una SAN.
Tecnologia dei dischi: F.C., SCSI, ATA o SATA.
Sistemi di gestione:
•   Creazione di Numerosi Array con Hot Spare comuni
•   Espansione in corsa della capacità disco
•   Creazione dinamica dei volumi
•   Allarmistica e E-Mail Notification su guasto dei componenti.
Principali produttori: Chaparral(RIO), Storagetek(BladeStore),
   IBM(FastT)..
Prezzi indicativi per soluzioni ATA to F.C. (3,5-4K€ al TB).
            Accenno alla Tecnologia BladeStore di
                         Storagetek
  Blade: E’ l’unità di base del sistema ed e’ composto da 5 Dischi in tecnologia
     ATA in raid 0 fra di loro
  Array: E’ l’equivalente di un JBOD per dischi FC e contiene fino a 10 Balde
  Sistema Bladestore: 1 Control Module + Max. 12 Array
  Massima Espandibilità (B280): 12*10*5*250GB =150TB
             Control Module
        Fino a 8 Interfacce FC lato Host
       Fino a 2 controller(4FC) verso HD
                                            Blade (5 HD ADA)

1 1    2 3     4 5       6   7 8     9 10

2 1    2 3     4 5       6   7 8     9 10   Array (10 Blade)
 3     .             .               .
 .                   .
       .                             .
 .
12 1   2 3     4 5       6   7 8     9 10
            Focus Sulla Tecnologia BladeStore di
                         Storagetek
Il sistema permette di creare Raidset Raid 5
con Hot Spare Globali.

E’ possibile creare volumi
dinamicamente (Max 2TB per
Volume con l’attuale release software)
ed associare questi volumi alle
diverse Interfacce FC “lato host”
  “Prestazioni” verificate sui alcuni dei device in uso al
                           CNAF
Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS).

           Oxyria NAS (ATA)
           2 Controller 3Ware
           16 Dischi da 200GB                            Read 65 MB/s
           2 Raidset RAID5+HS (~2,4 TB) .                Write 50 MB/s
           2 Gigabit Ethernet
          Brownie AXUS (ATA-FC)
          16 Dischi da 200GB                             Read 55 MB/s
          RAID5+1HS (~2.5 TB) .                          Write 40 MB/s
          2 Uscite in FC
          Dell Powevault 660f (FC-FC)
          112 dischi FC da 73GB
                                                         Read 42 MB/s
          8 enclosure da 14
                                                         Write 38 MB/s
          7 Raidset (RAID-5)
           con 1 Global Hot Spare(~7TB)
          STK Bladestore (ATA-FC)
          2 Controller con 4 uscite FC                    Read 75 MB/s
          10BLADE costituiti da 5 dischi da               Write 65 MB/s
          250GB RAID-5 su10 Blade +1
          Blade Hot-Spare (~10 TB)
  “Prestazioni” verificate sui alcuni dei device in uso al
                           CNAF
Scrivendo e leggendo file grandi (6GB) da server direttamente collegati (non via NFS).


           Infortrend ES A16F-R (SATA-FC)
           2 Controller con 4 uscite FC                   Read 85 MB/s       Recente
           16 Dischi da 250GB                             Write 90 MB/s
           RAID-5+1Hot-Spare (~3.2 TB)

                             Misure via NFS
                                                    1 Client 30-35MB/s
     NAS                           (NFS)
               IP (Gb Ethernet)                     2-3 Client 35-40 MB/s
                                                    Oltre 5 client le prestazioni
                                                    tendono a diminuire

                                                    Con 92 Client -> 16MB/s
    SAN                                                            (Aggreato)
            F.C.              IP
                   Server
                                   (NFS)            Non si sono notate differenze
                                                    rilevanti via NFS fra accesso via
                                                    NAS o SAN.
                                  SAN
                  IL MODELLO TEORICO


           F.C.                   F.C.
              Switch FC
                                     F.C.
    F.C.
                                  F.C.
                           F.C.
         F.C.      F.C.

Server            Server           Server    Server


                                                      Rete IP




                                                       Client

         Client        Client       Client
                                           SAN
               Utilizzo degli Switch Fibre-Channel


                      F.C.                 F.C.
                         Switch FC
                                              F.C.
               F.C.
                                           F.C.
                                    F.C.
                  F.C.       F.C.

         Server           Server            Server             Server



Con la funzione di “Zoning” sugli switch FC e’ possibile
creare “Zone” (Simili a vlan per porta o per MAC) tramite le
quali associare:
                                                                   Tutto lo storage in SAN
                                                                   viene cosi reso
un server ad un device.
un server a piu device                                             automaticamente
piu server ad un device                                            disponibile a tutti i
piu server a piu device                                            server collegati
                                               SAN
                                         Utilizzo di base..
                                             debian:~# dmesg
                                             SCSI device sda: 3481600000 512-byte hdwr sectors (1782579 MB)
             F.C.
              Switch FCF.C.                  …
      F.C.                F.
                       F.C.                  SCSI device sdb: 3374219264 512-byte hdwr sectors (1727600 MB)
                          C.
         F.C. F.C. F.C.                      debian:~# mdadm -C /dev/md0 --level 0
  Server     Server    Server   Server
                                                       --raid-disks 2 /dev/sda /dev/sdb
A questo punto il server “Vede” tutte le partizioni esportate dagli apparati FC come device /dev/sdx
Per esempio /dev/sda, /dev/sdb, /dev/sdc…

Limiti: Con kernel “vecchi” 2.4.18-xx  Partizioni <1TB
        Con Kernel piu recenti (2.6.6) le partizioni possono arrivare a 16TB ma….
        Il modulo software delle schede FC Qlogic non permette di gestire singoli device superiori a
        2TB! Quindi si e’ costretti ad utilizzare sistemi quali per esempio raid 0 software.

                    debian:~# df -h
                    Filesystem            Size Used Avail Use% Mounted on
                    /dev/hda2             110G 2.8G 101G 3% /
                    tmpfs                 2.0G 0     2.0G 0% /dev/shm
                    /dev/hda1             37M 22M 14M 61% /boot
                    /dev/md0              3.2T 35G 3.2T      2% /mnt/discone
                                       SAN
            Ci piacerebbe di fare qualcosa di piu`..
                                 Gestire volumi in maniera dinamica con un LVM in grado
                                 di accorpare le partizioni disponibili sulla SAN
                                 (Linux LVM, Veritas…)

                                Alta affidabilità in caso di “Down” di uno dei server, il
                                secondo si sostituisce automaticamente al primo senza
                                disservizio per i client (RH Advanced ..)

   Server          Server


                              Vero e proprio “Service Cluster” con il quale, in
                              maniera trasparente per i client, si può aumentare il numero
                              dei server aumentando affidabilità e prestazioni. (IBM GPFS,
                              Sistina GFS..)


Di tutte queste funzionalità per ora nel T1 si utilizza per servizi di produzione solo NFS
ed Oracle in alta affidabilità con RedHat Advanced Server.
      Cluster RedHat A.S. 2.1
• 2 nodi in cluster con eth1 IP heartbeat e un “quorum
  disk”
• Ogni servizio “clustered” ha il suo indirizzo IP associato
  (IP alias)
• Si ha alta affidablità solo su un singolo servizio ma e’
  possibile una configurazione “active/active” Su servizi
  differenti .
• E’ stato provato con successo con I servizi NFS e
  Oracle (NFS in produzione).
• Le operazioni di mount/dismount vengono forzate
  automaticamente usando la SAN per accedere ai
  volumi.
• E’ stato necesario “Patchare” l’agente stonith (Shot The
  Other Node In The Head) per forzare il reboot su nodi
  eventualmente “freezed” utlizzando le presiere
  controllabili via IP di APC.
                      Cluster RedHat A.S. 2.1
APC Master Switch Controller
                                        LAN/WAN
                                                                               APC Master Switch Controller
AP9224 Remote Power on/off
                                           Connection to                       AP9224 Remote Power on/off
         Using IP                                                                       Using IP
                                             LAN/WAN
                                           Ethernet- Eth0
                    Power Supply 220V                            Power Supply 220V
                                        Internal HeartBeat
                                          Ethernet- Eth1

                                   2 Dell 1650 2GB RAM servers

                                                             Fibre Channel connections
           Gadzoox 4218 Switch Fibre                          Using HBA Qla2300 with
                                                             SANsurfer persistent data
                   Channel                                    (Fixed SCSI device order
                                                                      on SAN)
     QUORUM DISK
   ORACLE SERVICE                                                           NFS SERVICE
(AXUS BROWIE 2TB)                                                               (2.5TB)
             Attività di sperimentazione
Cluster file system

GPFS (IBM General Parallel Filesystem)  Test effettuato un anno fa con 3 nodi
risultato parzialmente positivo: OK il volume manager ma Basse prestazioni
soprattutto esportando in NFS lo spazio disco (20MB/s).
GFS (Sistina Global File System)  NON Testato

Object based File System (meta-data server e file distribuiti su più I/O server collegati in
rete)
PVFS (Parallel Virtual File System) Utile soprattutto per creare aree di disco ad
accesso molto veloce (come raid 0 fra dischi distribuiti) utilizzando il secondo disco dei
nodi di calcolo quando non viene utilizzato…. In fase di test (in collaborazione con LHCB)
Dcache (Distributed storage data caching system) non POSIX compliant si
accede comunque ai dati utilizzando dcap (dCache access protocol) in futuro SRM
potrebbe essere una buona interfaccia per dCache.
Da test effettuati al T1 (T1 staff+CMS) utilizzando 20 Pool Node e 100 Client il throuhput
Globale ha raggiunto 1,2 Gbit/s (150MB/s) ...
Lustre Basato anch’esso su Meta-Data Server (Ridondabili)
         OSS (Object Storage Server) che contengono effettivamente i dati.
Su questi File System vale la pena spendere tempo in sperimentazione.
Alcuni di questi file system verranno presi in considerazione nelle prossime presentazioni

								
To top