Failure Trends in a Large Disk Population by cuiliqing


									      Failure Trends in
a Large Disk Drive Population
                      2007 FAST

   Eduardo Pinhiro, Wolf-Dietrich, Luiz Andre Barroso
                     Google Inc.

             Hard Disk Drive
• The Importance of HDD
  – World’s 90% of Data are stored in Hard disk Drives

• Then, how about the failure patterns or key
  factors of HDD’s lifetime?
  – Unknown

• So, Google observed it with lots of HDDs.
  – More than 100,000disk drives
 How do they collect the data?
• They built “System Health Infrastructure”
  – Deamon is running on every machine.

  – It collects the local data every certain minutes.

  – And the data is stored in repository.
     • Bigtable(System health database) <- GFS(Google File System)
               Detail of HDDs
• Every HDD is consumer-grade!(not for server)
  –   Number of HDDs : more than 100,000
  –   Speed : 5400 ~ 7200 rpm
  –   Size : 80~400GB
  –   Product year : after 2001
  –   Observed Period : 2005.12 ~ 2006.10
• AFR(Annualized Failure rates)

          나이가 2살때부터 AFR이 급격히 증가!

Utilization : Weekly averages of read/write bandwidth
 대체적으로 높은 Utilization -> 높은 AFR

온도가 낮을 수록 좋다? No , 온도가 낮을 수록 failure rate는 높다.
35도에서 40도 사이가 제일 좋은 것으로 나왔다.
Result-Scan Error(1)
Result-Scan Error(2)
  Results-reallocation counts
• Reallocation : 에러가 난 논리 섹터에 새로운 물
  리 섹터를 배정하는 것.
   Results-offline reallocation
• Offline Reallocation : 실제 I/O 할때
  Reallocation을 하는것을 제외하고, Background
  scrubbing 을 할때 발견된 Reallocation.

           Ages in months   Num of Reallocations
 Results-Probational counts(1)
• “On Probation”
  – Disk drive가 어느 섹터가 Bad sector 라는 의심이 들
    면, Probation count를 매긴다. 실제 Bad Sector가 될
    수도 있고, 문제 없이 작동되어 Probation이 해제 될
    수도 있다. 가벼운 경고이다.
Results-Probational counts(2)
                  기타 싞호들
•   Seek Errors
•   CRC Errors
•   Power Cycles
•   Calibration Retries
•   Spin Retires
•   Power-on Hours
•   Vibration
Predictive Power of SMART param
 SMART의 4대 파라미터로 예측할 경우,
 고장 예측률 -> 54%

 SMART의 모든 파라미터로 예측할 경우,
 고장 예측률 -> 64%

 SMART 정보만으로는 예측이 어렵다.
• 기존의 HDD에 대한 상식적 견해와 다른 Result이다.
  (온도 및 이용률과 failure rates와의 관계)

• 다음 4가지 SMART 정보는 Failure Rates와 연관성이
  –   Scan Error
  –   Reallocation Times
  –   Offline Reallocation Times
  –   Probational Counts

• SMART signal만을 이용한 고장 예측 시스템은 어렵

• 그러나, 통제변인이 엄격하게 지켜진 실험데이타
  였다기 보다는, 변인이 짬뽕된 결과기 때문에,
  무엇하나 뚜렷한 성향을 발견하기 어려웠던 거
• 고장 예측 시스템이 hard disk에서는 어려우나,
  Flash Memory에서는?

To top