본문 바로가기
Embedded System

Dependability, Fault, Error, Failure, FDIR 용어 정리

by 임아톰 2022. 8. 18.

Dependability

  • 시스템의 기능 또는 서비스에 대한 신뢰성
  • Dependable 시스템은 사용자가 시스템이 제공하는 서비스가 올바르다고 신뢰할 수 있는 시스템

 

 

Fault (결함)

  • 시스템의 무결성에서 벗어나는 일시적 혹은 영구적인 변화
  • 시스템 작동 중 fault로 인해 시스템이 서비스를 제공하지 못할 수도 있음. 즉, dependability를 감소시킬 수 있음
  • fault는 내부적인 원인(sw 결함 등)으로 발생할 수도 있고 외부적인 원인 (부품의 노화)으로 발생할 수도 있음

 

※ Fault의 종류

Systematic Fault: deterministic fault
  •   HW systematic fault: 잘못된 사양서 -> 요구사항 재정립, 사양서 수정
  •   SW systematic fault: 핸드 코딩 실수로 인한 무한 루프

 

Random HW Fault: HW가 원인이 되어 일어나는 non-deterministic fault
  •   Permanent fault:  회로 open, short -> 감지하고 복구하는 시스템 추가
  •   Transient HW fault: 램 cell을 떠다니며 간헐적으로 short 시키는 먼지 덩어리

 

 

Error (오류)

  • fault가 발현된 결과
  • 비유하자면 fault가 질병이고 error가 질병에 의한 증상
  • fault가 존재하는 것만으로 시스템의 dependability를 감소시키진 않음. fault가 활성화 되어야 시스템의 dependability를 감소시킴
  • error는 다른 error를 발생시킬 수 있는데 이를 error propagation (에러 전파)라 함

 

 

Failure (고장)

  • error가 시스템을 넘어 전파되어 시스템이 더 이상 서비스를 제공하지 못하는 것
  • 한 시스템의 failure는 다른 시스템의 fault로 이어질 수 있음
  • ...Failure -> Fault -> Error -> Failure -> Fault ... 와 같이 반복적으로 발생할 수 있음

 

 

Fault Detection, Isolation and Recovery (FDIR)

  • 시스템 동작 중 fault를 핸들링하는 프로세스를 FDIR이라 함

 

Fault Detection

  • fault를 처리하는 데 있어 첫 번째 과정으로 fault가 발생한 것을 인지하는 것
  • 근원적인 fault를 탐지하는 것은 어려워서 보통 시스템의 상태를 모니터링하여 error를 탐지

 

Isolation

  • error의 원인을 분리하여 recovery가 가능하도록 하는 것

 

Recovery

  • 시스템을 다시 제어 가능한 상태로 돌리는 것
  • Isolation이 완료되면 recovery가 시작

 

참고

AUTOSAR Explanation of Error Handling on Application Level

반응형