Embedded System
Dependability, Fault, Error, Failure, FDIR 용어 정리
임아톰
2022. 8. 18. 19:06
Dependability
- 시스템의 기능 또는 서비스에 대한 신뢰성
- Dependable 시스템은 사용자가 시스템이 제공하는 서비스가 올바르다고 신뢰할 수 있는 시스템
Fault (결함)
- 시스템의 무결성에서 벗어나는 일시적 혹은 영구적인 변화
- 시스템 작동 중 fault로 인해 시스템이 서비스를 제공하지 못할 수도 있음. 즉, dependability를 감소시킬 수 있음
- fault는 내부적인 원인(sw 결함 등)으로 발생할 수도 있고 외부적인 원인 (부품의 노화)으로 발생할 수도 있음
※ Fault의 종류
Systematic Fault: deterministic fault
- HW systematic fault: 잘못된 사양서 -> 요구사항 재정립, 사양서 수정
- SW systematic fault: 핸드 코딩 실수로 인한 무한 루프
Random HW Fault: HW가 원인이 되어 일어나는 non-deterministic fault
- Permanent fault: 회로 open, short -> 감지하고 복구하는 시스템 추가
- Transient HW fault: 램 cell을 떠다니며 간헐적으로 short 시키는 먼지 덩어리
Error (오류)
- fault가 발현된 결과
- 비유하자면 fault가 질병이고 error가 질병에 의한 증상
- fault가 존재하는 것만으로 시스템의 dependability를 감소시키진 않음. fault가 활성화 되어야 시스템의 dependability를 감소시킴
- error는 다른 error를 발생시킬 수 있는데 이를 error propagation (에러 전파)라 함
Failure (고장)
- error가 시스템을 넘어 전파되어 시스템이 더 이상 서비스를 제공하지 못하는 것
- 한 시스템의 failure는 다른 시스템의 fault로 이어질 수 있음
- ...Failure -> Fault -> Error -> Failure -> Fault ... 와 같이 반복적으로 발생할 수 있음
Fault Detection, Isolation and Recovery (FDIR)
- 시스템 동작 중 fault를 핸들링하는 프로세스를 FDIR이라 함
Fault Detection
- fault를 처리하는 데 있어 첫 번째 과정으로 fault가 발생한 것을 인지하는 것
- 근원적인 fault를 탐지하는 것은 어려워서 보통 시스템의 상태를 모니터링하여 error를 탐지
Isolation
- error의 원인을 분리하여 recovery가 가능하도록 하는 것
Recovery
- 시스템을 다시 제어 가능한 상태로 돌리는 것
- Isolation이 완료되면 recovery가 시작
참고
AUTOSAR Explanation of Error Handling on Application Level
반응형