본문 바로가기
Machine Learning

테슬라가 데이터를 다루는 법, 딥러닝을 차별화 하는 데이터 품질

by 임아톰 2021. 4. 28.

딥러닝을 처음 배울 때는 딥러닝 모델에 집중해서 배웁니다. 이미지 처리에 사용되는 CNN 모델은 어떻게 동작하고 또 RNN 모델은 어떻게 동작한다든지. 간단한 프로젝트를 진행해볼 때도 잘 가공된 데이터가 보통 주어집니다. 이러한 데이터로 프로젝트를 진행하다 보면 데이터의 소중함을 잊게 되곤 합니다.

 

하지만, 실제 딥러닝을 활용하여 프로젝트를 진행하게 된다면 집중해야할 부분은 데이터가 될 것입니다.

 

이를 잘 정리한 영상이 있어 공유합니다.

www.youtube.com/watch?v=k3zzHLBVJq8&list=LL&index=1

테슬라가 데이터를 다루는 방법

아래는 영상에 관한 간단한 정리이며 영상을 직접 보시는 걸 추천드립니다.

 

Andrew Ng 교수는 많은 딥러닝 구축의 문제들에 대해 코드를 개선하기 보다 체계적인 방식으로 데이터를 개선하는 쪽으로 사고방식을 바꾸어야 한다고 말합니다. Andrew Ng 교수는 머신러닝의 80%가 데이터 정리라 말하고 있으며 AI 프로젝트의 성패는 데이터 정리에서 그 80%가 결정한다고 합니다.

 

어떻게 데이터를 다루어야 될까

1. 고품질의 데이터

2. 라벨링의 일관성

3. 모델 최신 여부 < 데이터 품질

4. 오류 발생시 코드 개선 보다 데이터 개선이 유용

5. 노이즈가 많은 소규모 데이터 셋은 집중 관리해야

6. 데이터 품질을 높이기 위한 도구와 서비스를 갖추어야

 

테슬라는 데이터를 어떻게 다룰까?

 

주행 데이터의 차이를 만드는 세 가지

1. 컴퓨터 비전 인식: 물체를 감지하는 것

  • 실제 주행 데이터를 기반으로 함
  • 부정확성 감지 - 상황 스냅샷 저장 - 라벨러가 직접 라벨링 - 재훈련 - 재배포

2. 예측

  • 실제 주행 데이터 기반
  • 이벤트 시퀀스 앞 뒤 상황을 비전 데이터로 저장
       - 과거 시점부터 되감기하며 라벨링
       - 미래, 답이 정해져 있으므로 자동 라벨링이 가능
  • 비전 데이터 크기를 신경망으로 간소화해 저장
  • 라벨링 자동화와 데이터 간소화를 통해 트레이닝 데이터 규모를 크게 늘리는 것이 가능

3. 경로 계획 및 실운전: 제한 속도 유지, 차선 변경, 저속 차량 추월 등이 속함

  • 모방 학습: 현실 세계에서 인간의 주행 궤도를 취함
  • 라벨러의 수동적인 라벨링 과정 필요 없음

 

데이터를 단순화 시켜야 하며 모델은 한번에 하나씩만 복잡하게   - Andrej

 

karpathy.github.io/2019/04/25/recipe/

 

A Recipe for Training Neural Networks

Some few weeks ago I posted a tweet on “the most common neural net mistakes”, listing a few common gotchas related to training neural nets. The tweet got quite a bit more engagement than I anticipated (including a webinar :)). Clearly, a lot of people

karpathy.github.io

신경 과정 첫 번째는 데이터와 하나가 되는 것. 코드를 건드리지 않고 데이터를 철저히 검사하는 것부터 시작. 딥러닝 자체가 사실상 '데이터의 압축'

 

 

www.youtube.com/watch?v=hx7BXih7zx8

AI for Full-Self Driving at Tesla

 

반응형

'Machine Learning' 카테고리의 다른 글

딥러닝 개발 환경 구축하기  (0) 2022.01.07
scikit-learn에서는 왜 fit을 사용하는가  (0) 2021.05.05
딥러닝에서 중요한 것  (0) 2021.02.01