반응형
https://link.springer.com/chapter/10.1007/978-3-319-16178-5_40
# Keypoint
- sign language는 나라마다 다름,,, 손모양 뿐만 아니라 바디의 움직임도 중요.
- kinect 와 CNN을 사용하여 수화 인식. 20가지의 class에 230장 가량의 dataset
- 4가지 형식의 동영상 form으로 데이터 구성. (RGB, Depth, user index, skeleton)
- data argumentation으로 데이터를 불린 후 손의 데이터 + 바디전체의 데이터 2-stream CNN, max pooling, ReLU, weight는 정규분포화, 표준편차는 0.04, mini batch 20개, 학습률(Learning rate)은 0.03부터 매 epoch마다 5%씩 감소. Dropout사용
- accuracy - training set : 91%, test set : 95%? user index data를 넣고 안넣고의 차이? training set에서는 전처리 후 학습! test set에서는 grey scale로 바꾸고 depth 맵만 넣어서 성능이 높아졌다..?
- 처음에는 hyper tan activation을 사용해서 error rate가 20%가량,, but ReLU + dropout + LCN(2 layer) + data augmentation -> error rate가 8%가량
- ++ 그리고 왜 2개의 layer로 구축했는지 입증 필요,,
# 느낀점
ECCV(European Conference on Computer Vision) 즉 Top conference지만, 약간 의문이 드는 점이 많은 논문이다. 물론 수많은 과정 끝에 도달한 결론이며 이러한 결과에 쓰인 algorithm도 일리있겠지만, 하지만 왜 이러한 과정으로 결론을 도출했는지에 대한 근거가 명확하지 않다.
반응형