반응형
https://link.springer.com/chapter/10.1007/978-3-319-16178-5_40
Sign Language Recognition Using Convolutional Neural Networks
There is an undeniable communication problem between the Deaf community and the hearing majority. Innovations in automatic sign language recognition try to tear down this communication barrier. Our...
link.springer.com
# Keypoint
- sign language는 나라마다 다름,,, 손모양 뿐만 아니라 바디의 움직임도 중요.
- kinect 와 CNN을 사용하여 수화 인식. 20가지의 class에 230장 가량의 dataset
- 4가지 형식의 동영상 form으로 데이터 구성. (RGB, Depth, user index, skeleton)
- data argumentation으로 데이터를 불린 후 손의 데이터 + 바디전체의 데이터 2-stream CNN, max pooling, ReLU, weight는 정규분포화, 표준편차는 0.04, mini batch 20개, 학습률(Learning rate)은 0.03부터 매 epoch마다 5%씩 감소. Dropout사용
- accuracy - training set : 91%, test set : 95%? user index data를 넣고 안넣고의 차이? training set에서는 전처리 후 학습! test set에서는 grey scale로 바꾸고 depth 맵만 넣어서 성능이 높아졌다..?
- 처음에는 hyper tan activation을 사용해서 error rate가 20%가량,, but ReLU + dropout + LCN(2 layer) + data augmentation -> error rate가 8%가량
- ++ 그리고 왜 2개의 layer로 구축했는지 입증 필요,,
# 느낀점
ECCV(European Conference on Computer Vision) 즉 Top conference지만, 약간 의문이 드는 점이 많은 논문이다. 물론 수많은 과정 끝에 도달한 결론이며 이러한 결과에 쓰인 algorithm도 일리있겠지만, 하지만 왜 이러한 과정으로 결론을 도출했는지에 대한 근거가 명확하지 않다.
반응형