# 주제
발표자 | 지도교수 | Title | |
1 | 김현우 | 우탁 | Immersive Pet: A Non-Controller-Based Interaction Model for Virtual Pet Simulator in Mixed Reality Environments |
2 | 이상은 | 우탁 | Rhythm-Da-Dum |
3 | 최승주 | 우탁 | 국궁 습사 소프트웨어 개발 |
4 | 임달홍 | 김휘용,이원희 | Multi split-point 및 vision task를 지원하기 위한 Interface 개발 |
5 | 황준태 | 김동한 | 로봇 손 모델의 디지털 트윈 |
6 | 신준섭 | 이성원 | WebRTC와 WebGPU를 활용한 게임 스트리밍 서비스 성능 분석 |
7 | 김효준 | 이원희 | 검색 증강 생성과 대규모 언어 모델을 이용한 메디컬 리포트 생성 기술 개발 |
8 | 차성연 | 이원희 | Conditional Diffusion 모델을 이용한 2D Brain MRI 생성 및 평가 |
9 | 김민환 | 박상근 | 성희롱 댓글 검열 서비스 |
10 | 김민아 | 박상근 | 또방 - 맛집 재방문율 분석 및 추천시스템 |
11 | 손지원 | 박상근 | 영상 내 잔혹 콘텐츠 자동 필터링 시스템 |
12 | 구현서 | 박제만 | Two Stage Detection을 활용한 CCTV 영상 내 도로 혼잡도 측정 |
13 | 오경제 | 박제만 | 오픈소스 인공위성 지상국 소프트웨어 취약점 분석 |
14 | 김정민 | 황효석 | Dynamic Obstacle Avoidance using Reinforcement Learning |
15 | 이형석 | 황효석 | Trajectory Prediction을 통한 Collision Avoidance |
16 | 오민준,장호원(팀) | 이대호 | 다중 무대 영상의 시각적 특징을 활용한 자동 교차편집 시스템 |
17 | 최호윤 | 조명아 | 보행 분석을 통한 감정 인식을 위한 STGCN 구조 제안 및 분석 |
18 | 박수현 | 조명아 | Human Figure Drawing을 위한 설명 가능 프레임 워크 구축 |
19 | 방민수 | 강형엽 | Surfel 기반의 실시간 글로벌 일루미네이션 |
20 | 허건호 | 강형엽 | Body-Part Embedding for Human Motion Generation (신체 파트별 임베딩을 통한 인간 모션 생성) |
21 | 박상준 | 오승재 | 아이트래킹 및 생성형 AI 기반 텍스트 리딩 오디오 인터랙션 디자인 및 구현 |
22 | 윤주환 | 오승재 | 얼굴 및 시선 기반의 화면 회전 mapping function 및 클러칭 gesture |
# KeyPoint
Immersive Pet: A Non-Controller-Based Interaction Model for Virtual Pet Simulator in Mixed Reality Environments(김현우, 우탁)
- MR, 사용자 몰입감. -> controller x. only voice, hand. -> New Interaction methods
- Voice → Speech Recognition(openai whisper) → Sentence Similarity
- Hand Tracking(openai) → HandPose
- Interaction
Rhythm-Da-Dum(이상은, 우탁)
- 실제 VR 기기: 실제 손의 자세를 디테일하게 표현하지 못함
- hand tracking: haptic 피드백이 어려움
- haptic glove + meta quest 사용
- 북을 두드리는 게임 → 햅틱
- Unity XR Interaction Toolkit/XR Hand → OBR SDK → Microsoft MR Toolkit3
- Metaquest에 맞춰서 수정
국궁 습사 소프트웨어 개발(최승주, 우탁)
- 정확한 자세와 힘으로 제어할 수 있는 습사 프로그램
- 자세: 깍지손, 줌손, 만작(wifi 신호 세기)
- 양손에 자이로 가속도 센서
- 가상의 과녁: 30cm 간격, 광목천(두꺼운천)
- 낙전 감지센서
- 구현
- 통신: 와이파이 사용
- 깍지손: Roll값
- 중손
- 화살 각도: Pitch
- 화살 방향: Yaw
- Q&A
- 피드백: 시각적으로만 구성 (잘 맞출 경우)
- 스크린골프: 센서값으로 측정
Multi split point 및 vision task를 지원하기 위한 interface 개발(임달홍, 김휘용)
- feature map: 특징맵을 뽑는 위치(split-point)에 따라 다양한 크기의 특징맵에 대한 vision task를 수행
- 기존 문제점: layer 및 channel 수가 상의함 + 별도의 Interface 및 모델이 필요함
- 통합 interface 설계를 목표
- 최대 channel 수를 입력으로 받도록 Interface 설계
로봇 손 모델의 디지털 트윈(황준태, 김동한)
- 디지털 트윈: 로봇손의 효율적 운영 유지보수 실시간 모니터링 및 분석
- HRI_HAND, Rviz2 & Classic GAZEBO, ROS2
- Fusion 360: 21종 123 부품 → Assemble
- Assemble 하기 위한 툴은 없는가?
- URDF joint → 직접 진행함
WebRTC와 WebGPU를 활용한 게임 스트리밍 서비스 성능 분석(신준섭, 이성원)
- WebRTC + WebGPU Cloud Gaming
- 클라우드 게이밍 서비스 : Service Provider → End user
- 서버와 네트워크에 상당한 자원 요구함
- WebGPU renderer -> 해상도 끌어올리기 -> gpu 필요해졌음
- WebRTC(coturn) + WebGPU(anime4K)
- MediaStream → 제약조건 + 콘텐츠 유형 명시하여 미디어 품질 유지
- 적응형 해상도 스트리밍: FrameRate, PacketLost, ByteReceived 등의 정보를 지속적으로 수신
- 상태에 따라 적합한 해상도를 가진 스트림을 전송
- Replace Track 함수를 통해 별도의 스트림 연결 및 재협상 과정 없이 스트림을 변경
- WebGPU Renderer
- 왜 스트리밍 회사에서는 이걸 왜 안 쓰는 걸까? 호환성… 안정성…
검색 증강 생성과 대규모 언어 모델을 이용한 메디컬 리포트 생성 기술 개발(김효준, 이원희)
- 검색 증강 생성(RAG): 거대 언어 모델 fine tunning과 다름 -> 관련된 context를 제공
- domain specific task에서의 RAG
- MIMIC CXR Dataset 흉부 X-ray image와 해당 image에 대한 findings
- findings(문장) → Impression(문장)을 생성했을 때 정확도를 검증함.
- User → Embedding Model(bge-base-en-v1.5, gte-base, e5-base-v2) → Vector DB → LLAMA3 → New Impression
- 임베딩 모델 & 파인튜닝: RAG 사용 여부에 따라서 score 구성 → e5 모델이 가장 성능이 좋음
- 불필요한 단어를 포함하지만 impression에서의 중요한 정보를 잘 담음
- MTEB leaderboard: ROGUE score는 높았으나, BLEU score에서 좋지 못한 성능
Conditional Diffusion 모델을 이용한 2D Brain MRI 생성 및 평가(차성연, 이원희)
- Generative AI(Diffusion 모델): 뇌질환 분야에서 잘 활용됨 (개인정보 보호 문제를 해결 가능)
- Guidance Scale 값을 최적화하는 것이 매우 중요하다.
- FID SSIM According to Guidance Scale
성희롱 댓글 검열 서비스(김민환, 박상근)
- 선정적인 댓글 필터링
- 영상 제목, 댓글 수집 -> labeling
- KoELECTRA 학습 + Chrome extension
- 너무 재밌는 강연에 내용을 잘 못 들음...ㅎㅎㅎㅎㅎ
또방 - 맛집 재방문율 분석 및 추천시스템(김민아, 박상근)
- 리뷰와 평점 → 신뢰도 낮아진 문제점 → 재방문율 평가척도
- 별점 대신 재주문율 → 검색 시 표시되는 순서
- 재방문율 시각화 및 클러스터링 기반 가게 추천 크롬 익스텐션
영상 내 잔혹 콘텐츠 자동 필터링 시스템(손지원, 박상근)
- flow: request → process → response
- 크롬 확장 프로그램 -> Youtube 영상 속 피 블러 → 영상 전송
- process: Yolo를 이용한 blood 클래스 segmentation 진행
- Yolov5 vs. Yolov8 비교
Two Stage Detection을 활용한 CCTV 영상 내 도로 혼잡도 측정(구현서, 박제만)
- 대한민국 연도별 교통 혼잡 비용
- 문제 정의 : 대기오염, 시간 지연, 교통사고, …
- GPS를 통한 도로 혼잡도 측정 시의 문제…
- 도로 CCTV 데이터를 활용한 이상 운전 및 사고 탐지 모델
- Deep sort로 ReID 진행하여 하나의 객체로 인식
오픈소스 인공위성 지상국 소프트웨어 취약점 분석(오경제, 박제만)
- 도청(spoofing), RF 악성 공격, 시스템 해킹
- 오픈소스 인공위성 지상국 TinyGS 선정 → 6000명가량
- Tiny GS 취약점 → 인공위성 도청
- 1. 도청, 2. MQTT 3. DOS 취약점
- RF 송신 코드 제작(보드) 및 악성 RF 신호 전송 -> Header를 알아야 함(?)
- MQTT Topic 파싱 하는 코드에서 Exception Panic 발생 -> MQTT ID/PW 필요
- 각각에 대해서는 뚫기 어려우나(?) 1, 2, 3을 체이닝 하면 해킹 가능
Dynamic Obstacle Avoidance using Reinforcement Learning(김정민, 황효석)
- 강화학습을 통한 동적 장애물 회피
- PPO, Unity ML-agent (시각화 편함)
- 1. 장애물 x 2. 정적 장애물 3. 동적 장애물
- 장애물이 없는 환경에서 목적지까지 이동 + 동적 장애물
Trajectory Prediction을 통한 Collision Avoidance(이형석, 황효석)
- 사람의 Pose를 기반으로 움직임을 예측하여 회피를 미리 하자.
- 1. 사람의 pose 추정: 아이작 sim, OpenVINO -> joint 추출
- 2. 경로 예측: joint로 경로 예측
- 3. 주행: Navigation 이용
다중 무대의 시각적 특징을 활용한 자동 교차편집 시스템(오민준, 장호원(팀), 이대호)
- Motivation: 교차 편집 콘텐츠 증가 → 전문적인 편집 기술 요구, 긴 편집 시간 필요
- Related Works
- 유사하다고 판단된 얼굴의 낮은 일치도 → 얼굴의 유사성을 기준으로 판단함
- 수동적 샷 경계 검출 → 샷 경계를 수동적으로 검출함
- Target: 교차편집 시스템을 목표로 진행
- Process: 전처리 → 편집 경로 탐색 → 교차 편집 생성
- Headpose feature 탐색 → 3차원 상 피처로 2차원 보다 더욱 좋음
- 샷 경계 검출: 밝기 히스토그램을 이용하여 샷 경계 탐색 + 중심인물의 얼굴이 겹치는 경우가 작은 경우에만
- 중심인물의 얼굴 bounding box IOU로 shot boundary 추정
보행 분석을 통한 감정 인식을 위한 STGCN 구조 제안 및 분석(최호윤, 조명아)
- 보행 분석 -> 감정 인식 -> 음악 추천
- 보행 분석을 통해 현재의 감정을 인식하는 STGCN
- Skeleton HAR(스켈레톤 기반) + STGCN(보행)
- STGCN에서 레이어 추가 -> 성능 개선
Human Figure Drawing을 위한 설명 가능 프레임 워크 구축(박수현, 조명아)
- HFD(Human Figure Drawing) : 심리 치료에 쓰임
- ASD : 자폐 스펙트럼 장애의 샘플
- TD : 일반의 샘플
- 미술 심리 치료나 발달 장애 → HFD test의 모호함
- 그림을 가지고 ASD/TD 판별 모델
- shapley value : feature가 예측 값에 기여한 정도 -> 모델을 설명할 수 있음
Surfel 기반의 실시간 글로벌 일루미네이션(방민수, 강형엽)
- Global Illumination: 직접광 + 간접광
- Real-Time Global Illumination
- Surfel에서 나온 ray가 light source에 도달하면 빛으로 변환
- patch-tracing: 실시간 연산 무거움 + 노이즈 많이 낌
- Surfel 기반으로 bouncing 계산으로 연산량 줄임
- 이를 모든 Surfel에서 ray가 나오도록 구성한 것이 아닌, 특정 위치에서만 쏠 수 있도록 구성함
Body-Part Embedding for Human Motion Generation (허건호, 강형엽)
- 사람의 신체를 backbone, right/left arm, right/left leg 5파트로 나눠서 모션 생성
- GPT: 행동을 하는 단어와 part를 연관시킴 - text -> human motion
- Model: VQ-VAE, code book 5쌍
- importance connection을 transformer 사이에 추가
- 각각이 독립적으로 학습이 되면 안 되기에 네트워크에서 연관시킴
- body-part embedding -> transformer -> VQ-VAE -> human motion 생성
- 문장 -> GPT -> 임베딩, 연관성까지
아이트래킹 및 생성형 AI 기반 텍스트 리딩 오디오 인터랙션 디자인 및 구현(박상준, 오승재)
- 글로 읽는 것이 귀찮음 → 글을 읽으면 재미있는 환경을 만들자
- VR기기를 착용하고 글을 읽으면 Eye Tracking 하여 읽고 있는 해당 부분의 소리를 들려줌
- eye-tracking + fixation map으로 읽고 있는 부분 추론
- e.g. 폭포소리가 작아지다가 커지며
얼굴 및 시선 기반의 화면 회전 mapping function 및 클러칭 gesture
- head rotation + clutching (facial gesture)
- clutching method: 특정 제스처시 회전이 멈춤
- 제스처 선정 시 고려사항
- 일상에서 사용되지 않음
- 누구나 쉽게 수행가능
- 방향성 존재
- 직관적
- 최종 제스처: 비웃음(?) -> 어떻게 인식했을까?
- 사용자의 시선을 기준으로 실시간 heatmap 구현
# 결과 기록
TBD..
# 느낀 점
정말 생각보다 다들 한 학기를 알차게 보낸 것 같다. 5분 발표였는데, 5분이 짧게 느껴질 만큼 각자 뚜렷한 연구 분야를 가지고 노력한 것이 느껴지는 발표였다. 옆에서 도규와 같이 들었는데, 모든 발표에서 감탄을 2~3번씩은 한 것 같다. 그리고 교수님들만 질문하는 분위기가 아니라 학생들도 궁금한 것이 있을 때마다 질문을 할 수 있어 궁금한 것이 생길 때마다 질문했다. 윤민이도 궁금한 것이 많았는지 질문을 많이 했는데, 거의 윤민이랑 나랑 질문한 것 합치면 모든 세션에서 다 질문한 듯....
군대를 다녀온 친구들이 딱 4학년이 되는 시기이니 만큼 아는 친구들이 꽤 있었고, 방구석에서 개발만 하는 친구들 덕(?)에 오랜만에 보는 얼굴이 정말 많았는데 1학년때 모습 그대로였다. 나중에 만났을 때 또 어떻게 되어있을지 궁금하다. 그때는 사회에서 보려나?
'IT Trends > Conference, Faire (Experience)' 카테고리의 다른 글
[컨퍼런스] Foundation Models for Autonomy(CVPR 2023, Ashok Elluswamy, Tesla) (0) | 2024.07.09 |
---|---|
[컨퍼런스] KCC 2024 한국정보과학회 후기: 학회 스케치와 참여 후기 정리 (0) | 2024.06.29 |
[세미나] 모두의 연구소 페이퍼샵: 자율주행 산업 생태계와 주요 기술 소개 (24.05.14.) (0) | 2024.05.14 |
[컨퍼런스] AI EXPO KOREA 2024 회고 (24.05.03.) (0) | 2024.05.04 |
[세미나] AI프렌즈: NeRF(Neural Radiance Field) 트랜드와 속도 발전 동향 (LG전자 김도연) (1) | 2024.01.08 |