[컨퍼런스] 2024-1 경희대학교 소프트웨어융합학과 소프트웨어캡스톤디자인 (24.06.21.): Oral 발표 세션

# 주제

	발표자	지도교수	Title
1	김현우	우탁	Immersive Pet: A Non-Controller-Based Interaction Model for Virtual Pet Simulator in Mixed Reality Environments
2	이상은	우탁	Rhythm-Da-Dum
3	최승주	우탁	국궁 습사 소프트웨어 개발
4	임달홍	김휘용,이원희	Multi split-point 및 vision task를 지원하기 위한 Interface 개발
5	황준태	김동한	로봇 손 모델의 디지털 트윈
6	신준섭	이성원	WebRTC와 WebGPU를 활용한 게임 스트리밍 서비스 성능 분석
7	김효준	이원희	검색 증강 생성과 대규모 언어 모델을 이용한 메디컬 리포트 생성 기술 개발
8	차성연	이원희	Conditional Diffusion 모델을 이용한 2D Brain MRI 생성 및 평가
9	김민환	박상근	성희롱 댓글 검열 서비스
10	김민아	박상근	또방 - 맛집 재방문율 분석 및 추천시스템
11	손지원	박상근	영상 내 잔혹 콘텐츠 자동 필터링 시스템
12	구현서	박제만	Two Stage Detection을 활용한 CCTV 영상 내 도로 혼잡도 측정
13	오경제	박제만	오픈소스 인공위성 지상국 소프트웨어 취약점 분석
14	김정민	황효석	Dynamic Obstacle Avoidance using Reinforcement Learning
15	이형석	황효석	Trajectory Prediction을 통한 Collision Avoidance
16	오민준,장호원(팀)	이대호	다중 무대 영상의 시각적 특징을 활용한 자동 교차편집 시스템
17	최호윤	조명아	보행 분석을 통한 감정 인식을 위한 STGCN 구조 제안 및 분석
18	박수현	조명아	Human Figure Drawing을 위한 설명 가능 프레임 워크 구축
19	방민수	강형엽	Surfel 기반의 실시간 글로벌 일루미네이션
20	허건호	강형엽	Body-Part Embedding for Human Motion Generation (신체 파트별 임베딩을 통한 인간 모션 생성)
21	박상준	오승재	아이트래킹 및 생성형 AI 기반 텍스트 리딩 오디오 인터랙션 디자인 및 구현
22	윤주환	오승재	얼굴 및 시선 기반의 화면 회전 mapping function 및 클러칭 gesture

# KeyPoint

Immersive Pet: A Non-Controller-Based Interaction Model for Virtual Pet Simulator in Mixed Reality Environments(김현우, 우탁)

MR, 사용자 몰입감. -> controller x. only voice, hand. -> New Interaction methods
Voice → Speech Recognition(openai whisper) → Sentence Similarity
Hand Tracking(openai) → HandPose
Interaction

Rhythm-Da-Dum(이상은, 우탁)

실제 VR 기기: 실제 손의 자세를 디테일하게 표현하지 못함
hand tracking: haptic 피드백이 어려움
haptic glove + meta quest 사용
북을 두드리는 게임 → 햅틱
Unity XR Interaction Toolkit/XR Hand → OBR SDK → Microsoft MR Toolkit3
- Metaquest에 맞춰서 수정

국궁 습사 소프트웨어 개발(최승주, 우탁)

정확한 자세와 힘으로 제어할 수 있는 습사 프로그램
자세: 깍지손, 줌손, 만작(wifi 신호 세기)
- 양손에 자이로 가속도 센서
- 가상의 과녁: 30cm 간격, 광목천(두꺼운천)
- 낙전 감지센서
구현
- 통신: 와이파이 사용
- 깍지손: Roll값
- 중손
  - 화살 각도: Pitch
  - 화살 방향: Yaw
Q&A
- 피드백: 시각적으로만 구성 (잘 맞출 경우)
- 스크린골프: 센서값으로 측정

Multi split point 및 vision task를 지원하기 위한 interface 개발(임달홍, 김휘용)

feature map: 특징맵을 뽑는 위치(split-point)에 따라 다양한 크기의 특징맵에 대한 vision task를 수행
기존 문제점: layer 및 channel 수가 상의함 + 별도의 Interface 및 모델이 필요함
통합 interface 설계를 목표
최대 channel 수를 입력으로 받도록 Interface 설계

로봇 손 모델의 디지털 트윈(황준태, 김동한)

디지털 트윈: 로봇손의 효율적 운영 유지보수 실시간 모니터링 및 분석
HRI_HAND, Rviz2 & Classic GAZEBO, ROS2
Fusion 360: 21종 123 부품 → Assemble
- Assemble 하기 위한 툴은 없는가?
- URDF joint → 직접 진행함

WebRTC와 WebGPU를 활용한 게임 스트리밍 서비스 성능 분석(신준섭, 이성원)

WebRTC + WebGPU Cloud Gaming
클라우드 게이밍 서비스 : Service Provider → End user
- 서버와 네트워크에 상당한 자원 요구함
WebGPU renderer -> 해상도 끌어올리기 -> gpu 필요해졌음
WebRTC(coturn) + WebGPU(anime4K)
MediaStream → 제약조건 + 콘텐츠 유형 명시하여 미디어 품질 유지
적응형 해상도 스트리밍: FrameRate, PacketLost, ByteReceived 등의 정보를 지속적으로 수신
- 상태에 따라 적합한 해상도를 가진 스트림을 전송
Replace Track 함수를 통해 별도의 스트림 연결 및 재협상 과정 없이 스트림을 변경
WebGPU Renderer
왜 스트리밍 회사에서는 이걸 왜 안 쓰는 걸까? 호환성… 안정성…

검색 증강 생성과 대규모 언어 모델을 이용한 메디컬 리포트 생성 기술 개발(김효준, 이원희)

검색 증강 생성(RAG): 거대 언어 모델 fine tunning과 다름 -> 관련된 context를 제공
- domain specific task에서의 RAG
MIMIC CXR Dataset 흉부 X-ray image와 해당 image에 대한 findings
findings(문장) → Impression(문장)을 생성했을 때 정확도를 검증함.
User → Embedding Model(bge-base-en-v1.5, gte-base, e5-base-v2) → Vector DB → LLAMA3 → New Impression
임베딩 모델 & 파인튜닝: RAG 사용 여부에 따라서 score 구성 → e5 모델이 가장 성능이 좋음
불필요한 단어를 포함하지만 impression에서의 중요한 정보를 잘 담음
MTEB leaderboard: ROGUE score는 높았으나, BLEU score에서 좋지 못한 성능

Conditional Diffusion 모델을 이용한 2D Brain MRI 생성 및 평가(차성연, 이원희)

Generative AI(Diffusion 모델): 뇌질환 분야에서 잘 활용됨 (개인정보 보호 문제를 해결 가능)
Guidance Scale 값을 최적화하는 것이 매우 중요하다.
FID SSIM According to Guidance Scale

성희롱 댓글 검열 서비스(김민환, 박상근)

선정적인 댓글 필터링
영상 제목, 댓글 수집 -> labeling
KoELECTRA 학습 + Chrome extension
너무 재밌는 강연에 내용을 잘 못 들음...ㅎㅎㅎㅎㅎ

또방 - 맛집 재방문율 분석 및 추천시스템(김민아, 박상근)

리뷰와 평점 → 신뢰도 낮아진 문제점 → 재방문율 평가척도
별점 대신 재주문율 → 검색 시 표시되는 순서
재방문율 시각화 및 클러스터링 기반 가게 추천 크롬 익스텐션

영상 내 잔혹 콘텐츠 자동 필터링 시스템(손지원, 박상근)

flow: request → process → response
- 크롬 확장 프로그램 -> Youtube 영상 속 피 블러 → 영상 전송
process: Yolo를 이용한 blood 클래스 segmentation 진행
- Yolov5 vs. Yolov8 비교

Two Stage Detection을 활용한 CCTV 영상 내 도로 혼잡도 측정(구현서, 박제만)

대한민국 연도별 교통 혼잡 비용
문제 정의 : 대기오염, 시간 지연, 교통사고, …
GPS를 통한 도로 혼잡도 측정 시의 문제…
도로 CCTV 데이터를 활용한 이상 운전 및 사고 탐지 모델
Deep sort로 ReID 진행하여 하나의 객체로 인식

오픈소스 인공위성 지상국 소프트웨어 취약점 분석(오경제, 박제만)

도청(spoofing), RF 악성 공격, 시스템 해킹
오픈소스 인공위성 지상국 TinyGS 선정 → 6000명가량
- Tiny GS 취약점 → 인공위성 도청
1. 도청, 2. MQTT 3. DOS 취약점
- RF 송신 코드 제작(보드) 및 악성 RF 신호 전송 -> Header를 알아야 함(?)
- MQTT Topic 파싱 하는 코드에서 Exception Panic 발생 -> MQTT ID/PW 필요
각각에 대해서는 뚫기 어려우나(?) 1, 2, 3을 체이닝 하면 해킹 가능

Dynamic Obstacle Avoidance using Reinforcement Learning(김정민, 황효석)

강화학습을 통한 동적 장애물 회피
PPO, Unity ML-agent (시각화 편함)
1. 장애물 x 2. 정적 장애물 3. 동적 장애물
장애물이 없는 환경에서 목적지까지 이동 + 동적 장애물

Trajectory Prediction을 통한 Collision Avoidance(이형석, 황효석)

사람의 Pose를 기반으로 움직임을 예측하여 회피를 미리 하자.
1. 사람의 pose 추정: 아이작 sim, OpenVINO -> joint 추출
2. 경로 예측: joint로 경로 예측
3. 주행: Navigation 이용

다중 무대의 시각적 특징을 활용한 자동 교차편집 시스템(오민준, 장호원(팀), 이대호)

Motivation: 교차 편집 콘텐츠 증가 → 전문적인 편집 기술 요구, 긴 편집 시간 필요
Related Works
- 유사하다고 판단된 얼굴의 낮은 일치도 → 얼굴의 유사성을 기준으로 판단함
- 수동적 샷 경계 검출 → 샷 경계를 수동적으로 검출함
Target: 교차편집 시스템을 목표로 진행
Process: 전처리 → 편집 경로 탐색 → 교차 편집 생성
- Headpose feature 탐색 → 3차원 상 피처로 2차원 보다 더욱 좋음
- 샷 경계 검출: 밝기 히스토그램을 이용하여 샷 경계 탐색 + 중심인물의 얼굴이 겹치는 경우가 작은 경우에만
  - 중심인물의 얼굴 bounding box IOU로 shot boundary 추정

보행 분석을 통한 감정 인식을 위한 STGCN 구조 제안 및 분석(최호윤, 조명아)

보행 분석 -> 감정 인식 -> 음악 추천
보행 분석을 통해 현재의 감정을 인식하는 STGCN
Skeleton HAR(스켈레톤 기반) + STGCN(보행)
STGCN에서 레이어 추가 -> 성능 개선

Human Figure Drawing을 위한 설명 가능 프레임 워크 구축(박수현, 조명아)

HFD(Human Figure Drawing) : 심리 치료에 쓰임
- ASD : 자폐 스펙트럼 장애의 샘플
- TD : 일반의 샘플
미술 심리 치료나 발달 장애 → HFD test의 모호함
그림을 가지고 ASD/TD 판별 모델
shapley value : feature가 예측 값에 기여한 정도 -> 모델을 설명할 수 있음

Surfel 기반의 실시간 글로벌 일루미네이션(방민수, 강형엽)

Global Illumination: 직접광 + 간접광
Real-Time Global Illumination
Surfel에서 나온 ray가 light source에 도달하면 빛으로 변환
patch-tracing: 실시간 연산 무거움 + 노이즈 많이 낌
Surfel 기반으로 bouncing 계산으로 연산량 줄임
이를 모든 Surfel에서 ray가 나오도록 구성한 것이 아닌, 특정 위치에서만 쏠 수 있도록 구성함

Body-Part Embedding for Human Motion Generation (허건호, 강형엽)

사람의 신체를 backbone, right/left arm, right/left leg 5파트로 나눠서 모션 생성
GPT: 행동을 하는 단어와 part를 연관시킴 - text -> human motion
Model: VQ-VAE, code book 5쌍
- importance connection을 transformer 사이에 추가
- 각각이 독립적으로 학습이 되면 안 되기에 네트워크에서 연관시킴
body-part embedding -> transformer -> VQ-VAE -> human motion 생성
문장 -> GPT -> 임베딩, 연관성까지

아이트래킹 및 생성형 AI 기반 텍스트 리딩 오디오 인터랙션 디자인 및 구현(박상준, 오승재)

글로 읽는 것이 귀찮음 → 글을 읽으면 재미있는 환경을 만들자
VR기기를 착용하고 글을 읽으면 Eye Tracking 하여 읽고 있는 해당 부분의 소리를 들려줌
- eye-tracking + fixation map으로 읽고 있는 부분 추론
- e.g. 폭포소리가 작아지다가 커지며

얼굴 및 시선 기반의 화면 회전 mapping function 및 클러칭 gesture

head rotation + clutching (facial gesture)
- clutching method: 특정 제스처시 회전이 멈춤
제스처 선정 시 고려사항
- 일상에서 사용되지 않음
- 누구나 쉽게 수행가능
- 방향성 존재
- 직관적
최종 제스처: 비웃음(?) -> 어떻게 인식했을까?
사용자의 시선을 기준으로 실시간 heatmap 구현

# 느낀 점

정말 생각보다 다들 한 학기를 알차게 보낸 것 같다. 5분 발표였는데, 5분이 짧게 느껴질 만큼 각자 뚜렷한 연구 분야를 가지고 노력한 것이 느껴지는 발표였다. 옆에서 도규와 같이 들었는데, 모든 발표에서 감탄을 2~3번씩은 한 것 같다. 그리고 교수님들만 질문하는 분위기가 아니라 학생들도 궁금한 것이 있을 때마다 질문을 할 수 있어 궁금한 것이 생길 때마다 질문했다. 윤민이도 궁금한 것이 많았는지 질문을 많이 했는데, 거의 윤민이랑 나랑 질문한 것 합치면 모든 세션에서 다 질문한 듯....

군대를 다녀온 친구들이 딱 4학년이 되는 시기이니 만큼 아는 친구들이 꽤 있었고, 방구석에서 개발만 하는 친구들 덕(?)에 오랜만에 보는 얼굴이 정말 많았는데 1학년때 모습 그대로였다. 나중에 만났을 때 또 어떻게 되어있을지 궁금하다. 그때는 사회에서 보려나?

저작자표시 비영리 변경금지

'IT Trends > Conference, Faire (Experience)' 카테고리의 다른 글

[컨퍼런스] Foundation Models for Autonomy(CVPR 2023, Ashok Elluswamy, Tesla) (0)	2024.07.09
[컨퍼런스] KCC 2024 한국정보과학회 후기: 학회 스케치와 참여 후기 정리 (0)	2024.06.29
[세미나] 모두의 연구소 페이퍼샵: 자율주행 산업 생태계와 주요 기술 소개 (24.05.14.) (0)	2024.05.14
[컨퍼런스] AI EXPO KOREA 2024 회고 (24.05.03.) (0)	2024.05.04
[세미나] AI프렌즈: NeRF(Neural Radiance Field) 트랜드와 속도 발전 동향 (LG전자 김도연) (1)	2024.01.08

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

# 주제

# KeyPoint

# 느낀 점

'IT Trends > Conference, Faire (Experience)' 카테고리의 다른 글

티스토리툴바