강화학습

    [인공지능신문] AI ( supervised learning : Robots Learn Human Behavior ) - 부제 : 더이상의 서빙 아르바이트생은 없다!

    # keypoint : 로봇에게 집안일을 하는 방법을 보여주는 것으로 로봇은 인간의 행동을 관찰함으로써 식탁을 차리는 것과 같은 복잡한 일을 수행하는 법을 배운다. MIT 연구팀은 로봇들이 복잡한 작업을 배울 수 있도록 하는 '불확실한 스펙을 가진 계획 수립(Planning with Uncertain Specifications. 이하, PUNS)' 시스템을 개발. 보상 공학(Reward engineering)은 강화학습에서 높은 성과에 도출하기 위해 매우 중요하며, 이전의 연구에는 주로 보상을 대표하는 마르코비안(Markovian) 기능에 초점을 맞춤. 또한 사용자가 직접 정의한 작업 사양에 초점을 맞추는 비마르코프(non-Markov) 보상을 선형 시간 논리(LTL, linear temporal log..

    [로봇신문] AI ( 자율보행로봇 ) - 부제 : 생채 모방 로봇 ( 새끼 사슴 )

    # keypoint 구글이 인간의 개입없이 스스로 걸어 돌아다닐 수 있게 된 로봇을 개발 - 장차 인간이 곁에 없는 상황에서도 거칠고 알려지지 않은 지형까지 지나 다니게 될 것 + 경사, 계단, 장애물이 있는 평평한 지형과 같은 유사한 환경에 빠르게 적응 원리 : 일반적으로 시뮬레이션에서 수행(강화학습). 가상 도플갱어 로봇은 알고리즘이 안전하게 작동할 수 있을 정도로 강력해질 때까지 가상 도플갱어 환경의 주변을 맴돈 후 이 가상 도플갱어 로봇은 물리적 로봇으로 들어가서 시뮬레이션을 실제상황에 적용. (1년 전 '로봇이 실제 세계에서 어떻게 배울 수 있는지'를 알아낸 연구결과에 기반한 것. ) 훈련과정 로봇이 탐사할 수 있는 지형의 경계를 정하고 한번에 여러 번 움직이도록 훈련시킴. 로봇이 앞으로 걷는 ..

    [Youtube] Samsung Techtonic 2019: 회로설계자동화 - 회로설계자동화를 위한 강화학습적용기: 제조현장 강화학습 적용가이드 (민찬호 프로 (AI선행연구Lab))

    Track1. 회로설계자동화를 위한 강화학습적용기 - 제조현장 강화학습 적용가이드 (민찬호 프로 (AI선행연구Lab)) 1. 시작하기에 앞서 : 프로젝트 소개 + 강화학습이란? - 반도체 회로(PCB) 설계프로세스 자동화기술 : pin(start)과 ball(end)을 잇는 회로 설계 - 반도체 라우팅 프로젝트의 특징 : 데이터 적음(전무가가 손으로 설계). 회로간의 교차가 없어야함(간섭 없어야함). pin(start)(시작점)과 ball(end)(끝점)은 고정되어 있음. unsupervized learning(강화학습) : 잘하면 상, 못하면 벌. 실제행동의 경험에서 배우고 직접생성. 일반적인 방법론으로 모든 문제에 적용가능한 것으로 보임. 성능이 떨어짐. Environment : 강화학습이 이루어지는..