Метод за обучение на алгоритми, наречен дълбоко подкрепящо обучение, който използва награди, за да мотивира изкуствения интелект за постигане на цел, се оказва много обещаващ в областта на компютърната навигация.

Изследователи от университета в Колорадо наскоро демонстрираха система, което ще позволи на роботите да намерят посока по туристическите пътеки според записите на камерата. Отново учени от ETH Цюрих в неговия документ описаха рамка за машинно обучение, която ще помогне на четириногите роботи да станат от земята, когато се срещнат и паднат.

IN документи наскоро публикуван на предпечатния сървър на Arxiv, научният екип предлага "хибриден" алгоритъм за дълбоко подсилване, който комбинира данни от цифрова симулация и реалния свят и позволява на квадрокоптера да се движи по коридорите в сградата.

„В тази работа искаме да проектираме алгоритъм за учене на трансфер, при който роботът придобива физическо поведение“, пишат авторите на публикацията. „Реалният опит се използва основно за да се научиш да летиш, докато симулираният опит се използва за да се научиш да обобщаваш.“

Защо да използваме симулирани данни? Както отбелязват изследователите, обобщаването силно зависи от размера и разнообразието на набора от данни. Вярно е, че колкото повече и по-разнообразни данни са на разположение, толкова по-добра е производителността. Но получаването на реални данни отнема много време и е скъпо. Съществува обаче един сериозен проблем със симулираните данни - полетните данни са с по-ниско качество и сложната физика и въздушните течения често се моделират неправилно.

nextech

Следователно изследователите са използвали реални данни за обучение на динамиката на системата и симулирани данни, за да овладеят процеса на обобщаващо възприятие. Техната архитектура за машинно обучение се състои от две части: подсистема за възприятие, която предава визуалните елементи от симулацията, и контролната подсистема, която получава реалните данни.

Екипът използва за обучението симулатор на Гибсън, принадлежащ на университета Станфорд, който съдържа голям брой 3D сканирани среди. Те моделираха виртуален квадрокоптер с камери по такъв начин, че действията да се контролират директно от позицията на камерата. Получени са 17 милиона точки от симулацията, които учените комбинират с 14 000 точки от данни, уловени след провеждане на процедура, научена в симулация на коридор в една от сградите на Калифорнийския университет, Бъркли.

Използвайки само един час данни от реалния свят, системата за потребителски интерфейс в демонстрацията успя да управлява 27-грамов квадрокоптер Crazyflie 2.0 в нова среда с осветление и конфигурация, която никога досега не е срещала, и за да избегне сблъсъци. Единственият му прозорец в реалния свят беше монокулярна камера; системата комуникира с близкия лаптоп чрез радио към USB устройство.

Изследователите отбелязват, че модели, обучени да избягват препятствия и навигация, са били прехвърляни по-добре от процедури с неизвестна задача, които са били обучавани по друг метод, като напр. учене без надзор. Освен това, ако системата за потребителски интерфейс се провали, тя често е „оправдана“ - например при 30% от тестовете в огънати коридори квадрокоптерът удря в стъклена врата.

„Основната полза от нашата работа е методът за комбиниране на голямо количество симулирани данни с малко количество опит от реалния свят, за да се подготви процедура за избягване на сблъсъци в автономен полет чрез дълбоко укрепващо обучение“, пишат авторите на статията.