Mobile Agent | Notion

4 fundamental components
- Perception
- planning
- action
- memory

• 기존 공개 데이터 활용: 연구 커뮤니티에는 모바일 GUI 상호작용 관련 공개 데이터셋들이 존재합니다. 예를 들어 AndroidControl 데이터셋은 100여 개 안드로이드 태스크의 시연 15,000여 개를 모아둔 것으로, 수집에 1년 이상이 소요된 귀중한 자료입니다 . 또 RICO 등 앱 UI 화면 캡쳐 및 레이아웃 데이터셋도 있고, MobileViews는 수백만 개의 모바일 화면 상태를 모아 놓은 대규모 데이터셋입니다 . 이러한 공개 데이터를 적극 활용해 사전 학습이나 보조 학습을 하면, 모델이 일반적인 GUI 조작 감을 익힌 상태에서 우리 튜토리얼을 학습하도록 할 수 있습니다. 예를 들어 AndroidControl의 일부 태스크 데이터를 모델에 추가로 학습시켜 유사 도메인 지식을 이식하거나, MobileViews의 방대한 무작위 화면을 이용해 **언어-화면 대응 학습(예: 화면 캡션 생성)**을 선행할 수 있습니다. 공개 자원을 최대한 활용하면 적은 자체 데이터의 한계를 상당 부분 상쇄시킬 수 있습니다.