Design and Implementation of Digital Twin Based Time Travel Summarization Framework Using Vision Language Models
- Author(s)
- WonJune Shin
- Type
- Thesis
- Degree
- Master
- Department
- 정보컴퓨팅대학 AI융합학과
- Advisor
- Kim, Jong Won
- Abstract
- Digital twins have emerged as a pivotal technology for synchronizing physical assets in the real world with their virtual counterparts to enable real-time monitoring and prediction. However, in complex systems such as smart factories and smart cities, capability for retrospective analysis, such as identifying the root causes of abnormal events, is as essential as real-time monitoring or prediction. Yet, current digital twin systems often compel operators to manually scan timelines to retrieve past events. To address this limitation, this thesis introduces an event-based summarization framework, named Time Travel Summarization. This framework functions within the broader concept of Time Travel, a collective term we define for comprehensive integrated spatiotemporal analytic functions. This concept aims to deliver spatiotemporal insights tailored to user requests by analyzing data across the past, present, and even the future. As a Time Travel supporting function, the proposed summarizat framework enables operators to instantly navigate to the exact time and location of an event, reducing the need for manual log searches. To achieve this, the framework utilizes digital twin videos visually augmented with object and temporal metadata as input for the VLM. By automatically extracting the occurrence time and involved objects of key events and feeding this information back into the digital twin, the framework allows users to instantly explore specific past scenarios. Furthermore, this study demonstrates that the digital twin's capability to flexibly adjust spatiotemporal environments is effective for VLM inference. The experimental results confirm that strategies leveraging this capability, specifically Visual Abstraction and Temporal Acceleration, enhance VLM inference performance and efficiency, respectively.|디지털트윈은 현실의 물리적 자산을 가상 공간에 동기화하여 시뮬레이션, 실시간 모니터링, 예측을 수행하는 핵심 기술로 주목받고 있다. 그러나 스마트 팩토리나 스마트 시티와 같이 상호 의존성이 높은 복합 시스템에서는 실시간 관제나 예측뿐만 아니라, 비정상 이벤트 발생 시 근본 원인을 규명하기 위한 사후 분석 역량이 필수적이다. 그러나 현재 디지털트윈은 과거의 사건을 탐색하기 위해 수동으로 타임라인을 조회해야 하는 경우가 많다. 이러한 한계를 극복하기 위해, 본 논문은 타임트래블 요약이라 명명된 이벤트 기반 요약 프레임워크를 제안한다. 이 프레임워크는 타임트래블이라는 더 포괄적인 개념 내에서 작동하는데, 본 연구에서는 타임트래블을 포괄적인 통합 시공간 분석 기능의 통칭으로 정의한다. 구체적으로, 이 개념은 과거와 현재, 나아가 미래를 아우르는 데이터를 분석하여 사용자의 요청에 최적화된 시공간적 통찰을 제공하는 것을 목표로 한다. 실질적으로 제안하는 프레임워크는 운영자가 사건이 발생한 정확한 시간과 위치로 즉시 이동할 수 있도록 지원함으로써, 수동 로그 검색의 필요성을 감소시킨다. 이를 구현하기 위해 객체 및 시간 메타데이터로 시각적으로 증강된 디지털트윈 비디오를 VLM의 입력으로 활용한다. 주요 사건의 발생 시간과 관련 객체를 자동으로 추출하고 이 정보를 디지털트윈에 피드백함으로써, 사용자가 특정 과거 시나리오를 즉시 탐색할 수 있도록 한다. 또한, 본 연구는 디지털트윈의 유연한 시공간 조정 능력이 VLM 추론에 효과적임을 입증한다. 실험 결과는 이 능력을 활용한 시각적 추상화와 시간 가속 전략이 각각 VLM의 추론 성능과 효율성을 향상시킨다는 점을 보여준다.
- URI
- https://scholar.gist.ac.kr/handle/local/33709
- Fulltext
- http://gist.dcollection.net/common/orgView/200000953013
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.