본문 바로가기
Programming

[Multi Modal] Late Fusion, Early Fusion

by castberry_ 2025. 1. 20.
반응형

멀티모달 - Multi Modal model

다양한 유형의 데이터를 이용하여 학습하는 AI 모델

 

예시로 파스타사진(이미지)와 "이음식뭐야?"(텍스트)를 입력하면 "파스타"라고 응답하는 모델이 있습니다. 

 

멀티모달 종류

Early Fusion  초기융합 

다양한 유형의 데이터를 학습하기전 초반에 융합하여 학습


Late Fusion  후기융합

각각의 모달을 개별적으로 학습, 결과를 결합하여 최종 예측


Joint Fusion  통합융합

여러 데이터를 공통된 표현공간에서 융합 후 학습

(Early Fusion, Late Fusion의 단점들이 상쇄되게 적절히 섞은 방식)

 

 

Early Fusion 초기융합 특징

장점

데이터 간 강한 연관관계학습 가능 – (여기서 연관관계란 데이터간 서로 영향을 주는 관계)

Ex. 텍스트 너 정말 멋있다” + 음성 (화난 목소리) -> 칭찬이 아님을 알 수 있다.

일관된 학습 가능 – (하나의 신경망에서 학습하니)

 

단점

고차원 데이터 계산 비용증가

데이터 동기화의 어려움

 

Late Fusion  후기융합 특징

장점

유연성이 뛰어남 각 데이터 결측치에 다른 모달의 학습이 방해를 받지않음

모달에 대한 최적화 가능

 

단점

데이터 간 상호작용관계 파악 불가

 

 

 

예시

황희태, 곽소정, 김주현, 박규동. (2022-12-20). 
감정 인식을 위한 멀티모달 모델: Early Fusion과Late Fusion 방식 비교를 중심으로. 
한국정보과학회 학술발표논문집, 제주.

Early Fusion

Late Fusion

 

더 많은 예시

다중 모달 시계열 데이터 융합을 위한 SSAELSTM 기반 접근법

논문: "Multimodal Time Series Data Fusion Based on SSAE and LSTM"

출처: IEEE Xplore, 2021

 

Multi-modal Fusion using Fine-tuned Self-attention and Transfer Learning for Veracity Analysis of Web Information

저자: Priyanka Meel, Dinesh Kumar Vishwakarma
소속: Delhi Technological University, India
논문 번호: arXiv:2109.12547v1

 

 

데이터 융합 체험하고 싶으면 

https://github.com/dsrestrepo/Foundational-Multimodal-Fusion-Benchmark

 

GitHub - dsrestrepo/Foundational-Multimodal-Fusion-Benchmark: Proposed framework for multimodal data fusion

Proposed framework for multimodal data fusion. Contribute to dsrestrepo/Foundational-Multimodal-Fusion-Benchmark development by creating an account on GitHub.

github.com

 

반응형

댓글