0. Abstract
대화 내의 Deception Detection은 어렵지만, 중요한 task로 multimedia 사기 방지, 맞춤형 보안과 같은 많은 분야에서 중요한 분야이다. 하지만 Deception Detection Research는 high-quality deception dataset의 부족으로, Multimodal features를 효과적으로 학습하기 어렵다. 이 데이터셋 문제를 해결하기 위해, 풍부한 Deceptive Converstaion을 포함한 최대 Game-show dataset, DOLOS를 소개한다.
DOLOS에는 213명의 주체가 등장하는 1675개의 비디오 클립이 포함되어 있으며, audio-visual feautre 주석이 달려있다.
본 논문에서는 다양한 요인의 영향을 조사하기 위해 train-test, duration, gender protocol을 제공한다. 또한, 기존 Deception Detection 방법론에 대해 DOLOS를 benchmark dataset으로 사용한다.
적은 수의 parameter을 fine-tuning하며 성능을 높이기 위해, Parameter Efficient Crossmodal Learning(PECL)을 제안한다.
PECL 내에서는 Uniform Temrpoal Adapter(UT-Adapter)가 Transformer 기반 architectures에서 temporal attention을 탐지하고, Crossmodal fusion으로는 Plug-in Audio Visual Fusion(PAVF)가 제안된다. PAVF는 audio-visual feature의 crossmodal information을 결합한다.
DOLOS에 달린 Audio-Visual 주석을 바탕으로, Decetion 및 Audio-Visual feature을 예측하는 multi-task learning으로 성능을 향상시킨다.
1. Introduction
효과적인 속임수 탐지는 사기 탐지, 비지니스 협상 등 다양한 분야에서 중요한 문제이다.
딥러닝 알고리즘은 사람보다 많은 분야에서 더 나은 성능을 보이고, AI 역시 Deception Detection에서 좋은 성능을 보일 것으로 예상한다. Computer Vision과 Audio Representation learning으로부터, 인간의 Deceptive Behavior을 인식하고 예측하는 데에 다중모달 정보를 효과적으로 처리하는 인공지능 능력을 효율적으로 탐색하는 것은 여전히 중요한 과제이다.
Deception Detection에 있어 AI Model의 성능은 Real world에서 신뢰할 수 있고, 효과적인 sample의 가용성에 심하게 의존한다. 속임수를 저지르는 사람은 명확한 동기가 있어야 하고, 이로부터 행동 단서(e.g. vocal pitch, chin raise 등)0가 더 두드러진다.
따라서 다양한 시나리오에서 속임수 데이터셋을 만드는 것이 필요하다. 그러나 현재의 데이터셋은 여전히 발전을 이끌고 inspire novel ideas를 하기에는 양적 및 질적 제한이 있다. 이러한 Limitation에는 (1) 속임수 샘플 및 주체의 수가 적음, (2) 풍부한 주석이 달린 시각 및 음성 속성이 부족함, (3) 다양한 프로토콜이 포함됨. 더 크고 풍부한 속임수 탐지 데이터셋을 구축하는 것이 반드시 필요하고,
특히, 더 많은 Deceptive samples, subjects, 그리고 facial movements, gestures 등에 대한 더 나은 주석, 그리고 요인 분석을 위한 더 많은 protocol이 필요하다.
High quality dataset 뿐 아닌, Deception Detection을 위한 적절한 AI 모델도 필수적으로 필요하다. 현재는 unimodel, multimodal fusion을 바탕으로 연구가 진행된다. 하지만, 두 방법 모두 하나의 완전한 unimodal feature을 사용하지 않거나, 여러개의 모달리티를 완벽히 통합하지 못한다. 사용 가능한 정보를 더 잘 활용하기 위해서 large pre-trained model을 finetuning 것은 좋은 성능이 나왔다. 하지만, Fully fine-tuning pre-trained models(W2V2,VIT 등)은 downstream dataset이 한정적일 때 과적합이 일어날 수 있다. 그렇기에 fine-tuning pre-trained models을 진행할 때 parameter을 효율적으로 고려하는 것을 필수적이다.
Adapters는 model을 fine-tuning하는 효율적인 방법을 제안하고, 아직 Temporal feature 추출을 위해 멀티모달리티에 사용된 적은 없다.
Contribution:
- New deception detection dataset 생성
- DOLOS: gameshow dataset for audio-visual deception detection에 관한 dataset
- 사람들이 모두 거짓말하거나 사실을 말하는데 동기부여되어있어 믿을만하다.
- DOLOS는 대화상에서의 setup으로 자연스럽다.
- non-lab based dataset 중 가장 크고, 주제도 가장 많다.
- dataset은 fine-grained audio-visual 주석이 달려있다.
- DOLOS를 기존 unimodal, multimodal feature기반 Deception Detection Approaches에 benchmark한다.
- 3 distinct protocols를 제공한다.(train-test, duration, gender). 그리고 deception detection에 영향을 줄만한 다양한 인자를 파악한다.
- DOLOS: gameshow dataset for audio-visual deception detection에 관한 dataset
- parameter-efficient cross-modal learning for audio-visual deception detection을 제안한다.
- Parameter_Efficient Crossmodal learning(PECL)을 제안한다. 이는 fine-tuning a small number of extra learnable weights를 바탕으로 deception detection에서 높은 성능을 발휘하도록 한다.
- 특히 Uniform Temporal Adapter(UT-Adapter)을 제안한다: 많은 수정 없이도 visual, audio 모달리티의 input embedding 간의 temporal attention을 탐색 가능
- Multimodal Fustion에 있어서는 Plug-in Audio-Visual Fusion(PAVF)를 제안한다: visual과 audio 사이의 상호보완적인 정보(complementary information)를 활용해서 성능을 높인다.
- PECL은 UT-Adapter와 PAVF만을 활용해 parameter을 효율적으로 사용한다.
- 게다가, mult lask learning에서 audio와 visual 성능을 향상 시키는 이점을 탐구한다.
- game show benchmark dataset(box of lies)와 비교한다.
- Parameter_Efficient Crossmodal learning(PECL)을 제안한다. 이는 fine-tuning a small number of extra learnable weights를 바탕으로 deception detection에서 높은 성능을 발휘하도록 한다.
3. The Dolos Dataset
3.1 Gameshow format
British reality comedy gameshow available on Youtube에서 데이터 수집.
- 6명의 참가자가 두 팀으로 참가
- 각각의 대화 차례에서 한명의 멤버가 그들의 개인적인 삶에 대한 것을 말한다.
- 해당 문장은 사실일수도 거짓일수도 >> 발화자만 안다.
- 상대팀은 발화자에게 몇개의 질문을 하고, 발화자는 상대팀에게 자신의 진술이 참임을 확신시켜야 하고, 반대 팀은 진술이 참인지 거짓인지 판단해야 한다.
- 모든 참가자가 참여할 때 까지 반복.
- round가 끝나면, statement가 사실인지 거짓인지 판단되고, 진술이 참이면 발화자의 말은 진실, 거짓이면 거짓으로 나타낸다.
3.2 Data Collection and Annotation Procedure
- 참가자의 얼굴이 보이고 가리기 없고 목소리가 명료한 것만 추출
- 총 84개 에피소드 중 213명(남성 141, 여성 72)명으로부터 1675개의 비디오 클립 추출
- 클립 길이 2~19초
- 비디오 클립에서 비언어적 속임수를 수동으로 주석처리 (시각적(25개의 얼굴), 음성(5개의 음성) )
- Non-verval deceptive cues: MUMIN 사용. 입술, 시선, 눈, 입, 턱, 눈썹, 얼굴 / 유창성, arousal
- 6명의 human annotators
이들 바탕으로 DOLOS를 세가지 프로토콜로 제공
- 3-Fold split을 사용하는 train-test 프로토콜 제공
- 실제 시나리오에서 발화 지속 시간의 변동성을 반영하기 위해 짧은 클립(2-4), 긴 클립(5-10)구분
- 성별(남성,여성)
3.3 Comparison with Box of Lies and Other Datasets
Box of Lies도 gameshow video에서 추출됐다. BOL(Bag of Lies)26개의 주제밖에 없다. DOLOS의 17.9%밖에 안된다. BOL 1049개의 비디오 중 573개의 비디오는 발화자의 얼굴이 없다. 또, 몇개의 오디오 싱크가 맞지 않다. 그리고, gameshow host의 비율이 너무 많아 큰 bias가 생긴다.
- DOLOS가 가장 많은 참가자를 보유한다.
- truth/deceit sample 비율의 균형
- 모든 비디오에 대해 수동으로 달린 MUMIN feature 주석 기능 제공.
- 이는 Deception Detection task에 바로 적용될 수 있다.
4. Methodology
대규옴의 Audio 및 Visual task의 proro knowledge를 효율적으로 사용하기 위해, 본 논문은 Parameter Efficient Crossmodal learning(PECL) for audio-visual deception detection을 제안한다.
PECL의 전체적인 framework은 Fig 3에 묘사되어 있으며, Fig.3(a)가 main network architecture, 그리고 several components with detailed structires(Fig.3(b)-(e))로 구성되어 있다.
Main Network에서 보연, Visual Inputs는 2D-CNN module로 tokenized 되어 있고, Audio Inputs은 1D CNN module로 tokenized되었다.
4.1 Uniform Temporal Adapter(UT-Adapter)
Parameter Efficiency를 향상시키고, Overfitting Issue를 완화시키기 위해, Pre-trained Visual, Audio models에 Learnable Adapter Layers를 추가했다.
Training하는 동한, Adapter layer와 Classification layers를 제외한 모든 Wight는 고정된다. NLP-Adapter와 Conv-Adapter과 다르게 UT-Adapter는 temporal attention for both visual, audio modalies를 탐구한다.
Visual, Audio Encoder의 구조:
Multi Head Self Attention(MHSA) + UT-Adapters + Multi-Layer Perception(MLP) + LayerNormalization(LN)
Multi-Head Self Attention 구조
이를 간단하게 나타내기 위해, X를 input feature 중 하나로 생각하면(X_v, X_a중 하나)
UT-Adapter 구조
UT-Adapter는 MHSA와 MLP moules에 병렬적으로 위치해있다.
특히, UT-Adapter는 Linear과 1D convolutional layers의 stack이다. Fig.3(c)에 나온 것 처럼, UT-Adapter의 Output은 다음과 같이 나타낼 수 있다. >> 1D convolutional layer가 Temporal 정보 파악.
Input X_v와 X_a는 Vision과 Audio부터의 sequence embeddings이다.
Transformer 내의 MHSA module은 global attention을 채택해, model이 Spatial, Temporal attention from the input을 더 효율적으로 학습할 수 있게 해준다.
하지만, 이것은 learning local temporal attention과 local spatial attention을 학습하기에 최적이 아닐 수 있다. 그렇기에 UT-Adapter가 local temporal attention을 capture하기 위해 MSHA와 MLP module에 병렬로 제안되었다. 2D-CNN은 local spatial inforamtion을 포착하고, 1D-CNN은temporal information을 포착한다.
우리는 실험적으로 이 Adapter-Transfomrer 구조가 Parameter-Efficient Tuning을 하고, 더 나은 성능을 보여줌을 확인했다.
4.2 Plug-in Audio-Visual Fusion
Audio-Visual interaction을 파악하기 위해, Plug-in Audio-Visual Fusion(PAVF) module을 제안한다. PAVF는 corssmodal attention for fusion을 학습한다.
Computational cost를 줄이기 위해 X_v(i)와 X_a(i)를 더 낮은 차원으로 사영시킨다.
그 후, Coross modal Correlation을 학습시킨다. 이를 통해 Visual sequence와 audio sequence 사이의 Importance를 학습한다.
그 후, Trainable crossmodal correlation wiehgt W_p(i)를 바탕으로 (V-A, A-V) 사이의 Attention을 계산하기 위한 P_i를 계산한다.
그러고 나온 Attented features를 Concat 후, Fusion Head에 Input으로 넣는다.
Fusion Head는 Embedding dim을 더 낮은 차원으로 축소하는 Linear Projection(L_p)를 포함한다.
그리고 각각의 PAVF module에서 나온 최종 output을 다 concat 해 최종적으로 prediction으로 사용한다.
4.3 Multi-Task Learning
Multi-Task learning은 mutual learning을 통해 다양한 task의 성능을 효율적으로 올린다.
DOLOS의 MUMIN feature과, Fused multi-modal features를 바탕으로 multi-task learning을 진행해 성능을 높이고자 했다.
더 자세히 말하면, 하나의 deception-truth label과 K개의 MUMIN feature label을 바탕으로 K+1 Label을 예측한다.
5. Experimental Results
5.1 Implementation Details
Data pre-processing
각각의 video clip에 대해, L = 64의 image를 sampling하고, MTCNN face detector을 바탕으로 얼굴 부분을 crop 했다.[53 확인] 이 image들은 160x160으로 resized 변환.
Raw speech audio는 W2V2 feature exture extractor output L = 64 Token으로 resample되었다.
More Details
ImageNet pre-trained Vit를 backbone network for visual modality로 사용했다.
Face image를 2D-CNN Module로 tokenized했고, 이는 feature with dim of 64 x 256으로 result 나왔다.
Audio의 경우 1D-CNN module로 tokenized했고, feature size는 64 x 512 for each audio sample이다.
Linear projection layer을 통해 visual, audio token을 64 x 768 dim으로 변환했다.
또한, 첫 4개의 transformer encoder layer을 ViT, W2V2 model을 사용해 feature을 추출했다. Deception deception은 low feature level에서 성과를 얻을 수 있기 때문이다.
UT-Adapter과 PAVF module은 이 4개의 encoder layer에 추가되었다.
1D convolution layer in the UT-Adapter for both visual and audio encoders는 kernel size of 3과 stride of 1을 가지고 있다.
Training and Evlauation
Model은 Cross-entropy loss로 훈련되고, Adam optimizer, 20 epcho, learning rate of 3e-4., batch size 16