UPT: Efficient Two-Stage Detection of Human-Object Interactions with a Novel Unary-Pairwise Transformer 리뷰

728x90

DETR이 learned object queries와 bi-partite 매칭(헝가리안) detection을 set prediction problem으로 바꾸면서 HOI 알고리즘에도 영감을 많이 줌
DETR의 single-stage구조를 그대로 HOI로 transfer learning 하려면 대단한 양의 re-training이 필요하므로, DETR의 detection을 unary(1) token extractor로 유지하고, pairwise box positional encoding과 unary(1) object query를 입력으로 받는 2nd stage를 추가함.
1. 2nd stage에도 unary part가 또 있으므로 (1), (2)로 구분
DETR의 output을 바탕으로, Unary(2) 단계에서 pairwise positional encoding을 고려한 새로운 attention 메커니즘을 적용
SCG에서 그래프 노드간 message passing 목적으로 사용된 MFP 구조를 Unary(2) feature들의 fusion을 통한 pairwise feature 제작에 사용.
pairwise feature간 attention 계산으로 최종 latent를 뽑고 linear로 action 계산
새로 제안한 Unary 구조가 positive sample sensitivity를, Pairwise 구조가 negative sample specificity를 증가시켜 최종적으로 SoTA 성능을 달성

Tamura et al.(QPIC) 과 Zou et al.의 경우

QPIC : 기존 구조에서 object class 만으로 bipartite matching을 하던것을 human, object, object class, action의 4 항목으로 확장
Zou et al.의 경우도 모델 구조는 QPIC 과 거의 유사하게(DETR에 MLP head 더 붙이기) 가져가고, 마찬가지로 bipartite matching loss 및 최종 학습 loss를 human,object,box,interaction loss의 선형결합으로 설계
- DETR 자체의 transfer learning 알고리즘 부류. head의 목적을 바꾼 다음 전체 모델을 학습

기존 attention이 Q와 K (여기서는 둘의 concat이 X)의 내적 matrix였다면, Unary 파트의 attention은 Y로 condition 된 pairwise sailiency activation이 더 정확한 명칭으로 보임. (고전적인 비젼 attention의 개념)
Cooperative 라고는 하지만, 이후 제시되는 competitive layer와 연산 논리적으로는 큰 차이가 없어보임. (둘 모두 pairwise concat feature를 사용)
Pair vector 사이의 self-attention을 제거하기 위한 모델 구조로도 생각할 수 있을 거 같음
Unary token들을 pairwise concat 하여 Modified Attention을 한 결과를 이후 Pairwise 단계로 넘어감

Unary(2)의 결과 토큰들을 모아서 쌍을 이루었을 때, human-to-object 쌍이 되도록 토큰 쌍을 정리함.
MBF는 기존 SCG 논문에서는 해당 논문에서의 unary feature들(h,o 각각)에 pairwise information을 퓨전하는 목적으로 쓰였는데, 본 논문에서는 appearance feature에 해당하는 부분에 pairwise feature가 입력되는 것 확인
이렇게 추출된 pairwise token을 일반적인 attention layer 및 최종 분류기에 입력하여 action class 추론하는 것으로 마무리.
학습은 focal loss로 hoi classification 만 학습 = bbox는 DETR에 전적으로 의존

기존 DETR 모델구조를 그대로 두고 결과물을 활용하는 방식이기 때문에, SoTA 성능을 달성하면서도, 낮은 memory 사용량을 보임
- 상기 이득으로, ResNet backbone 마지막 단을 stride하지 않고 더 높은 resolution으로 두는 DC5 세팅을 사용함.
cooperative + competitive 레이어에 대한 정량 및 정성적 해석

Cooperative Layer만 있을 때는 positive sample sensitivity가 늘고, Competitive layer만 있을 때는 negative sample specificity가 늘고, 둘 다 쓰니 둘 다 어느정도 늘더라.

Ablation study 결과 각각의 레이어 자체가 성능 향상에 기여하는 모습을 확인할 수 있음.
그러나 막상 각 레이어 보다 pairwise encoding을 제거했을 때 가장 큰 성능 drop이 관찰
다만, 본 논문에서는 encoding을 아예 없애버리는 식으로 실험했기 때문에, 레이어 구조상 당연할수도
Appendix D에서 Appearance feature에 직접 더해버리는 실험을 진행했을때, coop 구조가 확실히 pairwise 정보를 잘 처리하는 모습을 보임.

제일 이해가 안 가는 실험 해석 부분(unary)
1-4, 2-5, 3-6 간의 attention이 관찰되고, 이러한 attention이 interaction score에 영향을 주었다는 가설
가설 검증을 위해 (1,4),(4,1),(2,5),(5,2),(3,6), (6,3) 위치의 attention을 모두 0으로 만든 다음 0.06(8%)의 score 하락을 관찰
하락했으니 가설을 검증했다는데, 실제로 수치를 환산해보면 0.75 to 0.69 임. 오히려 zeroing 한거치고 영향이 너무 작으니 반대로 다른 부분에 더 많은 정보가 있다고 판단해야되는게 아닌가 싶음.
모든 attention element에 대한 섭동 분석이 있어야 되는 부분으로 사료됨.

(1,4),(2,3),(3,6) 말고는 모두 해당 쌍들에 attend 하고 막상 해당 쌍들은 다른 곳에 집중한다고 분석
저자들은 2가지 조정실험을 수행
- 상기 쌍의 attention을 모두 (1,4)에 집중하도록 바꾸었을 때, score 0.73 -> 0.65
- 상기 쌍의 attention을 모두 0으로 만들었을 때, 나머지 negative pair들의 스코어가 미세하게 상승함.
위의 결과로부터 저자들은 competitive layer가 일종의 NMS 기능을 수행하고 있는 것 같다고 해석함.

728x90

Doodle-Kyungchae