結構,コンスタントにI3Dを使っているんだけど,中身を理解していません.すみません.

3DCNNのモデルですね.あわせて提案されているKineticsデータセットのほうが有名かも.

RGBとあわせてOptical-flowをつかうtwo-streamなんだけど,論文中のモデル構成図みても,どこがtwo-streamなんだよって感じの描かれ方なんだよね.Optical-Flowについては下記のようにちょろっと書かれている.

We computed optical flow with a TV-L1 algorithm

TV-L1

⇒ 個人的には,Optical-flowはOpenCVに実装・チュートリアルがある,LK法かFarneback法かの2択が多い.OpticalFlow解説は日本語ではここがまとまっている気がする

オプティカルフロー (Optical Flow) [古典的な2系統を中心に] | CVMLエキスパートガイド

あ,two-streamってモデルに組み込まれているんじゃなくて,実験でtwo-streamにしてるのか.

While a 3D ConvNet should be able to learn motion features from RGB inputs directly, it still performs pure feedforward computation, whereas optical flow algorithms are in some sense recurrent (e.g. they perform iterative optimization for the flow fields). Perhaps because of this lack of recurrence, experimentally we still found it valuable to have a two-stream configuration – shown in fig. 2, e) – with one I3D network trained on RGB inputs, and another on flow inputs which carry optimized, smooth flow information. We trained the two networks separately and averaged their predictions at test time.

optical flowのpretrainedってあるんかいな..

このあたりか

https://github.com/piergiaj/pytorch-i3d

https://github.com/deepmind/kinetics-i3d