Paper list

Deep learning extensions
1. "Generative Adversarial Networks" Goodfellow et al. link.
2. "Auto-encoding variational bayes" Kingma and Welling. link.
3. "Understanding LSTM Networks" Olah. link.
4. "On Multiplicative Integration with Recurrent Neural Networks" Wu et al. link.
Low-level visual features
1. "Large Displacement Optical Flow: Descriptor Matching in Variational Flow Estimation" Brox and Malik. PAMI 2010. link.
2. "Fully-Trainable Deep Matching" Thewlis et al. link.
3. "Convolutional Two-Stream Network Fusion for Video Action Recognition" Feichtenhofer et al. link.
4. "Handcrafted local features are convolutional neural networks" Lan et al. link.
5. "Dynamic image networks for action recognition" Bilen et al. link.
6. "Multi-region two-stream R-CNN for action detection" Peng and Schmid. link.
7. "Actions~Transformations" Wang et al. link.
8. "Long Term Temporal Convolutions" Gul et a. link.
9. "Beyond Short Snippets: Deep Networks for Video Classification" Ng et al. link.
Mid-level tracking / pose / detection
1. "Learning complexity-aware cascades for deep pedestrian detection" Cai et al. CVPR 15.
2. "Multi-Source Multi-Scale Counting in Extremely Dense Crowd Images" Idrees et al. CVPR 13.
3. "Convolutional Pose Machines" Wei et al. CVPR16. link.
4. "Stct: Sequentially training convolutional networks for visual tracking" Wang et al. CVPR 16.
5. "Visual tracking with fully convolutional networks" Wang et al. CVPR 15.
6. "Multi-task Recurrent Neural Network for Immediacy Prediction" Chu et al. ICCV 15.
7. "Social Role Discovery in Human Events" Ramanathan et al. CVPR 13link.
8. "Recurrent Network Models for Human Dynamics" Fragkiadaki et al. link..
9. "Learning Predictive Visual Models of Physics for Playing Billiards" Fragkiadaki et al. link.
10. "Structural-RNN: Deep Learning on Spatio-Temporal Graphs" Jain et al. link.
High-level actions / intentions
1. "Learning a driving simulator" Santana and Hotz. link.
2. "A database for fine grained activity detection of cooking activities" Rohrbach et al. CVPR 12 link.
3. "Hollywood in Homes: Crowdsourcing Data Collection for Activity Understanding" Sigurdsson et al. link.
4. "Delving into egocentric actions" Li et al. CVPR 15.
5. "MSR-VTT: A Large Video Description Dataset for Bridging Video and Language" Xu et al. CVPR 16.
6. "MovieQA: Understanding Stories in Movies through Question-Answering" Tapaswi et al. CVPR 16.
7. "Experience replay for real-time reinforcement learning control." Adam et al. link.
8. "Human-level control through deep reinforcement learning" Mnih et al. link.
9. "Deep recurrent q-learning for partially observable MDPs" Hauskecht and Stone. link.
10. "Predicting Motivations of Actions by Leveraging Text" Vondrick et al. CVPR 16 link.
11. "Inferring the Why in Images" Pirsiavash et al. link.
12. "Assessing the Quality of Actions" Pirviash et al. ECCV 14. link.
13. "Animate vision" Ballard. link.
14. "Action understanding as inverse planning" Baker et al. link.
15. "MazeBase: A Sandbox for Learning from Games" Sukhbaatar et al. link.
16. "Unsupervised Semantic Action Discovery from Video Collections" Sener et al. link.
17. "Watch-n-Patch: Unsupervised Learning of Actions and Relations" Wu et al. link.
18. "Situation Recognition: Visual Semantic Role Labeling for Image Understanding" Yatskar et. link.
19. "Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations" Krisha et al. link.
20. "SPICE: Semantic Propositional Image Caption Evaluation" link.

Last modified: Mon Aug 29 22:07:16 EDT 2016