研究室で行っているディープラーニング知識共有ゼミの発表資料です。

2020/7月

紹介論文

Variational Template Machine for Data-to-Text Generation

公開URL:https://openreview.net/forum?id=HkejNgBtPB

出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)

概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。

紹介論文

Noise or signal the role of image backgrounds in object recognition
公開URL:https://arxiv.org/abs/2006.09994

出典:Kai Xiao, Logan Engstrom, Andrew Ilyas, and Aleksander M ̨adry: Noise or Signal: The Role of Image Backgrounds in Object Recognition

概要:物体認識モデルは訓練データのロスを最小化するように学習を行っており,画像とラベルの一般的な相関を利用することで精度が上昇します.背景は相関を示す自然なソースであり,過去の研究でも背景を用いて物体錦を行っている可能性が示唆されています.この研究では,背景をどのように利用しているか理解を深めることを目的としており,背景と前景の影響を調べるデータセットを作成しました.結果として,背景が精度に大きな影響を与えていることものの,より正確なモデルは背景にロバストになることが分かりました.


紹介論文

Spectral Metric for Dataset Complexity Assessment
公開URL:http://openaccess.thecvf.com/content_CVPR_2019/papers/ Branchaud-Charron_Spectral_Metric_for_Dataset_Complexity_ Assessment_CVPR_2019_paper.pdf

出典:Fŕedéric Branchaud-Charron, Andrew Achkar, Pierre-Marc Jodoin : Spectral Metric for Dataset Complexity Assessment, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long beach, California, pp. 3215-3224 (2019)

概要:データセットの複雑度を推定するCumulative Spectral Gradient(CSG)を提案しています。クラス間の類似度行列を計算し、求められる固有値の勾配を利用した複雑度の新たな指標であるCSGを用いることで、データセットの理解や訓練コストの削減が行なえます。

2020/6月

紹介論文

NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES
公開URL:https://openreview.net/pdf?id=Sye57xStvB

出典:Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell, (2020)

概要:疎報酬な環境での強化学習をうまく行う深層強化学習エージェントNGUの提案をしました。内部報酬を利用することで探索を行い続けるという考えが、Never Give Upという名前の由来となっています。Atariの57本のゲーム中51本で人間レベルを超えた性能を出しました。

紹介論文

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
公開URL:http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.html

出典:Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang : Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6077-6086 (2018)

概要:Bottom-Up Attention、Top-Down Attentionという2つのAttention機構を用いた画像キャプションモデル、VQAモデルを提案しました。本論文では物体検出アルゴリズムであるFaster R-CNNをモデルに組み込むことにより、より人間らしく、オブジェクトベースでのキャプション生成、VQAが可能になりました。性能面においてもMSCOCOテストサーバでSOTAを達成、2017年のVQA challengeで第1位を獲得しました。

紹介論文

Statistical and Machine Learning forecasting methods: Concerns and ways forward
公開URL:https://doi.org/10.1371/journal.pone.0194889

出典 : Makridakis S, Spiliotis E, Assimakopoulos V : Statistical and Machine Learning forecasting methods: Concerns and ways forward, PLoS ONE, 13(3), 2018, https://doi.org/10.1371/journal.pone.0194889

概要 : 時系列予測において、統計的手法に変わるものとして機械学習が学術的に提案されてきましたが、両者を比較した性能の違いというのはあまり知られてはいません。本論文ではM3コンペティションで使用された大規模なサブデータセットを用いて、統計的手法と機械学習の性能の違いを見ることで、現状では統計的手法の方が性能が高いことが明らかになりました。また機械学習の性能を上げるための方法案を提案しています。

紹介論文

NAS-FPN:Learning Scalable Feature Pyramid Architecure for Object Detection
公開URL:https://arxiv.org/abs/1904.07392

出典:Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le:NAS-FPN:Learning Scalable Feature Pyramid Architecure for Object Detection,Computer Vision and Pattern Recognition(CVPR 2019)

概要:ConvNetsで得られた特徴量マップの処理方法の1つにFPN(Feature Pyramid Network)がありますが、そのアーキテクチャは従来、手動で設計されてきました。よりよいアーキテクチャを構築したくても、複雑に入り組んだものの設計は手動では限界があります。そこで強化学習を用いたNAS(Neural Architecture Search)によるアーキテクチャの探索手法を提案しています。

 

紹介論文

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
公開URL:https://arxiv.org/pdf/1811.06152.pdf

出典:Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova : Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos, the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)

概要:カメラ映像による深度予測は、屋内及び屋外のロボットナビゲーションにとって必要なタスクです。本研究では、教師なし学習を用いて映像の深度予測とカメラのエゴモーション(自身の動き)の学習に取り組んでいます。先行研究で確立されたベースラインのモデルに、移動する個々の物体のモデル化と、オンラインでのモデルの調整を行う手法を取り入れています。結果として、物体の動きを多く含むシーンでの予測結果を大幅に向上させています。

紹介論文

Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control
公開URL:https://papers.nips.cc/paper/8586-efficient-communication-in-multi-agent-reinforcement-learning-via-variance-based-control

出典:Sai Qian Zhang, Qi Zhang, Jieyu Lin : Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control, Proceedings of the 33rd Advances in Neural Information Processing Systems 32 (NIPS 2019), Vancouver, Canada, (2019)

概要:本論文では、マルチエージェント強化学習において効率の良いコミュニケーションを行う手法としてVBCを提案しています。エージェント間のコミュニケーションはオーバーヘッドとなるだけでなく、学習を阻害してしまう可能性も報告されています。そこで、提案手法ではコミュニケーションを行う際にいくつか条件を設定しそれに沿った学習を行うことによって、ベンチマークにて既存手法を上回るスコアを達成しつつ、コミュニケーションのオーバーヘッドを改善することに成功しています。

2020/5月

紹介論文

Towards Knowledge-Based Personalized Product Description Generation in E-commerce
公開URL:https://arxiv.org/abs/1903.12457

出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)

概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。

紹介論文

Optimal Auctions through Deep Learning
公開URL:http://proceedings.mlr.press/v97/duetting19a/duetting19a.pdf

出典:Paul Dütting, Zhe Feng, Harikrishna Narasimhan, David C. Parkes, Sai Srivatsa Ravindranath : Optimal Auctions through Deep Learning, Proceedings of the 36 th International Conference on Machine Learning(ICML2019), Long Beach, Calfiornia, USA, (2019)

概要:本論文では最適オークション設計を学習問題として定式化し,ニューラルネットワークを用いて解くための方法を示しています.提案手法を用いることで,従来の研究で解析的に求められていた解の再現および最適オークションが知られていない設定に対しても同等以上の収入を達成できるオークションを求められるという結果が得られています.LPベースの手法と比較では,より大きな設定に対して適用可能であるという利点があることが示されました.


出典:Pier Luigi Dovesi, Matteo Poggi, Lorenzo Andraghetti, Miquel Martí, Hedvig Kjellström, Alessandro Pieropan, Stefano Mattoccia : 2020 International Conference on Robotics and Automation(ICRA2020), Paris, France(2020)
公開URL:https://arxiv.org/pdf/1910.00541.pdf


概要:深度推定とセマンティックセグメンテーションは相性がいい。 光が当たったりして深度推定が困難な画像にセグメンテーションを行うことで、精度が上がる。 また、植生や地形など曖昧な画像に対してのセグメンテーションには深度推定をすることで曖昧性を取り除くことができる。 このような相乗効果を利用して、リアルタイムで深度推定を行う手法を本論文では提案した。

 

 

紹介論文

Learning agile and dynamic motor skills for legged robots
公開URL:https://arxiv.org/pdf/1901.08652.pdf

出典:Jemin Hwangbo, Joonho Lee, Alexey Dosovitskiy, Dario Bellicoso, Vassilios Tsounis,Vladlen Koltun3, Marco Hutter, Science Robotics 16 Jan 2019:Vol. 4, Issue 26, eaau5872

概要:複雑なモータ制御が必要なロボットの制御方法を提案。シミュレーションのみで学習した方策をロボットに転送し、実 環境のロボット制御に成功した。ロボットのシミュレーションとの違いをNNによって吸収しシミュレータでのモデリングが改善した。 方策はシミュレーション上のみで学習したにも関わらず、既存のSOTAのモデルベース手法より優れた性能。 より、少ないエネルギー、計算量ながら、より高速で高い精度を誇り、本論文は多脚ロボットの汎用的なコントローラの獲得への一歩といえる。

2020/4月
 
出典:Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang, Yue Sun, Tong He, Jonas Mueller, R. Manmatha, Mu Li, and Alexander Smola: ResNeSt: Split-Attention Networks
公開URL: https://arxiv.org/abs/2004.08955

概要:画像認識のネットワークは物体検出、セグメンテーション、ポーズ推定など様々なタスクで使われています。最近ではNASで作成されたものが高精度を誇っていますが、メモリ使用量などハードウェアに対して最適化されていないため実際にはRESNET系列のモデルがよく利用されています。しかし、実際のタスクに利用する際は画像サイズなどちょっとした拡張が必要となっています。そこで、本論文ではRESNETにSplit-Attention blockを導入したResNestを提案しています。これは、既存のRESNET系列のモデルよりも少ない計算量と労力で他のタスクに適用可能であり、精度も既存のものよりも良いというものになっています。

 

 

紹介論文

Invariant Information Clustering for Unsupervised Image Classification and Segmentation
公開URL:https://arxiv.org/abs/1807.06653

出典:Xu J, João F. Henriques, Andrea Vedaldi:Invariant Information Clustering forUnsupervised Image Classification and Segmentation, International Conference on Computer Vision (ICCV 2019), Seoul, Korea

概要:本論文では、正解ラベルを必要としない教師なし学習手法IICを提案しています。元画像に一般的なランダム変換を加えたペアを作成し、元画像とペアの相互情報量を最大化するよう学習を行います。画像のクラス分類・セグメンテーションタスクにおいて、8つのベンチマークでSOTAを達成しています。さらに、半教師あり学習にすることで、従来の教師あり学習精度を超える結果を得ています。

2019/11月

 

 

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model
Julian Schrittwieser,1 Ioannis Antonoglou,1;2 Thomas Hubert,1 Karen Simonyan,1 Laurent Sifre,1 Simon Schmitt,1 Arthur Guez,1 Edward Lockhart,1 Demis Hassabis,1 Thore Graepel,1;2 Timothy Lillicrap,1 David Silver1;2
モンテカルロ木探索などの探索木ベースのModel-Basedな強化学習手法はチェスや囲碁など, 環境を完璧に再現できるドメインで大成功を収めている.(Alpha Zeroなど) しかし,実際の問題では環境のモデルを完璧に再現することは一般的に難しい. 実際にAtariなどのドメインではModel-Freeな手法がSOTAである.(R2D2) そこでこの提案手法は,MCTSを使ったModel-Based強化学習で,モデルを人間が事前に作成し知識を与えなくても, チェス,囲碁,将棋でAlpha Zeroと同等,AtariでSOTAを上回る精度を達成.

 

 

紹介論文

Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning
John Hughes, Keng-Hao Chang and Ruofei Zhang

魅力的(高いクリック率)な検索エンジン広告を生成
・Self Critical Sequence Training(SCST)を適用
・微分不可能なmetric(予想クリック率)を最適化
・自動評価と人間による評価
・SCSTの適用によって予想クリック率の向上,魅力の向上を実証
・文法的精度を大きく低下させない

 

 

紹介論文

Self-training with Noisy Student improves ImageNet classification
Qizhe Xie1, Eduard Hovy2, Minh-Thang Luong1, Quoc V. Le1
1Google Research, Brain Team, 2Carnegie Mellon University
SOTAのvision modelは35億のインスタの弱ラベル付き画像を使用しているが,ラベル無し画像は使われていない.そこで,ラベル無し画像を追加で使用して精度の向上を図る. 学習は以下の手順で行う.
1. 教師モデルをラベル付きの画像で学習 2. 教師モデルを使ってラベルなし画像の疑似ラベルを生成 3. 生徒モデルをラベル付き画像と擬似ラベル付き画像を用いて学習 4. 3で学習した生徒モデルを教師モデルとして2,3を数回繰り返す
この時,疑似ラベルの生成時にはノイズを加えず、生徒モデルの学習時にはノイズを加える. 結果として,ImageNetのSOTAを1%更新.ImageNet-A,C,Pでロバスト性の向上を確認した.

 

 

紹介論文

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA
Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew
チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究. このAUTOCURRICULAは他の手法(内発的動機付けを用いたものなど)よりも,各チームごとにシンプルな報酬のみにもかかわらず,人間に関連するスキルを中心とする行動を獲得できたと主張している.

 

紹介論文

Capsule Graph Neural Network
Zhang Xinyi, Lihui Chen
CapsuleNeural Network(CapsNet)で提案されるカプセルの概念を用いたカプセルグラフニューラルネットワーク(CapsGNN)を提案し、既存のGNNベースのグラフ埋め込みアルゴリズムの改善を行った.10個のグラフ構造化データセットを使用した広範な評価により、CapsGNNはいくつかのグラフ分類タスクで他のSOTAテクニックよりも優れていることを検証した.

 

 

紹介論文

Dynamic Pricing for Airline Ancillaries with Customer Context
N. Shukla, A. Kolbeinsson, K. Otwell, L. MarlaとK. Yellepeddi, 「Dynamic Pricing for Airline Ancillaries with Customer Context」, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining  – KDD ’19, Anchorage, AK, USA, 2019, pp. 2174–2182.

航空産業においてアンシラリーは収入のメインになったが,従来の価格戦略はあまり高度ではなく,市場の変化に対応できない.この論文では(1)古典的識別モデルによる購買確率の推定とロジスティックマッピングによるプライシング,(2)DNNによる購買確率の推定としらみつぶし探索によるプライシング,(3)end-to-end DNNプライシングの3つのモデルを提案している.提案したモデルに対してはオフライン実験により性能比較を行っている.(1)のモデルではオンライン実験として実システムにおけるA/Bテストも実施した.オンライン実験の結果(1)のモデルでも人が決めた価格に対してコンバージョン率が36%向上し,1注文あたりの利益も10%向上した.オフライン実験では(3)のモデルがよい性能を示していたのでさらなる向上が期待される.

 

 

紹介論文

AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks
Jingyuan Wang, Yang Zhang, Ke Tang, Junjie Wu and Zhang Xiong

強化学習ベースの投資戦略であるAlphaStockを提案した論文。 従来のDL/RLを活用した投資戦略の3点の課題を克服。
1.リスクとリターンのバランス  投資の効率の良さを表すシャープレシオを目的関数とした強化学習ベースの最適化
2.資産間の相互関係のモデリング  CAAN(Cross-Asset Attention Network)による相互関係のモデリング
3.投資戦略の解釈  感度分析法による特徴量の影響度の数値化
2つのデータセットで実験(U.S. stock markets, Chinese markets),様々な評価尺度において従来手法よりも良い性能を示した。

2019/10月

 

 

紹介論文

Stand-Alone Self-Attention in Vision Models
Prajit Ramachandran∗, Niki Parmar∗, Ashish Vaswani∗, Irwan Bello, Anselm Levskaya, Jonathon Shlens
∗Denotes equal contribution. Ordering determined by random shuffle.
画像認識は畳み込みで成功を収め、近年ではattentionがアドオン的に挿入されている(Squeeze-Excitenなど)。 そこで、attentionを畳み込みの補強ではなくコア要素として扱えないかと考え、畳み込み層をlocal self-attentionに変更したFull Attention のvision modelを提案した。結果として同程度の精度を少ない計算量とパラメータで達成。

2019/8月

 

 

紹介論文

Fixing the train-test resolution discrepancy.
Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou
CoRRabs/1906.06423 (2019)

画像分類タスクにおいて,CNNには一般的に画像の切り出しやリサイズなどのデータ拡張(data augmentation)が使用されており,精度向上に大きく寄与している.一方で訓練時とテスト時でデータ拡張の方法は異なっていることが多く,入力と出力の分布が同じであるという前提のもとでうまくはたらくCNNには悪影響があると考えられる.

本論文では入力時と比べて出力時の画像にうつる物体サイズが小さくなることを簡略化した例で解析的に示している.また,テスト画像サイズを変えたときのプーリング層への入力値分布が大きく変化することを指摘している.

これらの問題点を,テスト画像サイズを入力サイズより大きくし,テスト画像のサイズ変更によるプーリングへの影響を最終層のテスト画像解像度でのファインチューニングにより吸収することで解決した.

主にImageNet画像に対して実験をおこない,上記の低解像度訓練→高解像度テストによる精度向上が確認された(ImageNetのSOTAをtop-1で1%更新).この手法の利用により学習の高速化も可能になり,種々の画像関連タスクに有用であるといえる.

 

 

紹介論文

Proximal Policy Optimization Algorithms
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
強化学習をDQNから順に追って,A3C,PPOまでを解説します.

 

 

紹介論文

Lookahead Optimizer: k steps forward, 1 step back
Michael R. Zhang James Lucas Geoffrey Hinton Jimmy Ba
NNの最適化の新手法Lookaheadを提案.学習の安定化、高速化が図れる.ハイパーパラメータの違いにロバストである.

2019/7月

 

 

論文紹介

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Aviral Kumar, Sunita Sarawagi, Ujjwal Jain
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
ニューラルネットワークで学習可能な較正尺度を提案した論文

 

 

紹介論文

Context-Aware Crowd Counting
Weizhe Liu, Mathieu Salzmann, Pascal Fua
Context-Aware Crowd Counting
遠近感などの画像内のスケールの変化を適応的にエンコードし、群衆人数推定をコンテキスト情報に即して行う

2019/6月

 

 

紹介論文

Playing Atari with Six Neurons
Giuseppe Cuccu, Julian Togelius, Philippe Cudré-Mauroux
Playing Atari with Six Neurons
表現学習と方策学習を分けることで小さいモデルでも難しいタスクが 実行可能であることを示す

 

 

紹介論文


Customized Regression Model for Airbnb Dynamic Pricing


Peng Ye (Airbnb); Julian Qian (Ant financial); Jieying Chen (Airbnb); Chen-Hung Wu (Airbnb); Yitong Zhou (Airbnb); Spencer De Mars (Airbnb); Frank Yang (Airbnb); Li Zhang (Airbnb)
Customized Regression Model for Airbnb Dynamic Pricing


Airbnb上で展開される動的な価格戦略モデルについて.1年以上Airbnb上で導入され,本論文の回帰モデルが予測した最適価格を採用したホストユーザーは予約数と予約額が大幅に増加した.


紹介論文

Generating Diverse High-Fidelity Images with VQ-VAE-2

Ali Razavi, Aäron van den Oord, Oriol Vinyals

この論文は,VQ-VAEとPixelCNNを用いた生成モデルを提案している. VQ-VAEの階層化と,PixelCNNによる尤度推定により,生成画像の解像度向上・多様性の獲得・一般的な評価が可能になった.

2019/5月

 

 

紹介論文


Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

Mattias Teye, Hossein Azizpour, Kevin Smith
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

バッチ正規化を用いたニューラルによりモデルの不確実性を推定する手法を提案。


 

 

紹介論文


Objects as Points

Xingyi Zhou, Dequan Wang, Philipp Krahenbuhl
Objects as Points


リアルタイム物体認識の論文.
物体の中心をキーポイント推定で 探知,様々なオブジェクトプロパ ティに回帰.


 

 

紹介論文


MixMatch: A Holistic Approach to Semi- Supervised Learning

Nicholas Carlini, Ian Goodfellow, Avital Oliver, Nicolas Papernot, Colin Raffel, David Berthelot
MixMatch: A Holistic Approach to Semi- Supervised Learning


半教師あり学習の手法であるMixMatchを提案。これまでの半教師あり学習のアプローチをひとまとめにした。Cifar-10(250label)のエラー率を38%から11%まで改善。

2019/4月

 

 

紹介論文


Differential Networks for Visual Question Answering

Chenfei Wu, Jinlai Liu, Xiaojie Wang, Ruifan Li
Differential Networks for Visual Question Answering


FCNに工夫を加えたDifferential Networksを提案,
DNを用いたVQAを解くVQAモデルを作成し,4つのデータセットでSOTA


紹介論文

VideoCapsuleNet: A SImplified Network for Action Detection

Kevin Duarte, Yogesh S Rawat, Mubarak Shah

CapsuleNetと3DCNNを組み合わせて人物の行動認識を行うVideoCapsuleNetを提案する論文

2018/12月

 

 

紹介論文


Natural and Effective Obfuscation by Head Inpainting

Qianru Sun Liqian Ma Seong Joon Oh
Luc Van Gool Bernt Schiele Mario Fritz
Natural and Effective Obfuscation by Head


ソーシャルメディア画像の難読化

2018/11月

 

 

紹介論文


Disconnected Recurrent Neural Networks for Text Categorization

BaoxinWang
Disconnected Recurrent Neural Networks for Text Categorization


RNNへの入力を制限することにより、文全体を捉えつつ、CNNのように局所的な特徴を捉えることができるようにしたDisconnected Recurrent Neural Networkを提案した。


 

 

紹介論文


Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

Thomas Schlegl, Philipp Seeb ̈ock, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, and Georg Langs
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery


概要:GANを用いた教師なし学習による異常検知タスクを解決する「AnoGAN」を提案しています.
異常データが少ない場合や,アノテーションコストを削減することができます.


 

 

紹介論文


Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Antti Tarvainen, Harri Valpola
Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results


 

 

紹介論文


Feature engineering for predictive modeling using reinforcement learning

Udayan Khurana, Horst Samulowitz, Deepak Turaga
Feature engineering for predictive modeling using reinforcement learning


強化学習によるFeature Engineering


 

 

紹介論文


End to-end convolutional semantic embeddings

Quanzeng You, Zhengyou Zhang, Jiebo Luo
End-to-End Convolutional Semantic Embeddings


画像・文章のクロスモーダルな特徴量学習における、文章に対してのCNNの適用。
CNNの適用によって得られる、文章の中間特徴量についての考察。

2018/10月

 

 

紹介論文


Compressed Video Action Recognition

Chao-Yuan Wu, Manzil Zaheer, Hexiang Hu, R. Manmatha,
Alexander J. Smola, Philipp Kr¨ahenb¨uhl
Compressed Video Action Recognition


圧縮された動画の学習


 

紹介論文


Understanding Blackbox Predictions via Influence Functions

Pang Wei Koh, Percy Liang.
Understanding Blackbox Predictions via Influence Functions

学習するデータが、モデルの出力した結果に対してどれほど影響を与えたのか検証するための手法を提案


2018/9月

 

紹介論文


CNN-RNN: a large-scale hierarchical image classification framework

Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo, Michael S. Lew
CNN-RNN: a large-scale hierarchical image classification framework

従来のCNNの構造にわずかな修正を加えることにより、階層的な構造を持つラベルを学習
単純な分類タスクにおける正解率も増加

2018/8月

 

 

紹介論文


PredCNN: Predictive Learning with Cascade Convolutions(IJCAI 2018)

Ziru Xu†, Yunbo Wang†, Mingsheng Long∗, and Jianmin Wang
PredCNN: Predictive Learning with Cascade Convolutions


将来のビデオ予測手法PredCNN構造を提案
従来手法と比較し、最新の研究成果よりも高精度、低計算コスト、省メモリ化を実現している。


 

 

紹介論文


The Predctron: End-To-End Learning and Planning(ICML2017)

David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley · Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
The Predctron: End-To-End Learning and Planning


end-to-endなモデルベース強化学習のアーキテクチャであるpredictronを提案
迷路とビリヤードに適用した際に通常のDNNよりも正確な予測を達成


2018/7月

 

紹介論文


A PID Controller Approach for Stochastic Optimization of Deep Networks

Wangpeng An, Haoqian Wang, Qingyun Sun, Jun Xu, Qionghai Dai, Lei Zhang
A PID Controller Approach for Stochastic Optimization of Deep Networks


PID制御に基づいたNN最適化手法を提案した論文。
SGD-Momentumよりも早く高い精度に収束することを実験で示した。

紹介論文


Context Embedding Network

Kun Ho Kim Oisin Mac Aodha Pietro Perona (California Institute of Technology)

Context Embedding Networks

特徴量を得るためにクラウドソーシングを利用する上で、
依頼者の個人差を考慮した特徴量抽出手法の提案を行っている。

紹介論文


Rainbow: Combining Improvements in Deep Reinforcement Learning

Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski,
Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver
AutoAugment:Learning AUgmentation Policies from Data


RainbowというDQNの改良手法を提案。
従来手法に比べスコアが大幅に更新された。

紹介論文


Dense Pose: Dense Human Pose Estimation In The Wild

Riza Alp Guler, Natalia Neverova, Iasonas Kokkinos
(Facebook AI Research)
Dense Pose: Dense Human Pose Estimation In The Wild


一般的なRGB画像から人物領域のUV座標(テクスチャ座標)を出力.
物体領域抽出の手法であるMask-RCNNとDenseRegを組み合せたCross-cascading architecture
やRegion Proposal Networkをend to end で学習することで,複数の人物に対するUV座標を高速かつ高精度で算出することを可能にした.

2018/6月

 

紹介論文


AutoAugment:Learning AUgmentation Policies from Data

Ekin D. Cubuk, Barret Zoph , Dandelion Mané, Vijay Vasudevan, Quoc V. Le
AutoAugment:Learning AUgmentation Policies from Data


強化学習に寄ってデータの水増し方法を学習する。
CIFAR-10,CIFAR-100,SVHN,ImagenetでSoTA(2018/5)


 

 

紹介論文


On the Convergence of Adam and Beyond

Reddi S. J., Kale S., Kumar S.

Adamの問題点を改良したAMSGradを提案。
Adamが最適解に収束しない例の一部を定式化し、そのような例に対しても最適解に収束するようにアルゴリズムを修正。
一般的な画像認識タスクにおいてもAdamより早い収束を達成した。


 

紹介論文


World Models

David Ha, Jürgen Schmidhuber

人間の思考と同じように環境をとらえる内部モデルを作成し、エージェントの学習を行う。
RNNの学習が完了している状態であれば、実際の環境でエージェントに行動させなくとも学習させることが可能。
ビデオゲームにて性能を検証し、スコアが既存手法より良くなった。

2018/5月

 

紹介論文


Automatic Understanding of Image and Video Advertisements

Zaeem Hussain, Mingda Zhang, Xiaozhong Zhang, Keren Ye, Christopher Thomas, Zuha Agha, Nathan Ong, Adriana Kovashka
Automatic Understanding of Image and Video Advertisements


広告画像から受ける印象やメッセージを理解する。

紹介論文


Enriching Word Vectors with Subword Information

P. Bojanowski, E. Grave, A. Joulin, T. Mikolov

Word2Vecの改良系の論文.
字面が近い単語のベクトルが近くなるようにWord2Vecを学習させるようにした.
fasttext(https://fasttext.cc/)でライブラリとして簡単に 利用可能.

 

紹介論文


SmoothGrad: removing noise by adding noise

Daniel Smilkov, Nikhil Thorat, Been Kim, Fernanda Vie ́gas Martin Wattenberg

CNNが画像のどこに注目しているかを可視化し、判断根拠を示す手法”SmoothGrad”について紹介する。本手法によって、従来手法で課題だったノイズの軽減を行なっている。

2018/1月

 

 

紹介論文


Dynamic Routing Between Capsules

Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton

CNNをベースとしたCaspNetを提案しています。
従来のCNN構造の問題点であるpooling層を用いず、カプセル構造をもたせることで位置関係情報を持たせています。

2017/11月
 
 
 

 

紹介論文


Mastering the game of Go with deep neural networks and tree search

Silver, David, et al

Mastering the game of Go with deep neural networks and tree search
http://web.iitd.ac.in/~sumeet/Silver16.pdf

アルファ碁の開発論文

 

紹介論文


Self-Paced Learning with Diversity

Lu Jiang, Deyu Meng, Shoou-I Yu, Zhenzhong Lan, Shiguang Shan, Alexander Hauptmann

Self-Paced Learning with Diversity(NIPS2014)


カリキュラム学習の手法であるSPLDの提案


 

 

紹介論文


MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

Andrew G. Howard  Menglong Zhu  Bo Chen Dmitry Kalenichenko  Weijun Wang Tobias Weyand  Marco Andreetto  Hartwig Adam
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications


モバイル端末向けのネットワーク


 

 

紹介論文

タイトル

Generating Videos with Scene Dynamics

著者

Carl Vondrick, Hamed Pirsiavash, Antonio Torralba

参考URL

研究紹介ページ
研究トレーラー

概要

3D GANを用いて動画を学習する研究です。

10月

 

 

紹介論文


Deep Forest: Towards An Alternative to Deep Neural Networks

Zhi-Hua Zhou, Ji Feng
Deep Forest: Towards An Alternative to Deep Neural Networks


決定木アンサンブルアプローチDeepForest(gcForest)の提案

9月

 

 

紹介論文


Densely Connected Convolutional Networks

Gao Huang, Zhuang Liu, Kilian Q. Weinbeger, Laurens van der Maaten
Densely Connected Convolutional Networks


8月

 

紹介論文


Globally and Locally Consistent Image Completion

Satoshi Iizuka Edgar Simo-Serra Hiroshi Ishikawa
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations


ディープネットワークによる
シーンの大域的かつ局所的な整合性を考慮した画像補完


7月

 

紹介論文


DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations

Kruthiventi, Srinivas SS, Kumar Ayush, and Radhakrishnan Venkatesh Babu
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations

画像を見たときに人間が無意識に目線を固定する位置を推定

 

紹介論文


Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network

Jun-Yan Zhu∗ Taesung Park∗ Phillip Isola Alexei A. Efros
Berkeley AI Research (BAIR) laboratory, UC Berkeley
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network

対訳(pire)なしにCycleGANという「画像翻訳」(Image-to-Image Translation)モデルを作った話。

 

紹介論文


A simple neural network mnodule for relation reasoning

Adam Santoro , David Raposo , David G.T. Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
DeepMind
London, United Kingdom
A simple neural network mnodule for relation reasoning


ニューラルネットワークが学習するのが困難な関係推論問題に対してRelation Networks (RN)と呼ばれるモジュールを使⽤してこの問題を解決する⼿法を提案している。


6月


Deeply-Recursive Convolutional Network for Image Super-Resolution

Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee
Deeply-Recursive Convolutional Network for Image Super-Resolution

超解像技術(SR)を畳込み層を再帰的に用いるDeeply-Recursive Convolutional Network(DRCN)を用いた手法で、state-of-the-artな性能を発揮した論文。


 

 

紹介論文


Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih,Adrià Puigdomènech Badia,Mehdi Mirza,et al.
Asynchronous Methods for Deep Reinforcement Learning

DQNの開発者による非同期並列な強化学習アルゴリズムの紹介


 

 

紹介論文


Colorful Image colorization

RICHARD ZHANG, PHILLIP ISOLA, ALEXEI A. EFROS
Colorful Image colorization

クラスリバランスと新しい損失関数を用いた、グレー画像のカラー化


 

 

紹介論文


DeepLoco : Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning

XUE BIN PENG and GLEN BERSETH, University of British Columbia
KANGKANG YIN, National University of Singapore
MICHIEL VAN DE PANNE, University of British Columbia
DeepLoco


深層強化学習によって二足歩行技術を学習する。
2レベルの階層的制御フレームワークの採用により再利用可能な、堅牢なコントローラを生成する。


5月

 

紹介論文

Deep Voice: Real-time Neural Text-to-Speech

Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybihttps://arxiv.org/abs/1702.07825

完全にディープニューラルネットワークで構成された製品レベルの text-to-speech(TTS)システムであるDeep Voiceを提案している。
既存のTTSシステムよりもシンプル・柔軟となっている。

Evolving Deep Neural Networks

Risto Miikkulainen, Jason Liang, Elliot Meyerson, Aditya Rawal, Dan Fink, Olivier Francon, Bala Raju, Hormoz Shahrzad, Arshak Navruzyan, Nigel Duffy, Babak Hodjat https://arxiv.org/abs/1703.00548

GAを用いてDNNのパラメータと構造を学習する。
人手で作られた最先端のものと遜色のないものが生成された。

紹介論文

Learning to Skim Text, Adams Wei Yu Hongrae Lee Quoc V. Le
https://arxiv.org/abs/1704.06877v2

スキミングというテクニックは文章の斜め読みを行い、
素早く文章の大意を掴むことができる。
LSTMをベースとした「LSTM-Jump」モデルを提案し、従来の手法よりもより高速に処理を行う。


4月

紹介論文

DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.,
http://personal.ie.cuhk.edu.hk/~lz013/projects/DeepFashion.html

服飾画像の属性認識を服の位置情報を組み合わせて学習を行うことで、既存の研究よりも高い精度で認識が可能になった。本実験で使用されたデータセットは、他の研究者も使用できるように公開されている。

紹介論文

Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al., Nature 518, 529-533, 2015.,
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

Deep Q-Networkという学習方式を用いて、Atari2600のビデオゲームの画面を入力としてプレイを学習する。49種類のビデオゲームを学習させた結果、AIが人間の上級者のスコアの75%以上のスコアを記録したゲームは29種類にのぼった。


3月

紹介論文

Unsupervised representation learning with deep convolutional generative adversarial networks, Alec Radford, Luke Metz, Soumith Chintala, ICLR 2016,
https://arxiv.org/abs/1511.06434

あるテーマに沿った画像のデータセットを用意し、GeneratorとDiscriminatorの2つの対立するネットワークをお互いに学習させていくことによって、データセットにそっくりな画像を生成することのできるGeneratorを獲得することができる。

紹介論文

On-line deep learning method for action recognition, Charalampous, Konstantinos, and Antonios Gasteratos, Pattern Analysis and Applications 19.2 (2016): pp. 337-354.

オンライン学習によって、動画の中の人物がどのような動きをしているのかを分類するための方法。ノイズが多い現実のデータでも高い精度での特徴抽出が可能であり、事前学習の必要もないので未知のデータに対しても適用可能である。

論文リスト

・Deep Q Network
Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Nature 518, 529?533 (26 February 2015)

・深層強化学習を並行して非同期に行う手法
Asynchronous Methods for Deep Reinforcement Learning, Volodymyr Mnih, Adrià Puigdom ènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silve r, Koray Kavukcuoglu,
https://arxiv.org/abs/1602.01783

・深層教科学習による複数エージェント間の通信プロトコルの獲得
Learning to Communicate with Deep Multi-Agent Reinforcement Learning, Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson,
https://arxiv.org/abs/1605.06676

・着衣画像の認識
DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang. Computer Vision and Pattern Recognition (CVPR), 2016

・GANによるキャプションからの画像生成の学習
Generative Adversarial Text to Image Synthesis, Scott E. Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele,
https://arxiv.org/abs/1605.05396

論文リスト(公開済)

・人の動作を写した動画の教師なしオンライン学習
On-line deep learning method for action recognition, Charalampous, Konstantinos, and Antonios Gasteratos, Pattern Analysis and Applications 19.2 (2016): pp. 337-354.

・DCGANによる画像生成モデルの学習
Unsupervised representation learning with deep convolutional generative adversarial networks, Alec Radford, Luke Metz, Soumith Chintala, ICLR 2016,
https://arxiv.org/abs/1511.06434

・GANを用いた画像から画像への変換の学習
Image-to-Image Translation with Conditional Adversarial Networks, Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros,
https://arxiv.org/abs/1611.07004