研究室で行っているディープラーニング知識共有ゼミの発表資料です。
紹介論文
Generative Image Dynamics公開URL:https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative _Image_Dynamics_CVPR_2024_paper.pdf
出典:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski: Generative Image Dynamics, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024)
概要:自然な物体の動きを学習し、静止画から動画を生成する新しいアプローチを提案しています。実際の映像から抽出した動きのパターンをフーリエ領域でモデル化し、拡散モデルを用いて予測します。単一の画像から、周波数調整された拡散サンプリングプロセスを使用してスペクトル体積を予測し、これを動画全体をカバーする動きのテクスチャに変換します。この手法により、静止画からシームレスにループする動画を作成したり、実際の画像内のオブジェクトとインタラクティブに動きを生成したりすることが可能になります。
紹介論文
Generating Automatic Feedback on UI Mockups with Large Language Models公開URL:https://dl.acm.org/doi/10.1145/3613904.3642782
出典: Peitong Duan, Jeremy Warner, Yang Li, Bjoern Hartmann(CHI ’24)
概要:ユーザー インターフェイス (UI) のモックアップに関するフィードバックは、設計において非常に重要です。ただし、人間のフィードバックが常にすぐに得られるわけではありません。私たちは、自動フィードバックに大規模な言語モデルを使用する可能性を探ります。具体的には、GPT-4 を適用してヒューリスティック評価を自動化することに重点を置いていますが、これには現在、人間の専門家が UI が一連の設計ガイドラインに準拠しているかを評価する必要があります。私たちは、UI デザインと一連の記述されたヒューリスティックを取り込み、自動生成されたフィードバックを建設的な提案としてレンダリングする Figma プラグインを実装しました。私たちは 3 セットのガイドラインを使用して 51 の UI のパフォーマンスを評価し、GPT-4 によって生成された設計提案を人間の専門家からの提案と比較し、既存の慣行との適合性を理解するために 12 人の専門デザイナーと調査を実施しました。 GPT-4 ベースのフィードバックは、微妙なエラーの検出、テキストの改善、UI セマンティクスの検討に役立ちますが、フィードバックの有用性も反復が進むにつれて低下することがわかりました。参加者は、このプラグインの提案が不完全であるにもかかわらず、このプラグインのいくつかの用途について説明しました。
紹介論文
XFeat: Accelerated Features for Lightweight Image Matching公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
紹介論文
MobileOne: An Improved One millisecond Mobile Backbone公開URL:https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html
出典:Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
概要:モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。
紹介論文
Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation公開URL:https://henghuiding.github.io/PADing/
出典:Shuting He, Henghui Ding, Wei Jiang: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
概要:この研究は、トレーニング サンプルなしで新しいカテゴリのセグメンテーションを実現するために、ユニバーサル ゼロショット セグメンテーションを提案します。意味論的空間と視覚的空間を結びつけ、生成モデルを用いて目に見えないカテゴリの特徴を合成し、ドメインギャップを軽減します。また、視覚的特徴を意味論的に関連する部分と非関連部分に分解し、クラス間関係を一致させ、最先端のパフォーマンスを達成しました。
紹介論文
Llama 2: Open Foundation and Fine-Tuned Chat Models公開URL:https://arxiv.org/pdf/2307.09288.pdf
出典:Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023)
概要:70億から700億のパラメータを持つ大規模言語モデル(LLM)の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。
紹介論文
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation公開URL:https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10d319d44f8c3b4720873e4177c65-Paper-Conference.pdf
出典:Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao : ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation, Advances in Neural Information Processing Systems 35 (NeurIPS 2022), pp. 38571-38584 (2022)
概要:姿勢推定はコンピュータビジョンの1タスクとして知られています。本論文ではプレーンなVision Transformerを使った姿勢推定手法「ViTPose」を提案します。ViTPoseは非階層的なVision Transformerを特徴抽出のために使用し、100Mから1Bのパラメータにスケールアップ可能です。このモデルは事前学習や、複数のポーズタスク対応などにおいて柔軟性を持ち、大規模モデルの知識を小規模モデルに転送することも可能です。実験結果は、ViTPoseがMS COCO Keypoint DetectionベンチマークにおいてSoTAを達成しました。
紹介論文
Voyager: An Open-Ended Embodied Agent with Large Language Models公開URL:https://arxiv.org/abs/2305.16291
出典:Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar : Voyager: An Open-Ended Embodied Agent with Large Language Models, arXiv: 2305.16291 (2023)
概要:本論文では、Minecraftの世界を持続的に探索し、多様なスキルを獲得し、新たな発見を人間の介入なく行う最初の大規模言語モデル(LLM)を駆使した具現化エージェントであるVoyagerを紹介する。Voyagerは、探索を最大化する自動カリキュラム、複雑な行動を格納・取得するためのスキルライブラリ、そして環境のフィードバック、実行エラー、プログラム改善のための自己確認を組み込む新たな反復的なプロンプトメカニズムの3つの主要なコンポーネントから成り立つ。
紹介論文
Ego-Body Pose Estimation via Ego-Head Pose Estimation公開URL:https://arxiv.org/abs/2212.04636
出典:Jiaman Li, C. Karen Liu, Jiajun Wu : Ego-Body Pose Estimation via Ego-Head Pose Estimation, arXiv preprint arXiv:2212.04636 (2022)
概要:人間の行動理解やVR/ARへの応用において、一人称映像から人の3次元姿勢 (3D human motion)を推定することは重要である。提案手法EgoEgoは、中間表現として頭部モーションを採用した新たな手法である。問題を2分割したことにより、既存のデータセットが活用でき、他のSoTA手法より優れた性能を示した。さらにベンチマークのための一人称映像と人の3次元推定データセットARESを開発した。
紹介論文
ReAct: Synergizing Reasoning and Acting in Language Models公開URL:https://arxiv.org/abs/2210.03629
出典:Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022)
概要:本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク(QAタスク・事実検証タスク)と意思決定タスク(テキストゲーム、ウェブナビゲーション)でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。
紹介論文
Emotionally Intelligent Fashion Design Using CNN and GAN出典:Yang, Cheng et al. “Emotionally Intelligent Fashion Design Using CNN and GAN.” Computer-aided Design and Applications 18 (2021): 900-913.
全体的な製品の性能が向上したことにより、消費者は機能よりもイメージのような感情に訴えられる部分に注目するようになった。そこで本研究では、靴に着目することで商品イメージを識別するProduct Image Recognition model とイメージ通りの商品を生成するIntelligent Design Generation Model を提案する。Product Image Recognition model では、アンケートによって得られた各商品の画像のイメージ情報をCNNベースのモデルによって学習を行い、商品イメージの識別を実現した。Intelligent Design Generation Model では、GANベースのモデルより、イメージに沿った商品の生成を実現した。見た目による定性的な評価や被検者による実験の結果などから、提案手法の実現可能性と有効性が示せた。
紹介論文
Feature Erasing and Diffusion Network for Occluded Person Re-Identification出典:Zhikang Wang, Feng Zhu, Shixiang Tang, Rui Zhao, Lihuo He, Jiangning Song,CVPR2022
概要:オクルージョン消去モジュール(OEM)と特徴拡散モジュール(FDM)を導入したReIDモデル,FEDを提案.ReIDのベンチマークでSoTAを達成.
紹介論文
Towards Total Recall in Industrial Anomaly Detection公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Roth_Towards_Total_Recall_in_Industrial_Anomaly_Detection_CVPR_2022_paper.pdf
出典:Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler: Towards Total Recall in Industrial Anomaly Detection, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14318-14328 (2022)
概要:本論文では位置情報を考慮した特徴量の集合和であるメモリバンクとCoresetによる画像パッチ特徴量の削減を行うPatchCoreアルゴリズムを提案する.結果として、異常検出のベンチマークであるMVTecにおいてAUROC99%以上の精度を出力し,2022年時点でのSoTAを記録した.また,PatchCoreによる特徴量削減により,学習のサンプル数を20%に減らした場合でも以前のSoTAに匹敵する精度となった.
紹介論文
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing公開URL:https://arxiv.org/abs/2111.09543
出典:Pengcheng He, Jianfeng Gao, Weizhu Chen : DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing, arXiv: 2111.09543 (2021)
概要:本論文ではDeBERTaの事前学習手法をMasked Language Modeling(MLM)からELECTRAで提案されたReplaced Token Detection(RTD)に変更したDeBERTa V3を紹介する. また,ELECTRAにおけるGeneratorとDiscriminatorのEmbedding共有手法の問題点を分析し,その問題を回避する新しい共有手法であるGradient-Disentangled Embedding Sharingを提案する.代表的な自然言語理解タスクでDeBERTa V3の性能を評価し,同様の構造をもつモデルの中でも高い性能を示すことを示した.
紹介論文
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic出典:Tewel, Yoad, et al. “ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
公開URL:https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCap_Zero-Shot_Image-to-Text_Generation_for_Visual-Semantic_Arithmetic_CVPR_2022_paper.pdf
概要:CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to-Textタスクを解く自己回帰モデルであるZeroCapを提案している。生成されたキャプションは意味レベルで画像とよく一致し、現実世界の情報も示していた。2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を組み合わせる方法を示す。どちらも新しい高レベルの認識タスクとなっている。
紹介論文
Outracing champion Gran Turismo drivers with deep reinforcement learning公開URL: https://www.nature.com/articles/s41586-021-04357-7
出典:Peter R. Wurman, Samuel Barrett , Kenta Kawamoto, James MacGlashan, Kaushik Subramanian, Thomas J. Walsh, Roberto Capobianco , Alisa Devlic, Franziska Eckert, Florian Fuchs, Leilani Gilpin, Piyush Khandelwal, Varun Kompella, HaoChih Lin, Patrick MacAlpine, Declan Oller, Takuma Seno, Craig Sherstan, Michael D. Thomure, Houmehr Aghabozorgi, Leon Barrett, Rory Douglas, Dion Whitehead, Peter Dürr, Peter Stone, Michael Spranger & Hiroaki Kitano:Outracing champion Gran Turismo drivers with deep reinforcement learning,Nature(2021)
概要: PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sportを用いて深層強化学習エージェントと人間のプロが対決。強化学習エージェントの学習にあたって、最先端のモデルフリーの深層強化学習アルゴリズムOR-SACの開発、スポーツマンシップを守りつつ競争力のある報酬関数の構築、更に学習シナリオにも工夫を加えたことで卓越したスピードと優れた戦術を組み合わせた統合制御方策を学習した。本論文のエージェント、Gran Turismo Sophy(GT Sophy)は世界最高のGTのドライバー4人と直接対決の末、勝利を飾った。
紹介論文
All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text出典: Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, Noah A. Smith, Association for Computational Linguistics (2021)
概要:本研究は3つのドメインにおいて、人間または機械が作成したテキストを区別する能力を評価する実験を実施しました。その結果、非エキスパートはGPT3と人間作成のテキストをチャンスレベルでしか区別できていないことがわかりました。また、GPT3が作成したテキストをより適切に識別するために3つの訓練(詳細な説明、注釈付き問題例、ペア例)を被験者に施しましたが、精度は有意な向上が見られないことを明らかにしました。そして実験の結果をもとに、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行いました。
紹介論文
Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning出典: Jianfeng Dong, Zhe Ma, Xiaofeng Mao, Xun Yang, Yuan He, Richang Hong, Shouling Ji : Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning, Proceedings of IEEE Transactions on Image Processing (2021)
概要:ファッションアイテムのきめ細かい属性の類似性を学習するASENを提案しました。ASEN はGlobal branch(画像全体を入力値)とLocal branch(Global branchの途中の過程で取得できる、属性に着目している部分のみ切り取った画像が入力値)の2つのモデルから成りたちます。また、2つのモデルは、ASAとACAにより、属性の類似度計算を実現しました。実験の結果、類似性を識別にはASENが最も良いことが分かりました。
紹介論文
ArcFace: Additive Angular Margin Loss for Deep Face Recognition公開URL:https://arxiv.org/abs/1801.07698
出典: Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou : ArcFace: Additive Angular Margin Loss for Deep Face Recognition, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (2019)
概要 : 顔認識のための畳み込みニューラルネットワーク(DCNN)の課題は識別力を高める適切な損失関数を設計することです。本論文では、顔認識のための識別性の高い特徴量を得るために、Additive Angular Margin Loss (ArcFace)を提案します。一般的な顔認識ベンチマークから1兆ペアの大規模データセットなどを用いて、最先端顔認識技術との比較実験を行いました。結果は、従来手法を凌駕する精度を持つことが明らかになりました。
紹介論文
Solving Quantitative Reasoning Problems with Language Models公開URL:https://arxiv.org/abs/2206.14858
出典:Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, Vedant Misra : Solving Quantitative Reasoning Problems with Language Models, arXiv:2206.14858 (2022)
概要:言語モデルは様々なNLPタスクで高い性能を示している.一方で数学の問題を解くようなQuantitative Reasoningを必要とするタスクには最先端モデルでも苦戦している.本論文では数学・科学の問題を高い精度で解くことが可能なMinervaを紹介する. PaLMを数学・科学関連のデータセットでfinetuneしたモデルであるMinervaは.外部ツールを使用することなく,LATEX記法を含む問題文から問題の解を解の導出過程を含めて出力可能である.
紹介論文
Self-supervised Learning of Adversarial Example:Towards Good Generalizations for Deepfake Detection出典:Chen, Liang, et al. “Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
概要:DeepFakeの検出器をより一般化するための学習手法を提案しており、モデルの学習にフェイクの構成を推定するアプローチを組み込むことで、汎化性能の向上を狙っている。学習とは異なるデータセットでテストを行い、従来手法より精度向上したことから、提案手法が汎化性能向上に貢献していることが示されている。
紹介論文
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers出典:Krishna Pillutla,Swabha Swayamdipta,Rowan Zellers,John Thickstun,Sean Welleck,Yejin Choi,Zaid Harchaoui:MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers(NeurIPS 2021)
概要:大規模言語モデルはオープンエンドテキスト生成において,高品質で一貫性を持つ文章を生成できる能力を示していますが,モデルが生成したテキストと人間が書いたテキストの近さを測るための評価指標は未だに確立されていません。提案された評価指標MAUVEはこれらのテキストをKL divergenceを用いて直接比較します。実験では既存の評価指標よりも人間による評価との相関が確認されました。
紹介論文
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving公開URL: https://arxiv.org/abs/2103.10690
出典:Zhiyu Huang, Jingda Wu, Chen Lv:Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving,IEEE Transactions on Neural Networks and Learning Systems(2022)
概要: 深層強化学習(DRL)は人間のような自律走行を実現するための有望な方法であり広く研究されている.しかし、DRLの実際の応用にはサンプル効率の低さと報酬関数の設計の難しさが妨げとなっている.DRLに人間の事前情報を組み込むことで、これらの問題を解消する新しいフレームワークを提案する.2つの都市交通シナリオ(無防備左折、環状交差点)で実験し、既存の手法と比較して最も良い性能を示した.
紹介論文
A Transformer-based Framework for Multivariate Time Series Representation Learning公開URL:https://dl.acm.org/doi/abs/10.1145/3447548.3467401?
出典:Zerveas, George, et al. “A transformer-based framework for multivariate time series representation learning.” Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.
概要:A novel framework for multivariate time series representation learning based on the transformer encoder architecture.The framework includes an unsupervised pre-training scheme, which can offer substantial performance benefits over fully supervised learning on downstream tasks
紹介論文
Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing公開URL:https://roemmele.github.io/publications/human_computer_authoring.pdf
出典:Roemmele, M : Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing, International Conferences on Computational Creativity (ICCC) (2021)
概要:人工知能の活用例として作品を自動生成し、生成された作品を人間に提示することで人間の創作能力を増強させる試みがあります。本論文は文章生成において、この試みを実験により検証したものです。統計的な分析の結果、生成モデルであるGPT-2により生成された文章を観測することで、人間の創作能力の一部が増強されていることがわかりました。
紹介論文
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers公開URL:https://arxiv.org/abs/2105.15203
出典:Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers(NeurIPS 2021), (2021)
概要:SegFormerはTransformerとMLPデコーダを統合した、シンプルですが強力なセマンティックセグメンテーションフレームワークです。そのモデル構造として,エンコーダ部分は,固定サイズの位置埋め込みではなく動的位置埋め込みを用いた階層型Transformerの構造となっており,デコーダ部分は複雑性や計算コストを抑えるAll-MLP構造です。SegFormerは計算コストが低いにも関わらずSoTAを記録しました。
紹介論文
Personalized Fashion recommendation from personal social media data an item to set metric learning approach公開URL:https://arxiv.org/pdf/2005.12439.pdf
出典:Haitian Zheng, Kefei Wu, Jong-Hwi Park, Wei Zhu, Jiebo Luo, Personalized Fashion recommendation from personal social media data an item to set metric learning approach, 2021 IEEE International Conference on Big Data (Big Data)
概要:オンラインショッピングの成長により、服装の推薦精度が重要なタスクになり、個人の好みもソーシャルメディアデータから分かるようになりました。そこで、ソーシャルメディアデータを用いて、個人の好みに沿った衣服の推薦を提案します。具体的には過去のアイテムと新しいアイテムの距離を計算して学習する枠組みを提案します。提案手法の特徴として、マルチモダリティな特徴量やクロスモダリティな融合方法を使用します。実験では、ソーシャルメディアに実在するデータを用いて、他の手法よりも優れた成果を出すことができました。
紹介論文
A Generalist Agent公開URL:https://arxiv.org/abs/2205.06175
出典:Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, Nando de Freitas : A Generalist Agent, arXiv:2205.06175 (2022)
概要:マルチモーダル,マルチタスク,マルチエンボディメントの汎化ポリシーとして機能するGeneralist Agentを学習する.同じ重みをもつ単一のネットワークによって,Atariゲーム,画像キャプション生成, チャット,実世界のロボットアームの制御などを実行可能である.様々なタスクに対応可能なGeneralist Agentが学習可能であり,このAgentが僅かな追加データによってより多くのタスクに適応可能であることを示した.
紹介論文
MLP-Mixer: An all-MLP Architecture for Vision公開URL:https://arxiv.org/abs/2105.01601
出典:Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy : Mlp-mixer: An all-mlp architecture for vision, Advances in Neural Information Processing Systems 34 (2021)
概要:最近の画像処理分野ではCNNやVision Transformerのようなネットワークが人気です。この論文では、多層パーセプトロン(MLP)のみで作成したアーキテクチャ”MLP-Mixer”を提案します。MLP-Mixerは2種類のレイヤーを保持しており、チャネルとトークン(位置)をそれぞれ別のMLPで学習します。このモデルは画像分類ベンチマークにおいて、事前学習と推論コストが最新モデルに匹敵するスコアを達成しました。
紹介論文
Background Splitting: Finding Rare Classes in a Sea of BackgroundRavi Teja Mullapudi, Fait Poms, William R. Mark, Deva Ramanan, Kayvon Fatahalian
少数の正例クラスを含む不均衡データセットに対する精度向上を目的とした、多様な不例データの特徴量を用いる補助タスクを学習に組み込むアプローチを提案した。SOTA手法と比較し、不例データが99.98%のデータセットに対してmAPが42.3ポイント向上した。
紹介論文
OutfitNet: Fashion Outfit Recommendation with Attention-Based Multiple Instance LearningYusan Lin ,Maryam Moosaei ,Hao Yang
・ファッションのリコメンドをMultiple Instanec Learning問題として、定式化
・OutfitNetを提案
・OutfitNetは、服装内のアイテムの相互関係を読み解くFashion Item Relevancy Networkと、服装の好みを学習するOutFit Preference Networkという2つのネットワークから成る
・ファッションリコメンド関連のタスクにおいてSOTA
紹介論文
RAPiD: Rotation-Aware People Detection in Overhead Fisheye ImagesZhihao Duan, M. Ozan Tezcan, Hayato Nakamura, Prakash Ishwar, Janusz Konrad
・天井視点の魚眼画像における人物検出でSoTA
・様々な人物の姿勢に対応できるように矩形の角度を学習するための損失関数を提案
・天井視点の魚眼画像のデータセットを新たに作成
紹介論文
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation公開URL:https://arxiv.org/abs/1908.10357
出典:Cheng B, Xiao B, Wang J, Shi H, Huang T S, Zhang L : Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5386-5395 (2020) https://arxiv.org/abs/1908.10357
高解像度特徴量ピラミッドを用いて人物の大きさに考慮したBottom-Up型の姿勢推定手法の一つです.HRNetの特徴マップ出力と,転置畳み込みによるアップサンプリングされた高解像度な出力で構成されています.COCO test-devにおいて,中人数以上で従来のBottom-Up型手法を2.5%AP上回り,後処理などを含めない場合においてBottom-Up型でSOTA (70.5%AP)を達成しました.
紹介論文
Suphx: Mastering Mahjong with Deep Reinforcement LearningJunjie Li, Sotetsu Koyamada, Qiwei Ye, Guoqing Liu, Chao Wang, Ruihan Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon
• Microsoftが開発した麻雀AI
• 強化学習で麻雀は非常に難しい
– マルチプレイヤーマルチラウンド不完全情報ゲーム – プレイヤーが知れる情報が少ない
• 天鳳(オンライン麻雀)のtop0.001%に位置 • 麻雀AIのSOTA
紹介論文
Recursively Summarizing Books with Human Feedback公開URL:https://arxiv.org/abs/2109.10862
出典:Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).
概要:MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する.人間による評価に時間や専門的な知識を要するタスクの学習のためには,効果的なtraining signalを生成するためのスケーラブルな手法が必要となる.本論文では書籍全体の要約タスク(abstractive)を対象として,再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する.モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが,平均するとモデルの要約は人間の要約に著しく劣ることが示された.
紹介論文
公開URL:Composing Photos Like a Photographer出典:Chaoyi Hong, Shuaiyuan Du, Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong
概要 : 本論文では,プロの写真家が重要としている構図に基づいた,自動で画像をクロップするモデルであるCACNetを提案している.従来手法では課題だった画像の良さの評価について,KCM手法と構図推定を用いて定量化している.
紹介論文
Calorie Estimation in a Real-World Recipe Service公開URL:https://ojs.aaai.org//index.php/AAAI/article/view/7041
出典:Jun Harashima, Makoto Hiramatsu, Satoshi Sanjo(Cookpad Inc) : Calorie Estimation in a Real-World Recipe Service, IAAI 2020
概要 : 本論文ではネット上のオンラインレシピのタイトル、材料などの情報からカロリー推定を行う方法を報告しています。オンラインレシピ内の表現の正規化とレシピの分量推定に機械学習の手法を用いたシステムとなっており実際にクックパッドのサービスで使用されています。
紹介論文
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis公開URL : https://openreview.net/pdf?id=1Fqg133qRaI
出典 : Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal : Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis, ICLR 2021
概要 : 本論文では、少数データで高解像度の画像生成モデルを高速に学習することを目的に、軽量かつ効果的に学習可能なgeneratorと少数データでもdiscriminatorを効果的に学習するための正則化を提案しています。提案されたSkip-Layer ExcitationとSelf-Supervised Discriminatorという2つのモジュールを導入することで、高解像度画像・少数データ・GPU1枚・数時間という低いコストでGANの学習を行うことができます。
紹介論文
Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models公開URL:https://arxiv.org/pdf/2104.05115.pdf
出典:James Y. Huang, Kuan-Hao Huang, Kai-Wei Chang : Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models, arXiv (2021)
概要:本論文では、文章の埋め込みにおいて、文が持つ意味情報と構文情報を切り離すことを学習する意味的な文章埋め込みモデルであるParaBARTを提案します。このモデルは、教師なしの文同士の意味的類似度を評価するタスクにおいて、最先端の文章埋め込みモデルよりも優れた性能を発揮しました。また、意味的類似度を評価するタスクにおいて構文変化に対してより高いロバスト性をもたらしました。
紹介論文
Learning Transferable Visual Models From Natural Language Supervision公開URL:https://arxiv.org/pdf/2103.00020
出典:Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever : Learning Transferable Visual Models From Natural Language Supervision, arXiv, 2021
概要:近年、NLP分野で成功している大規模事前学習、転移学習のシステムを CV分野に応用し、zero-shot 条件下でも性能を発揮する分類モデル CLIP を提案しました。 自然言語と画像を結びつけるタスクを設定することで、従来の分類モデルよりもラベルに対する拡張性の高いモデルを学習することに成功しました。 学習に用いたWeb 上から収集した(画像, テキスト)ペアの4億組のデータセットはGitHub上で公開されています。
紹介論文
Personalized outfit recommendation with learnable anchors出典:Zhi Lu, Yang Hu, Yan Chen, Bing Zeng; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 12722-12731
概要:服のリコメンドについて、様々な研究がされていますが、少ない画像数から好みにあった服をリコメンドすることが課題として挙げられます。そこで、本研究では、LPAEという個人の好みにあった服のリコメンドシステムの提案を行います。結果としては、既存の手法よりも高いリコメンド精度を出すことができ、コールドスタート問題(少ないデータで推薦することは難しさに関する問題)を解決するための案を提案することができました。
紹介論文
Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach公開URL:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306128
出典:Kasun Bandara, Christoph Bergmeir, Slawek Smyl,Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach, Expert Systems with Applications,Volume 140,2020,112896,
概要:A prediction model that can be used with different types of RNN models on subgroups of similar time series, which are identified by time series clustering techniques.
紹介論文
Deep High Resolution Representation Learning for Human Pose Estimation公開URL:https://arxiv.org/abs/1902.09212
出典:Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang: Deep High-Resolution Representation Learning for Human Pose Estimation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5693-5703, (2019)
概要:Top-downアプローチを使った姿勢推定モデルを提案しています.低解像度のサブネットワークを追加し,複数の解像度のサブネットワークを並列に接続する機構を持つため、高解像度の表現を維持しています.比較実験では,COCO Keypoint datasetとMPⅡ Human Pose datasetを使用しました.結果は,他のモデルよりモデルサイズと計算量を抑えつつ,高い精度を実現しました.
紹介論文
Decision Transformer: Reinforcement Learning via Sequence ModelingLili Chen (UC Berkeley)
Kevin Lu (UC Berkeley)
Aravind Rajeswaran (Facebook AI Research)
Kimin Lee (UC Berkeley)
Aditya Grover (Facebook AI Research)
Michael Laskin (UC Berkeley)
Pieter Abbeel (UC Berkeley)
Aravind Srinivas (UC Berkeley)
Igor Mordatch (Google Brain)
– Transformerを用いた自己回帰モデルを強化学習 に応用
– TD法に頼っていた強化学習の新たなパラダイム
– Offline RLのいくつかのタスクでSOTA
紹介論文
Anomaly Detection for an E-commerce Pricing System公開URL:https://dl.acm.org/doi/10.1145/3292500.3330748
出典:Jagdish Ramakrishnan, Elham Shaabani, Chao Li, and Matyas A. Sustik.: Anomaly Detection for an E-commerce Pricing System, 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’19).
概要:本紹介論文では大規模オンラインプライシングシステムに対する異常検知手法を提案しています.誤った値付けとその原因となるデータの特定をおこなう手法を開発しました.特徴的な点として,人手チェックを考慮したビジネスインパクトによる異常の優先度付けが挙げられます.手法は実システムに適用され,現実環境における効果の検証も行われています.
紹介論文
PENS: A Dataset and Generic Framework for Personalized News Headline Generation公開URL:https://www.microsoft.com/en-us/research/publication/pens-a-dataset-and-generic-framework-for-personalized-news-headline-generation/
出典:Xiang Ao, Xiting Wang, Ling Luo, Ying Qiao, Qing He, Xing Xie : PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL-IJCNLP 2021 (2021).
概要:本論文では,個人化されたニュースの見出し(Personalized News Headline) の生成問題におけるオフライン評価用のデータセットであるPENS (PErsonalized News headlineS) を公開する.Microsoft News のインプレッションログから収集したデータを用いて,数百人のネイティブスピーカーが手作業でテストセットを作成した.また,この問題に対する解決策として一般的なフレームワークを提案し,構築したデータセットのベンチマークスコアを示す.
紹介論文
Joint Negative and Positive Learning for Noisy LabelsYoungdong Kim Juseung Yun Hyounguk Shon Junmo KimSchool of Electrical Engineering, KAIST, South Korea
概要:Noisy Labelsに対する従来手法のNLNLを改善したJNPLを提案した.新たな損失関数NL+とPL+を用いた単一の学習アルゴリズムを用いることで単純化し学習コストの削減と精度向上を狙い,SOTAを達成した.
紹介論文
From Street Photos to Fashion Trends: Leveraging User-Provided Noisy Labels for Fashion Understanding.Huang, Fu-Hsien, Hsin-Min Lu, and Yao-Wen Hsu.
概要:本研究では、ファッションコーディネート投稿アプリ「WEAR」から、アジアの地域を対象としたRichWEARデータセットを提案します。また、RichWEARデータセットを用いてアイテムの色、属性、模様を予測するFARNetモデルも提案しています。FARNetモデルは、先行研究より優れた精度でアイテムの色、属性、模様を予測することができました。さらに、FARNetモデルを用いてアイテムの色、属性、模様を予測することで、季節・年ごとのファッションのトレンド分析を実施しています。
紹介論文
A Hybrid Model For Building Energy Consumption Forecasting Using Long Short Term Memory NetworksNivethithaSomu, GauthamaRaman M R, KrithiRamamrithama
Abstract: An energy consumption forecasting model which employs long short term memory networks and improved sine cosine optimization algorithm (ISCOA-LSTM) for building energy consumption forecasting
紹介論文
Semi-Supervised Neural Architecture Search出典: Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Enhong Chen, 33th Conference on Neural Information Processing Systems (NeurIPS 2020)
概要: ニューラルアーキテクチャ検索(NAS)は、優れたコントローラを使用して、より優れたアーキテクチャを生成したり、特定のアーキテクチャの精度を予測します。 精度を正確に評価するにはコストがかかりますが、本論文では半教師付き学習のアプローチによってコストを削減します。
紹介論文
Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models出典:Isabel Papadimitriou, Dan Jurafsky, EMNLP2020
概要:LSTMにおける文法構造のエンコードがどのように行われているかという点についての分析を、様々な言語での転移学習の実験結果から議論している。 文法構造のエンコードにおいて、語彙分布が学習に与える影響は小さいこと、楽譜データやプログラミング言語のデータからも一般化可能な文法構造のエンコードが可能である点などを明らかにした。
紹介論文
Tell Me What They’re Holding: Weakly Supervised Object Detection with Transferable Knowledge from Human-Object Interaction出典:Daesik Kim, Gyujeong Lee, Jisoo Jeong, Nojun Kwak, The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20).
概要:物体検出モデルを学習させるために、ラベル付きのデータが大量に必要です。しかし、画像にアノテーションを付与することは、相当な時間やコストがかかります。そこで、人と物体の相互作用HOI情報を使用し、新しい弱教師あり物体検出モデルRRPNを提案します。この手法によって、Bounding Boxなしで物体の位置を推定できます。
紹介論文
Learning to Incetivize Other Learning Agents出典:Jiachen Yang, Ang Li, Mehrdad Farajtabar, Peter Sunehag, Edward Hughes, Hongyuan Zha,34th Conference on Neural Information Processing Systems (NeurIPS 2020)
概要:マルチエージェント環境において,各エージェントにインセンティブ関数を学習させ,他エージェントに報酬を与える手法の提案しました.提案手法は標準的な強化学習エージェント,opponent shapingエージェントの性能を上回りました.
紹介論文
You Only Learn One Representation: Unified Network for Multiple TasksChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
・形式知と暗黙知を併用したネットワークを提案
・単一モデルのアーキテクチャでマルチタスク学習に効果的
・物体検出タスクにおいて圧倒的な性能を発揮
紹介論文
ICLR: A Learning-based Iterative Method for Solving Vehicle Routing Problems出典:Hao Lu, Xingwen Zhang, Shuang Yang: A Learning-based Iterative Method for Solving Vehicle Routing Problems, International Conference on Learning Representations (ICLR 2020)
概要:ルールベースとRLベースのコントローラを組み合わせたLearn to Improve(L2I)を提案しました。この手法はCVRPインスタンスにてsotaを達成しています。
紹介論文
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis出典:Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng : NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, European Conference on Computer Vision (ECCV 2020)
概要:複数視点の画像から、新たな視点の画像を合成するタスク「Novel View Synthesis」における手法です。シーンをMLPの出力によって表現しています。入力を連続した5次元座標と2次元の視点方向とし、出力をその視点における色と密度(=volume density)としています。色と密度を古典的なボリュームレンダリング手法を用いて画像に変換させています。
紹介論文
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)Danijar Hafner (Google Research), Timothy Lillicrap(DeepMind), Mohammad Norouzi (Google Research), Jimmy Ba(University of Toronto)
• World Modelの派生系のDreamerの2代目 • 画像入力から学習した世界モデルの潜在空間内のみで学習 • 同じ計算資源・サンプル数でIQN, Rainbow(モデルフリー)を凌駕
紹介論文
Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Basket Prediction公開URL:https://ojs.aaai.org//index.php/AAAI/article/view/6093
出典:Shoujin Wang, Liang Hu, Yan Wang, Quan Z. Sheng, Mehmet Orgun, Longbing Cao : Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Basket Prediction,AAAI-20
心理学の知見を組み込んだ,ユーザ行動の予測モデルであるIntention Netsを提案しています.意図によって行動の継続期間は異なることに着目し,独自のモデルを設計しました.ユーザの次回の購買商品を予測するnext-basket predictionで先行事例よりも優れた精度を達成しています.
紹介論文
Learning to Resize Images for Computer Vision Tasks公開URL:https://arxiv.org/pdf/2103.09950v1.pdf
出典:Hossein Talebi, and Peyman Milanfar:Learning to Resize Images for Computer Vision Tasks
概要:CNNを用いたタスクにおいて,画像のリサイズと解像度に関する研究・調査は殆ど行われていないが,精度に大きく貢献すると思われる.そこで,新たなリサイザーモデルを提案する.
紹介論文
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill Assessments公開URL:https://arxiv.org/abs/2012.01186
出典:Eric Li, Jingyi Su, Hao Sheng, Lawrence Wai : AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill Assessments, arXiv:2012.01186 (2020)
概要:Multiple-Choice-Question(MCQ)は自動採点が容易であり、受験者のスキル評価に一般的に用いられる。MCQによるスキル評価の課題である正解の推測と不正行為の影響を最小限に抑えるため、意味的に同じ問題を複数作成することが現実的なアプローチとして考えらえる。本論文では、入力されたMCQと同じ意味のMCQを自動生成する手法を提案する。問題文の言い換えと単語置換によって、入力した問題の意味を維持しながら文構造の異なる問題を生成する。提案手法はpre-trained modelを使用し、target domainのデータを必要としない。人間による評価と機械翻訳の自動評価指標によって、提案手法の有効性を示した。
紹介論文
Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?公開URL:https://dl.acm.org/doi/10.1145/3383313.3412242
出典:Kei Ota, Tomoaki Oiki, Devesh K. Jha, Toshisada Mariyama, Daniel Nikovski : Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?, ICML 2020: Thirty-seventh International Conference on Machine Learning, Virtural Event
概要:連続値制御のタスクは状態空間が低次元であることが一般的です。そこで、本論文では低次元の観測から高次元の状態表現を学習するOFENetを提案しています。OFENetは次の観測を予測するという補助タスクによって学習が行われ、出力の高次元の状態表現が強化学習モデルの入力として使用されます。このOFENetを使用したモデルは、MuJoCoの連続値制御タスクにおいてより高いスコアの獲得に成功しました。
紹介論文
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints公開URL:https://arxiv.org/pdf/1906.11435.pdf
出典:Liming Han, Yimin Lin, Guoguang Du, Shiguo Lian : DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints, arXiv preprint arXiv:1906.11435 (2019), https://arxiv.org/abs/1906.11435
概要:6-DoF運動の推定はロボット工学において重要な課題の一つです。教師あり学習のVisual Inertial Odometry(VIO)は存在しますが、学習のための大量のGround Truthデータが必要となります。この問題を解決するために、低コストのステレオカメラを用いた自己教師ありVIOシステムが提案されています。2次元のオプティカルフロー特徴量とIMUのデータをマージすることによって、絶対位置の軌跡を推定します。
紹介論文
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems公開URL:https://dl.acm.org/doi/10.1145/3383313.3412242
出典:Ahmed Rashed, Shayan Jawed, Lars Schmidt-Thieme, Andre Hintsches : MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems, RecSys ’20: Fourteenth ACM Conference on Recommender Systems, Virtual Event, Brazil (2020)
概要:オークションにおける推薦の需要は存在するが,従来アルゴリズムの適用は困難です.本論文ではユーザ-アイテム間の関係に加えて入札関係や落札価格などを組み込んだシンプルな推薦モデルMultiRecを提案しています.プロプライエタリの現実のオークションデータセットおよびパブリックなeBayデータセットで他のimplicit feedbackに対応するSOTAモデルを凌駕する性能を発揮しました.
紹介論文
Learning to summarize from human feedback公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
紹介論文
Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption on Person Re-identification公開URL:https://arxiv.org/abs/2001.01526 出典:Yixiao Ge, Dapeng Chen , Hongsheng Li:Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption on Person Re-identification,ICLR 2020 概要:Person Re-Identificationにおける最新の教師なしドメイン適応(Unsupervised Domain Adaption)はターゲットドメインをクラスタリングして作成した疑似ラベルで最適化を行いソースドメインから知識を転送するが、クラスタリングした際のラベルのノイズは無視されてきた。その影響を軽減するためにソフト疑似ラベルとハード疑似ラベルを使ってターゲットドメインからより良い特徴を学習するMutual Mean-Teaching(MMT)とtriplet lossをソフトラベルに対応させるためのsoft softmax-triplet lossを提案し、従来の手法に比べて大幅にmAPを改善した。
紹介論文
Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching\\出典:Yujiao Shi, Xin Yu, Dylan Campbell, Hongdong Li
概要: 地上で撮影された画像を用いて,航空画像の特徴と一致する場所を特定するクロスビュー検索問題に対し,Two-Stream CNNと 動的類似性マッチングネットワーク(DSM)を組み合わせた手法を提案した.従来手法に比べ,視野(FoV)の小さい地上画像に対しても適用可能であり,地上画像の方位角を推定して利用するDSMを用いることでSOTAを達成した.
紹介論文
UNot All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning公開URL:https://arxiv.org/abs/2007.01293
出典:Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing
概要:通常,半教師あり学習ではラベルなしデータに対して一様な重みで学習を行います.しかし,ラベルなしのデータはイコールではありません.例えば,推定を間違えている場合などはそのデータは悪影響を与えることになります.そこで,この論文では個々のラベルなしデータに対する重みを学習する方法を提案しています.ラベルなしデータの重みを固定して,トレーニングデータを用いてモデルパラメータを更新することと,モデルパラメータを固定して,バリデーションデータを用いてラベルなしデータの重みを更新することを繰り返します.既存の半教師あり学習の手法に組み込むことで,精度が向上することが確認されました.
紹介論文
Unified Vision-Language Pre-Training for Image Captioning and VQA公開URL:https://aaai.org/ojs/index.php/AAAI/article/view/7005/6859
出典:Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
概要:本論文ではUnified VLPというVision-Languageタスクを解くための統一的なモデルを提案しています。統一的というのは、EncoderとDecoderを一つのTransfomer内で完結させている点、画像キャプションとVQAという性質の異なるタスクを同じモデルで解くことができるという点からきている用語です。さらに本論文では、従来はBERTなどの言語モデルで行われていた事前学習をVision-Languageモデルにも適用し、画像とそのキャプションのペアを事前学習のデータセットとして用いることで、モデルの性能が向上することを示しています。
紹介論文
Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval公開URL: https://www.nextcenter.org/wp-content/uploads/2020/04/Deep-Undestanding-of-Cooking.pdf
出典: Jing-Jing Chen, Chong-Wah Ngo, Fu-Li Feng, Tat-Seng Chua: Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval, MM’18, October 22-26, 2018, Seoul, Republic of Korea
概要: Attention機構を用いて、料理のレシピ――画像検索を行うクロスモーダルなシステムを開発しました。レシピのデータセットであるRecipe1Mを用いて学習を行い、そのテストデータを用いて成果を検証することで、精度の向上にAttentionが有用であることや、レシピの調理手順を学習の対象とすることの重要性を示しました。
紹介論文
Deep uncertainty quantification a machine learning approach for weather forecasting
公開URL:https://dl.acm.org/doi/10.1145/3292500.3330704
出典 : Bin Wang, Jie Lu, Zheng Yan, Huaishao Luo, Tianrui Li, Yu Zheng, Guangquan Zhang : Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting: Concerns and ways forward, KDD 2019, https://dl.acm.org/doi/10.1145/3292500.3330704
概要 : 天気予報はNWP(数値気象予測)によって行われていますが、初期状態によって満足な予測ができない場合があります。本論文ではNWP予測と過去のデータを融合した手法を設計し、天気予報問題をend-to-endの深層学習問題とし、NLE(負の対数尤度誤差関数)を提案しています。点推定予測と不確実性定量化を同時に実行するのがポイントで、精度向上のためにディープアンサンブル戦略も検討しています。NWPと比較して47.76%の精度向上が見られ,今回のデータセットではベストスコアを叩き出しました。紹介論文
Libra R-CNN: Towards Balanced Learning for Object Detection公開URL :https://arxiv.org/abs/1904.02701
出典:Jiangmiao Pang, Kai Chen, Jianping Shi, Huajun Feng, Wanli Ouyang, Dahua Lin:Libra R-CNN: Towards Balanced Learning for Object Detection, CVPR (2019)
物体検出において課題とされている3つのimbalance、物体領域の抽出レベルのimbalance・特徴の抽出レベルのimbalance・最適化レベルのimbalanceに関してそれぞれ簡単で有効な解決手法を提案した。3つの手法を合わせてLibraと呼び、様々なモデルに組み込むことが出来る。
紹介論文
End-to-End Object Detection with Transformers公開URL:https://arxiv.org/abs/2005.12872
出典:Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko Facebook AI : “End-to-End Object Detection with Transformers”, 2020;
概要: Detection Transformer(DETRという)という新しいフレームワークによって,non-maximum-supressionやアンカー生成のような人手で設計する必要なく、End-to-Endで画像からぶった検出を行う手法を提案しています。物体検出を直接集合予測問題として解くためのtransformerアーキテクチャとハンガリアン法を用いて二部マッチングを行い正解と予測の組み合わせを探索しています。Attentionを物体検出に応用しただけでなく、競合手法であるFaster R-CNNと同等の精度を達成しています。
紹介論文
Reinforcement Mechanism Design: With Applications to Dynamic Pricing in Sponsored Search Auctions公開URL : https://aaai.org/ojs/index.php/AAAI/article/view/5600
出典 : Weiran Shen, Binghui Peng, Hanpeng Liu, Michael Zhang, Ruohan Qian, Yan Hong, Zhi Guo, Zongyao Ding, Pengjun Lu, Pingzhong Tang : Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponsored Search Auctions, AAAI, vol. 34, no. 02, pp. 2236–2243, (2020)
概要:スポンサードサーチオークションにおける留保価格(reserve price)の動的設定をおこなうフレームワークを提案しています.フレームワークは大きく2つの要素から構成されています.一つはRNNを用いたbidderの行動モデル,もう一つは動的メカニズムデザインをマルコフ決定過程として定式化したものです.このMDPに対してモンテカルロ木探索を用いて長期間の売り手の収入を最大化する留保価格を発見しています.シミュレーション実験ではstaticな戦略やBaiduで採用されていたものよりも良い性能を発揮し,提案フレームワークを利用して設計したアルゴリズムが実際に運用されました.
紹介論文
Top-K Off-Policy Correction for a REINFORCE Recommender System公開URL:https://research.google/pubs/pub47647/
出典:Minmin Chen, Alex Beutel, Paul Covington, Sagar Jain, Francois Belletti, Ed Chi: “Top-K Off-Policy Correction for a REINFORCE Recommender System”, 2018;
概要:
産業用推薦システムは,非常に大きな行動空間であり,また多くのユーザにサービスを提供する必要があるため,状態空間が複雑になる.
過去ログからのオフライン学習は,前のバージョンの推薦システムのバイアスの影響を受ける.そこで,本研究では,RENFORCEを用いて構築されたYouTubeの本番用Top-K推薦システムにおいて,このようなバイアスに対処するための一般的な手法を提案する.
また,本研究の貢献として,行動空間のスケールアップ, 複数の方策から収集されたログからのオフライン学習,本番環境での実験にて有効性を示している.
紹介論文
Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection公開URL:https://openaccess.thecvf.com/content_CVPR_2020/html/
Lang_Which_Is_Plagiarism_Fashion_Image_Retrieval_Based_on_Regional_Representation_CVPR_2020_paper.html
出典:Yining Lang, Yuan He, Fan Yang, Jianfeng Dong, Hui Xue : Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle(2020)
近年のオンラインショッピングのブームにより、ファッション周りの研究は注目を集めています。 しかし、盗用された衣服の検索は産業界では応用価値が高いにも関わらず学術界では無視されてきました。 そこで本論では、盗用された衣服の検索のための新しいデータセットとネットワークを提案します。
紹介論文
FastDepth: Fast Monocular Depth Estimation on Embedded Systems公開URL:http://fastdepth.mit.edu/2019_icra_fastdepth.pdf
出典:Diana Wofk, Fangchang Ma, Tien-Ju Yang, Sertac Karaman, FastDepth: Fast Monocular Depth Estimation on Embedded Systems, 2019 International Conference on Robotics and Automation (ICRA), Montreal, Canada (2019)
概要:深度推定は、マッピングや障害物検出などのロボットタスクにおいて重要な機能です。最近では、高コストな深度センサによる深度推定ではなく、安価な単眼カメラによる深度推定に関心が寄せられています。しかし、最先端の単眼深度推定は複雑なディープラーニングネットワークをベースにしており、リアルタイム推論に時間がかかってしまいます。こうした背景から、組み込みシステム上での高速深度推定の問題に取り組み、軽量なエンコーダ/デコーダネットワークを提案します。
紹介論文
Variational Template Machine for Data-to-Text Generation公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
紹介論文
Noise or signal the role of image backgrounds in object recognition公開URL:https://arxiv.org/abs/2006.09994
出典:Kai Xiao, Logan Engstrom, Andrew Ilyas, and Aleksander M ̨adry: Noise or Signal: The Role of Image Backgrounds in Object Recognition
概要:物体認識モデルは訓練データのロスを最小化するように学習を行っており,画像とラベルの一般的な相関を利用することで精度が上昇します.背景は相関を示す自然なソースであり,過去の研究でも背景を用いて物体錦を行っている可能性が示唆されています.この研究では,背景をどのように利用しているか理解を深めることを目的としており,背景と前景の影響を調べるデータセットを作成しました.結果として,背景が精度に大きな影響を与えていることものの,より正確なモデルは背景にロバストになることが分かりました.
紹介論文
Spectral Metric for Dataset Complexity Assessment
公開URL:http://openaccess.thecvf.com/content_CVPR_2019/papers/
Branchaud-Charron_Spectral_Metric_for_Dataset_Complexity_
Assessment_CVPR_2019_paper.pdf
出典:Fŕedéric Branchaud-Charron, Andrew Achkar, Pierre-Marc Jodoin : Spectral Metric for Dataset Complexity Assessment, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long beach, California, pp. 3215-3224 (2019)
概要:データセットの複雑度を推定するCumulative Spectral Gradient(CSG)を提案しています。クラス間の類似度行列を計算し、求められる固有値の勾配を利用した複雑度の新たな指標であるCSGを用いることで、データセットの理解や訓練コストの削減が行なえます。
紹介論文
NEVER GIVE UP: LEARNING DIRECTED
EXPLORATION STRATEGIES
公開URL:https://openreview.net/pdf?id=Sye57xStvB
出典:Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell, (2020)
概要:疎報酬な環境での強化学習をうまく行う深層強化学習エージェントNGUの提案をしました。内部報酬を利用することで探索を行い続けるという考えが、Never Give Upという名前の由来となっています。Atariの57本のゲーム中51本で人間レベルを超えた性能を出しました。
紹介論文
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
公開URL:http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.html
出典:Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang : Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6077-6086 (2018)
概要:Bottom-Up Attention、Top-Down Attentionという2つのAttention機構を用いた画像キャプションモデル、VQAモデルを提案しました。本論文では物体検出アルゴリズムであるFaster R-CNNをモデルに組み込むことにより、より人間らしく、オブジェクトベースでのキャプション生成、VQAが可能になりました。性能面においてもMSCOCOテストサーバでSOTAを達成、2017年のVQA challengeで第1位を獲得しました。
紹介論文
Statistical and Machine Learning forecasting methods: Concerns and ways forward
公開URL:https://doi.org/10.1371/journal.pone.0194889
出典 : Makridakis S, Spiliotis E, Assimakopoulos V : Statistical and Machine Learning forecasting methods: Concerns and ways forward, PLoS ONE, 13(3), 2018, https://doi.org/10.1371/journal.pone.0194889
概要 : 時系列予測において、統計的手法に変わるものとして機械学習が学術的に提案されてきましたが、両者を比較した性能の違いというのはあまり知られてはいません。本論文ではM3コンペティションで使用された大規模なサブデータセットを用いて、統計的手法と機械学習の性能の違いを見ることで、現状では統計的手法の方が性能が高いことが明らかになりました。また機械学習の性能を上げるための方法案を提案しています。紹介論文
NAS-FPN:Learning Scalable Feature Pyramid Architecure for Object Detection
公開URL:https://arxiv.org/abs/1904.07392
出典:Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le:NAS-FPN:Learning Scalable Feature Pyramid Architecure for Object Detection,Computer Vision and Pattern Recognition(CVPR 2019)
概要:ConvNetsで得られた特徴量マップの処理方法の1つにFPN(Feature Pyramid Network)がありますが、そのアーキテクチャは従来、手動で設計されてきました。よりよいアーキテクチャを構築したくても、複雑に入り組んだものの設計は手動では限界があります。そこで強化学習を用いたNAS(Neural Architecture Search)によるアーキテクチャの探索手法を提案しています。
紹介論文
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
公開URL:https://arxiv.org/pdf/1811.06152.pdf
出典:Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova : Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos, the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)
概要:カメラ映像による深度予測は、屋内及び屋外のロボットナビゲーションにとって必要なタスクです。本研究では、教師なし学習を用いて映像の深度予測とカメラのエゴモーション(自身の動き)の学習に取り組んでいます。先行研究で確立されたベースラインのモデルに、移動する個々の物体のモデル化と、オンラインでのモデルの調整を行う手法を取り入れています。結果として、物体の動きを多く含むシーンでの予測結果を大幅に向上させています。
紹介論文
Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control公開URL:https://papers.nips.cc/paper/8586-efficient-communication-in-multi-agent-reinforcement-learning-via-variance-based-control
出典:Sai Qian Zhang, Qi Zhang, Jieyu Lin : Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control, Proceedings of the 33rd Advances in Neural Information Processing Systems 32 (NIPS 2019), Vancouver, Canada, (2019)
概要:本論文では、マルチエージェント強化学習において効率の良いコミュニケーションを行う手法としてVBCを提案しています。エージェント間のコミュニケーションはオーバーヘッドとなるだけでなく、学習を阻害してしまう可能性も報告されています。そこで、提案手法ではコミュニケーションを行う際にいくつか条件を設定しそれに沿った学習を行うことによって、ベンチマークにて既存手法を上回るスコアを達成しつつ、コミュニケーションのオーバーヘッドを改善することに成功しています。
紹介論文
Towards Knowledge-Based Personalized Product Description Generation in E-commerce公開URL:https://arxiv.org/abs/1903.12457
出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)
概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。
紹介論文
Optimal Auctions through Deep Learning
公開URL:http://proceedings.mlr.press/v97/duetting19a/duetting19a.pdf
出典:Paul Dütting, Zhe Feng, Harikrishna Narasimhan, David C. Parkes, Sai Srivatsa Ravindranath : Optimal Auctions through Deep Learning, Proceedings of the 36 th International Conference on Machine Learning(ICML2019), Long Beach, Calfiornia, USA, (2019)
概要:本論文では最適オークション設計を学習問題として定式化し,ニューラルネットワークを用いて解くための方法を示しています.提案手法を用いることで,従来の研究で解析的に求められていた解の再現および最適オークションが知られていない設定に対しても同等以上の収入を達成できるオークションを求められるという結果が得られています.LPベースの手法と比較では,より大きな設定に対して適用可能であるという利点があることが示されました.
出典:Pier Luigi Dovesi, Matteo Poggi, Lorenzo Andraghetti, Miquel Martí, Hedvig Kjellström, Alessandro Pieropan, Stefano Mattoccia : 2020 International Conference on Robotics and Automation(ICRA2020), Paris, France(2020)
公開URL:https://arxiv.org/pdf/1910.00541.pdf
概要:深度推定とセマンティックセグメンテーションは相性がいい。 光が当たったりして深度推定が困難な画像にセグメンテーションを行うことで、精度が上がる。 また、植生や地形など曖昧な画像に対してのセグメンテーションには深度推定をすることで曖昧性を取り除くことができる。 このような相乗効果を利用して、リアルタイムで深度推定を行う手法を本論文では提案した。
紹介論文
Learning agile and dynamic motor skills for legged robots
公開URL:https://arxiv.org/pdf/1901.08652.pdf
出典:Jemin Hwangbo, Joonho Lee, Alexey Dosovitskiy, Dario Bellicoso, Vassilios Tsounis,Vladlen Koltun3, Marco Hutter, Science Robotics 16 Jan 2019:Vol. 4, Issue 26, eaau5872
概要:複雑なモータ制御が必要なロボットの制御方法を提案。シミュレーションのみで学習した方策をロボットに転送し、実 環境のロボット制御に成功した。ロボットのシミュレーションとの違いをNNによって吸収しシミュレータでのモデリングが改善した。 方策はシミュレーション上のみで学習したにも関わらず、既存のSOTAのモデルベース手法より優れた性能。 より、少ないエネルギー、計算量ながら、より高速で高い精度を誇り、本論文は多脚ロボットの汎用的なコントローラの獲得への一歩といえる。
公開URL: https://arxiv.org/abs/2004.08955
概要:画像認識のネットワークは物体検出、セグメンテーション、ポーズ推定など様々なタスクで使われています。最近ではNASで作成されたものが高精度を誇っていますが、メモリ使用量などハードウェアに対して最適化されていないため実際にはRESNET系列のモデルがよく利用されています。しかし、実際のタスクに利用する際は画像サイズなどちょっとした拡張が必要となっています。そこで、本論文ではRESNETにSplit-Attention blockを導入したResNestを提案しています。これは、既存のRESNET系列のモデルよりも少ない計算量と労力で他のタスクに適用可能であり、精度も既存のものよりも良いというものになっています。
紹介論文
Invariant Information Clustering for Unsupervised Image Classification and Segmentation
公開URL:https://arxiv.org/abs/1807.06653
出典:Xu J, João F. Henriques, Andrea Vedaldi:Invariant Information Clustering forUnsupervised Image Classification and Segmentation, International Conference on Computer Vision (ICCV 2019), Seoul, Korea
概要:本論文では、正解ラベルを必要としない教師なし学習手法IICを提案しています。元画像に一般的なランダム変換を加えたペアを作成し、元画像とペアの相互情報量を最大化するよう学習を行います。画像のクラス分類・セグメンテーションタスクにおいて、8つのベンチマークでSOTAを達成しています。さらに、半教師あり学習にすることで、従来の教師あり学習精度を超える結果を得ています。
Mastering Atari, Go, Chess and Shogi by Planning with aLearned Model
Mastering Atari, Go, Chess and Shogi by Planning with aLearned Model
Julian Schrittwieser,1 Ioannis Antonoglou,1;2 Thomas Hubert,1 Karen Simonyan,1 Laurent Sifre,1 Simon Schmitt,1 Arthur Guez,1 Edward Lockhart,1 Demis Hassabis,1 Thore Graepel,1;2 Timothy Lillicrap,1 David Silver1;2
モンテカルロ木探索などの探索木ベースのModel-Basedな強化学習手法はチェスや囲碁など, 環境を完璧に再現できるドメインで大成功を収めている.(Alpha Zeroなど) しかし,実際の問題では環境のモデルを完璧に再現することは一般的に難しい. 実際にAtariなどのドメインではModel-Freeな手法がSOTAである.(R2D2) そこでこの提案手法は,MCTSを使ったModel-Based強化学習で,モデルを人間が事前に作成し知識を与えなくても, チェス,囲碁,将棋でAlpha Zeroと同等,AtariでSOTAを上回る精度を達成.
紹介論文
Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning
John Hughes, Keng-Hao Chang and Ruofei Zhang
魅力的(高いクリック率)な検索エンジン広告を生成
・Self Critical Sequence Training(SCST)を適用
・微分不可能なmetric(予想クリック率)を最適化
・自動評価と人間による評価
・SCSTの適用によって予想クリック率の向上,魅力の向上を実証
・文法的精度を大きく低下させない
紹介論文
Self-training with Noisy Student improves ImageNet classification
Qizhe Xie1, Eduard Hovy2, Minh-Thang Luong1, Quoc V. Le1
1Google Research, Brain Team, 2Carnegie Mellon University
SOTAのvision modelは35億のインスタの弱ラベル付き画像を使用しているが,ラベル無し画像は使われていない.そこで,ラベル無し画像を追加で使用して精度の向上を図る. 学習は以下の手順で行う.
1. 教師モデルをラベル付きの画像で学習 2. 教師モデルを使ってラベルなし画像の疑似ラベルを生成 3. 生徒モデルをラベル付き画像と擬似ラベル付き画像を用いて学習 4. 3で学習した生徒モデルを教師モデルとして2,3を数回繰り返す
この時,疑似ラベルの生成時にはノイズを加えず、生徒モデルの学習時にはノイズを加える. 結果として,ImageNetのSOTAを1%更新.ImageNet-A,C,Pでロバスト性の向上を確認した.
紹介論文
EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA
Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew
チーム戦のかくれんぼを通じて,相互の戦略を獲得できたとする研究. このAUTOCURRICULAは他の手法(内発的動機付けを用いたものなど)よりも,各チームごとにシンプルな報酬のみにもかかわらず,人間に関連するスキルを中心とする行動を獲得できたと主張している.
紹介論文
Capsule Graph Neural Network
Zhang Xinyi, Lihui Chen
CapsuleNeural Network(CapsNet)で提案されるカプセルの概念を用いたカプセルグラフニューラルネットワーク(CapsGNN)を提案し、既存のGNNベースのグラフ埋め込みアルゴリズムの改善を行った.10個のグラフ構造化データセットを使用した広範な評価により、CapsGNNはいくつかのグラフ分類タスクで他のSOTAテクニックよりも優れていることを検証した.
紹介論文
Dynamic Pricing for Airline Ancillaries with Customer Context
N. Shukla, A. Kolbeinsson, K. Otwell, L. MarlaとK. Yellepeddi, 「Dynamic Pricing for Airline Ancillaries with Customer Context」, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining – KDD ’19, Anchorage, AK, USA, 2019, pp. 2174–2182.
航空産業においてアンシラリーは収入のメインになったが,従来の価格戦略はあまり高度ではなく,市場の変化に対応できない.この論文では(1)古典的識別モデルによる購買確率の推定とロジスティックマッピングによるプライシング,(2)DNNによる購買確率の推定としらみつぶし探索によるプライシング,(3)end-to-end DNNプライシングの3つのモデルを提案している.提案したモデルに対してはオフライン実験により性能比較を行っている.(1)のモデルではオンライン実験として実システムにおけるA/Bテストも実施した.オンライン実験の結果(1)のモデルでも人が決めた価格に対してコンバージョン率が36%向上し,1注文あたりの利益も10%向上した.オフライン実験では(3)のモデルがよい性能を示していたのでさらなる向上が期待される.
紹介論文
AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks
Jingyuan Wang, Yang Zhang, Ke Tang, Junjie Wu and Zhang Xiong
強化学習ベースの投資戦略であるAlphaStockを提案した論文。 従来のDL/RLを活用した投資戦略の3点の課題を克服。
1.リスクとリターンのバランス 投資の効率の良さを表すシャープレシオを目的関数とした強化学習ベースの最適化
2.資産間の相互関係のモデリング CAAN(Cross-Asset Attention Network)による相互関係のモデリング
3.投資戦略の解釈 感度分析法による特徴量の影響度の数値化
2つのデータセットで実験(U.S. stock markets, Chinese markets),様々な評価尺度において従来手法よりも良い性能を示した。
紹介論文
Stand-Alone Self-Attention in Vision Models
Prajit Ramachandran∗, Niki Parmar∗, Ashish Vaswani∗, Irwan Bello, Anselm Levskaya, Jonathon Shlens
∗Denotes equal contribution. Ordering determined by random shuffle.
画像認識は畳み込みで成功を収め、近年ではattentionがアドオン的に挿入されている(Squeeze-Excitenなど)。 そこで、attentionを畳み込みの補強ではなくコア要素として扱えないかと考え、畳み込み層をlocal self-attentionに変更したFull Attention のvision modelを提案した。結果として同程度の精度を少ない計算量とパラメータで達成。
紹介論文
Fixing the train-test resolution discrepancy.
Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou
CoRRabs/1906.06423 (2019)
画像分類タスクにおいて,CNNには一般的に画像の切り出しやリサイズなどのデータ拡張(data augmentation)が使用されており,精度向上に大きく寄与している.一方で訓練時とテスト時でデータ拡張の方法は異なっていることが多く,入力と出力の分布が同じであるという前提のもとでうまくはたらくCNNには悪影響があると考えられる.
本論文では入力時と比べて出力時の画像にうつる物体サイズが小さくなることを簡略化した例で解析的に示している.また,テスト画像サイズを変えたときのプーリング層への入力値分布が大きく変化することを指摘している.
これらの問題点を,テスト画像サイズを入力サイズより大きくし,テスト画像のサイズ変更によるプーリングへの影響を最終層のテスト画像解像度でのファインチューニングにより吸収することで解決した.
主にImageNet画像に対して実験をおこない,上記の低解像度訓練→高解像度テストによる精度向上が確認された(ImageNetのSOTAをtop-1で1%更新).この手法の利用により学習の高速化も可能になり,種々の画像関連タスクに有用であるといえる.
紹介論文
Proximal Policy Optimization Algorithms
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
強化学習をDQNから順に追って,A3C,PPOまでを解説します.
紹介論文
Lookahead Optimizer: k steps forward, 1 step back
Michael R. Zhang James Lucas Geoffrey Hinton Jimmy Ba
NNの最適化の新手法Lookaheadを提案.学習の安定化、高速化が図れる.ハイパーパラメータの違いにロバストである.
論文紹介
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Aviral Kumar, Sunita Sarawagi, Ujjwal Jain
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
ニューラルネットワークで学習可能な較正尺度を提案した論文
紹介論文
Context-Aware Crowd Counting
Weizhe Liu, Mathieu Salzmann, Pascal Fua
Context-Aware Crowd Counting
遠近感などの画像内のスケールの変化を適応的にエンコードし、群衆人数推定をコンテキスト情報に即して行う
紹介論文
Playing Atari with Six Neurons
Giuseppe Cuccu, Julian Togelius, Philippe Cudré-Mauroux
Playing Atari with Six Neurons
表現学習と方策学習を分けることで小さいモデルでも難しいタスクが実行可能であることを示す
紹介論文
Customized Regression Model for Airbnb Dynamic Pricing
Peng Ye (Airbnb); Julian Qian (Ant financial); Jieying Chen (Airbnb); Chen-Hung Wu (Airbnb); Yitong Zhou (Airbnb); Spencer De Mars (Airbnb); Frank Yang (Airbnb); Li Zhang (Airbnb)
Customized Regression Model for Airbnb Dynamic Pricing
Airbnb上で展開される動的な価格戦略モデルについて.1年以上Airbnb上で導入され,本論文の回帰モデルが予測した最適価格を採用したホストユーザーは予約数と予約額が大幅に増加した.
紹介論文
Generating Diverse High-Fidelity Images with VQ-VAE-2
Ali Razavi, Aäron van den Oord, Oriol Vinyals
この論文は,VQ-VAEとPixelCNNを用いた生成モデルを提案している. VQ-VAEの階層化と,PixelCNNによる尤度推定により,生成画像の解像度向上・多様性の獲得・一般的な評価が可能になった.
紹介論文
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
Mattias Teye, Hossein Azizpour, Kevin Smith
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks
バッチ正規化を用いたニューラルによりモデルの不確実性を推定する手法を提案。
紹介論文
Objects as Points
Xingyi Zhou, Dequan Wang, Philipp Krahenbuhl
Objects as Points
リアルタイム物体認識の論文.
物体の中心をキーポイント推定で 探知,様々なオブジェクトプロパ ティに回帰.
紹介論文
MixMatch: A Holistic Approach to Semi- Supervised Learning
Nicholas Carlini, Ian Goodfellow, Avital Oliver, Nicolas Papernot, Colin Raffel, David Berthelot
MixMatch: A Holistic Approach to Semi- Supervised Learning
半教師あり学習の手法であるMixMatchを提案。これまでの半教師あり学習のアプローチをひとまとめにした。Cifar-10(250label)のエラー率を38%から11%まで改善。
紹介論文
Differential Networks for Visual Question Answering
Chenfei Wu, Jinlai Liu, Xiaojie Wang, Ruifan Li
Differential Networks for Visual Question Answering
FCNに工夫を加えたDifferential Networksを提案,
DNを用いたVQAを解くVQAモデルを作成し,4つのデータセットでSOTA
紹介論文
VideoCapsuleNet: A SImplified Network for Action Detection
Kevin Duarte, Yogesh S Rawat, Mubarak Shah
CapsuleNetと3DCNNを組み合わせて人物の行動認識を行うVideoCapsuleNetを提案する論文
紹介論文
Natural and Effective Obfuscation by Head Inpainting
Qianru Sun Liqian Ma Seong Joon Oh
Luc Van Gool Bernt Schiele Mario Fritz
Natural and Effective Obfuscation by Head
ソーシャルメディア画像の難読化
紹介論文
Disconnected Recurrent Neural Networks for Text Categorization
BaoxinWang
Disconnected Recurrent Neural Networks for Text Categorization
RNNへの入力を制限することにより、文全体を捉えつつ、CNNのように局所的な特徴を捉えることができるようにしたDisconnected Recurrent Neural Networkを提案した。
紹介論文
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery
Thomas Schlegl, Philipp Seeb ̈ock, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, and Georg Langs
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery
概要:GANを用いた教師なし学習による異常検知タスクを解決する「AnoGAN」を提案しています.
異常データが少ない場合や,アノテーションコストを削減することができます.
紹介論文
Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
Antti Tarvainen, Harri Valpola
Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
紹介論文
Feature engineering for predictive modeling using reinforcement learning
Udayan Khurana, Horst Samulowitz, Deepak Turaga
Feature engineering for predictive modeling using reinforcement learning
強化学習によるFeature Engineering
紹介論文
End to-end convolutional semantic embeddings
Quanzeng You, Zhengyou Zhang, Jiebo Luo
End-to-End Convolutional Semantic Embeddings
画像・文章のクロスモーダルな特徴量学習における、文章に対してのCNNの適用。
CNNの適用によって得られる、文章の中間特徴量についての考察。
紹介論文
Compressed Video Action Recognition
Chao-Yuan Wu, Manzil Zaheer, Hexiang Hu, R. Manmatha,
Alexander J. Smola, Philipp Kr¨ahenb¨uhl
Compressed Video Action Recognition
圧縮された動画の学習
紹介論文
Understanding Blackbox Predictions via Influence Functions
Pang Wei Koh, Percy Liang.
Understanding Blackbox Predictions via Influence Functions
学習するデータが、モデルの出力した結果に対してどれほど影響を与えたのか検証するための手法を提案
紹介論文
CNN-RNN: a large-scale hierarchical image classification framework
Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo, Michael S. Lew
CNN-RNN: a large-scale hierarchical image classification framework
従来のCNNの構造にわずかな修正を加えることにより、階層的な構造を持つラベルを学習
単純な分類タスクにおける正解率も増加
紹介論文
PredCNN: Predictive Learning with Cascade Convolutions(IJCAI 2018)
Ziru Xu†, Yunbo Wang†, Mingsheng Long∗, and Jianmin Wang
PredCNN: Predictive Learning with Cascade Convolutions
将来のビデオ予測手法PredCNN構造を提案
従来手法と比較し、最新の研究成果よりも高精度、低計算コスト、省メモリ化を実現している。
紹介論文
The Predctron: End-To-End Learning and Planning(ICML2017)
David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley · Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
The Predctron: End-To-End Learning and Planning
end-to-endなモデルベース強化学習のアーキテクチャであるpredictronを提案
迷路とビリヤードに適用した際に通常のDNNよりも正確な予測を達成
紹介論文
A PID Controller Approach for Stochastic Optimization of Deep Networks
Wangpeng An, Haoqian Wang, Qingyun Sun, Jun Xu, Qionghai Dai, Lei Zhang
A PID Controller Approach for Stochastic Optimization of Deep Networks
PID制御に基づいたNN最適化手法を提案した論文。
SGD-Momentumよりも早く高い精度に収束することを実験で示した。
紹介論文
Context Embedding Network
Kun Ho Kim Oisin Mac Aodha Pietro Perona (California Institute of Technology)
特徴量を得るためにクラウドソーシングを利用する上で、
依頼者の個人差を考慮した特徴量抽出手法の提案を行っている。
紹介論文
Rainbow: Combining Improvements in Deep Reinforcement Learning
Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski,
Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver
AutoAugment:Learning AUgmentation Policies from Data
RainbowというDQNの改良手法を提案。
従来手法に比べスコアが大幅に更新された。
紹介論文
Dense Pose: Dense Human Pose Estimation In The Wild
Riza Alp Guler, Natalia Neverova, Iasonas Kokkinos
(Facebook AI Research)
Dense Pose: Dense Human Pose Estimation In The Wild
一般的なRGB画像から人物領域のUV座標(テクスチャ座標)を出力.
物体領域抽出の手法であるMask-RCNNとDenseRegを組み合せたCross-cascading architecture
やRegion Proposal Networkをend to end で学習することで,複数の人物に対するUV座標を高速かつ高精度で算出することを可能にした.
紹介論文
AutoAugment:Learning AUgmentation Policies from Data
Ekin D. Cubuk, Barret Zoph , Dandelion Mané, Vijay Vasudevan, Quoc V. Le
AutoAugment:Learning AUgmentation Policies from Data
強化学習に寄ってデータの水増し方法を学習する。
CIFAR-10,CIFAR-100,SVHN,ImagenetでSoTA(2018/5)
紹介論文
On the Convergence of Adam and Beyond
Reddi S. J., Kale S., Kumar S.
Adamの問題点を改良したAMSGradを提案。
Adamが最適解に収束しない例の一部を定式化し、そのような例に対しても最適解に収束するようにアルゴリズムを修正。
一般的な画像認識タスクにおいてもAdamより早い収束を達成した。
紹介論文
World Models
David Ha, Jürgen Schmidhuber
人間の思考と同じように環境をとらえる内部モデルを作成し、エージェントの学習を行う。
RNNの学習が完了している状態であれば、実際の環境でエージェントに行動させなくとも学習させることが可能。
ビデオゲームにて性能を検証し、スコアが既存手法より良くなった。
紹介論文
Automatic Understanding of Image and Video Advertisements
Zaeem Hussain, Mingda Zhang, Xiaozhong Zhang, Keren Ye, Christopher Thomas, Zuha Agha, Nathan Ong, Adriana Kovashka
Automatic Understanding of Image and Video Advertisements
広告画像から受ける印象やメッセージを理解する。
紹介論文
Enriching Word Vectors with Subword Information
P. Bojanowski, E. Grave, A. Joulin, T. Mikolov
Word2Vecの改良系の論文.
字面が近い単語のベクトルが近くなるようにWord2Vecを学習させるようにした.
fasttext(https://fasttext.cc/)でライブラリとして簡単に利用可能.
紹介論文
SmoothGrad: removing noise by adding noise
Daniel Smilkov, Nikhil Thorat, Been Kim, Fernanda Vie ́gas Martin Wattenberg
CNNが画像のどこに注目しているかを可視化し、判断根拠を示す手法”SmoothGrad”について紹介する。本手法によって、従来手法で課題だったノイズの軽減を行なっている。
紹介論文
Dynamic Routing Between Capsules
Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton
CNNをベースとしたCaspNetを提案しています。
従来のCNN構造の問題点であるpooling層を用いず、カプセル構造をもたせることで位置関係情報を持たせています。
紹介論文
Mastering the game of Go with deep neural networks and tree search
Silver, David, et al
Mastering the game of Go with deep neural networks and tree search
http://web.iitd.ac.in/~sumeet/Silver16.pdf
アルファ碁の開発論文
紹介論文
Self-Paced Learning with Diversity
Lu Jiang, Deyu Meng, Shoou-I Yu, Zhenzhong Lan, Shiguang Shan, Alexander Hauptmann
Self-Paced Learning with Diversity(NIPS2014)
カリキュラム学習の手法であるSPLDの提案
紹介論文
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand Marco Andreetto Hartwig Adam
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
モバイル端末向けのネットワーク
紹介論文
タイトル
Generating Videos with Scene Dynamics
著者
Carl Vondrick, Hamed Pirsiavash, Antonio Torralba
参考URL
概要
3D GANを用いて動画を学習する研究です。
紹介論文
Deep Forest: Towards An Alternative to Deep Neural Networks
Zhi-Hua Zhou, Ji Feng
Deep Forest: Towards An Alternative to Deep Neural Networks
決定木アンサンブルアプローチDeepForest(gcForest)の提案
紹介論文
Densely Connected Convolutional Networks
Gao Huang, Zhuang Liu, Kilian Q. Weinbeger, Laurens van der Maaten
Densely Connected Convolutional Networks
紹介論文
Globally and Locally Consistent Image Completion
Satoshi Iizuka Edgar Simo-Serra Hiroshi Ishikawa
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations
ディープネットワークによる
シーンの大域的かつ局所的な整合性を考慮した画像補完
紹介論文
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations
Kruthiventi, Srinivas SS, Kumar Ayush, and Radhakrishnan Venkatesh Babu
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations
画像を見たときに人間が無意識に目線を固定する位置を推定
紹介論文
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Jun-Yan Zhu∗ Taesung Park∗ Phillip Isola Alexei A. Efros
Berkeley AI Research (BAIR) laboratory, UC Berkeley
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
対訳(pire)なしにCycleGANという「画像翻訳」(Image-to-Image Translation)モデルを作った話。
紹介論文
A simple neural network mnodule for relation reasoning
Adam Santoro , David Raposo , David G.T. Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
DeepMind
London, United Kingdom
A simple neural network mnodule for relation reasoning
ニューラルネットワークが学習するのが困難な関係推論問題に対してRelation Networks (RN)と呼ばれるモジュールを使⽤してこの問題を解決する⼿法を提案している。
Deeply-Recursive Convolutional Network for Image Super-Resolution
Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee
Deeply-Recursive Convolutional Network for Image Super-Resolution
超解像技術(SR)を畳込み層を再帰的に用いるDeeply-Recursive Convolutional Network(DRCN)を用いた手法で、state-of-the-artな性能を発揮した論文。
紹介論文
Asynchronous Methods for Deep Reinforcement Learning
Volodymyr Mnih,Adrià Puigdomènech Badia,Mehdi Mirza,et al.
Asynchronous Methods for Deep Reinforcement Learning
DQNの開発者による非同期並列な強化学習アルゴリズムの紹介
紹介論文
Colorful Image colorization
RICHARD ZHANG, PHILLIP ISOLA, ALEXEI A. EFROS
Colorful Image colorization
クラスリバランスと新しい損失関数を用いた、グレー画像のカラー化
紹介論文
DeepLoco : Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning
XUE BIN PENG and GLEN BERSETH, University of British Columbia
KANGKANG YIN, National University of Singapore
MICHIEL VAN DE PANNE, University of British Columbia
DeepLoco
深層強化学習によって二足歩行技術を学習する。
2レベルの階層的制御フレームワークの採用により再利用可能な、堅牢なコントローラを生成する。
紹介論文
Deep Voice: Real-time Neural Text-to-Speech
Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybihttps://arxiv.org/abs/1702.07825
完全にディープニューラルネットワークで構成された製品レベルの text-to-speech(TTS)システムであるDeep Voiceを提案している。
既存のTTSシステムよりもシンプル・柔軟となっている。
Evolving Deep Neural Networks
Risto Miikkulainen, Jason Liang, Elliot Meyerson, Aditya Rawal, Dan Fink, Olivier Francon, Bala Raju, Hormoz Shahrzad, Arshak Navruzyan, Nigel Duffy, Babak Hodjat https://arxiv.org/abs/1703.00548
GAを用いてDNNのパラメータと構造を学習する。
人手で作られた最先端のものと遜色のないものが生成された。
紹介論文
Learning to Skim Text, Adams Wei Yu Hongrae Lee Quoc V. Le
https://arxiv.org/abs/1704.06877v2
スキミングというテクニックは文章の斜め読みを行い、
素早く文章の大意を掴むことができる。
LSTMをベースとした「LSTM-Jump」モデルを提案し、従来の手法よりもより高速に処理を行う。
紹介論文
DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.,
http://personal.ie.cuhk.edu.hk/~lz013/projects/DeepFashion.html
服飾画像の属性認識を服の位置情報を組み合わせて学習を行うことで、既存の研究よりも高い精度で認識が可能になった。本実験で使用されたデータセットは、他の研究者も使用できるように公開されている。
紹介論文
Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al., Nature 518, 529-533, 2015.,
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Deep Q-Networkという学習方式を用いて、Atari2600のビデオゲームの画面を入力としてプレイを学習する。49種類のビデオゲームを学習させた結果、AIが人間の上級者のスコアの75%以上のスコアを記録したゲームは29種類にのぼった。
紹介論文
Unsupervised representation learning with deep convolutional generative adversarial networks, Alec Radford, Luke Metz, Soumith Chintala, ICLR 2016,
https://arxiv.org/abs/1511.06434
あるテーマに沿った画像のデータセットを用意し、GeneratorとDiscriminatorの2つの対立するネットワークをお互いに学習させていくことによって、データセットにそっくりな画像を生成することのできるGeneratorを獲得することができる。
紹介論文
On-line deep learning method for action recognition, Charalampous, Konstantinos, and Antonios Gasteratos, Pattern Analysis and Applications 19.2 (2016): pp. 337-354.
オンライン学習によって、動画の中の人物がどのような動きをしているのかを分類するための方法。ノイズが多い現実のデータでも高い精度での特徴抽出が可能であり、事前学習の必要もないので未知のデータに対しても適用可能である。
論文リスト
・Deep Q Network
Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Nature 518, 529?533 (26 February 2015)
・深層強化学習を並行して非同期に行う手法
Asynchronous Methods for Deep Reinforcement Learning, Volodymyr Mnih, Adrià Puigdom ènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silve r, Koray Kavukcuoglu,
https://arxiv.org/abs/1602.01783
・深層教科学習による複数エージェント間の通信プロトコルの獲得
Learning to Communicate with Deep Multi-Agent Reinforcement Learning, Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson,
https://arxiv.org/abs/1605.06676
・着衣画像の認識
DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang. Computer Vision and Pattern Recognition (CVPR), 2016
・GANによるキャプションからの画像生成の学習
Generative Adversarial Text to Image Synthesis, Scott E. Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele,
https://arxiv.org/abs/1605.05396
論文リスト(公開済)
・人の動作を写した動画の教師なしオンライン学習
On-line deep learning method for action recognition, Charalampous, Konstantinos, and Antonios Gasteratos, Pattern Analysis and Applications 19.2 (2016): pp. 337-354.
・DCGANによる画像生成モデルの学習
Unsupervised representation learning with deep convolutional generative adversarial networks, Alec Radford, Luke Metz, Soumith Chintala, ICLR 2016,
https://arxiv.org/abs/1511.06434
・GANを用いた画像から画像への変換の学習
Image-to-Image Translation with Conditional Adversarial Networks, Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros,
https://arxiv.org/abs/1611.07004