ﾃﾞｨｰﾌﾟﾗｰﾆﾝｸﾞ勉強会

研究室で行っているディープラーニング知識共有ゼミの発表資料です。

2025年/11月

紹介論文

Collaborative Document Simplification Using Multi-Agent Systems

Dengzhao Fang, Jipeng Qiang, Xiaoye Ouyang, Yi Zhu, Yunhao Yuan, Yun Li

文書簡略化に関する研究は長年行われてきた。しかし、技術用語、比喩表現、文脈全体の整合性といった複雑な要素を考慮する必要性から、文書簡略化（DS）の課題は依然として大きな課題である。本研究では、大規模言語モデル（LLM）に基づく新たな文書簡略化のためのマルチエージェントフレームワーク（AgentSimp）を提案する。本フレームワークは、複数のエージェントが担う役割を通じて人間の専門家チームの協働プロセスを模倣し、文書簡略化の複雑な要求に対応する。エージェント間の2つのコミュニケーション戦略（パイプライン型と同期型）と、2つの文書再構築戦略（直接型と反復型）を検討した。自動評価指標と人間評価結果の両方において、AgentSimpによって簡略化された文書は、様々な種類やスタイルの記事において、より徹底的に簡略化され、より一貫性が高いと評価された。

紹介論文

Can Large Language Models perform Relation-based Argument Mining?

Deniz Gorur, Antonio Rago, Francesca Toni

議論抽出（Argument Mining: AM）とは、テキストから議論、その構成要素、および議論と構成要素間の関係を自動的に抽出するプロセスである。オンライン討論をサポートするプラットフォームが増えるにつれ、特に下流タスクを支援する上で、AMの必要性はますます切迫している。関係ベースの議論抽出（Relation-based AM: RbAM）は、議論間の合意（支持）関係と不一致（攻撃）関係を特定することに焦点を当てたAMの一形態である。RbAMは困難な分類課題であり、既存手法は満足のいく性能を発揮できていない。本論文では、適切に事前学習とプロンプティングを施した汎用大規模言語モデル（LLM）が、最良のベースライン（RoBERTaベース）を大幅に上回る性能を発揮し得ることを示す。具体的には、2つのオープンソースLLM（Llama-2とMistral）を用いて10のデータセットで実験を行った。

2025年/10月

紹介論文

UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang

自動運転の文脈において、効果的な特徴学習の重要性は広く認識されている。従来の3D自己教師付き事前学習手法は広く成功を収めているが、ほとんどの手法はもともと2D画像向けに設計されたアイデアに従っている。本論文では、3D体積微分可能レンダリングを適用する新たな自己教師付き学習パラダイムであるUniPADを提案する。UniPADは3D空間を暗黙的に符号化し、連続的な3D形状構造とその2D投影の複雑な外観特性の再構築を可能にする。本手法の柔軟性により、2Dおよび3Dフレームワークへのシームレスな統合が可能となり、シーンのより包括的な理解を実現する。様々な下流3Dタスクにおける広範な実験を通じて、UniPADの実現可能性と有効性を実証する。本手法は、LIDARベース、カメラベース、LIDAR-カメラベースの各ベースラインをそれぞれ9.1、7.7、6.9 NDS改善する。特に、我々の事前学習パイプラインはnuScenes検証データセットにおいて、3D物体検出で73.2 NDS、3Dセマンティックセグメンテーションで79.4 mIoUを達成し、従来手法と比較して最先端の結果を実現している。

紹介論文

Efficient anomaly detection in tabular cybersecurity data using large language models

Xiaoyong Zhao, Xingxin Leng, Lei Wang, Ningning Wang, Yanqiong Liu

サイバーセキュリティにおいて、表形式データにおける異常検出は情報セキュリティを確保するために不可欠である。従来の機械学習や深層学習手法は一定の成果を示しているものの、汎化能力の面で依然として重大な課題に直面している。これらの制限に対処するため、本論文では大規模言語モデルに基づく表形式データ異常検出の革新的手法「ガイデッドプロンプトによる表形式異常検出（TAD-GP）」を提案する。本手法は70億パラメータのオープンソースモデルを活用し、データサンプル導入、異常種別認識、思考連鎖推論、複数ターン対話、重要情報強化といった戦略を組み込んでいる。実験結果から、TAD-GPフレームワークはCICIDS2017、KDD Cup 1999、UNSW-NB15データセットにおいてそれぞれF1スコアを79.31%、97.96%、59.09%向上させることが示された。さらに、小規模なTAD-GPモデルは複数のデータセットにおいて大規模モデルを上回る性能を示し、計算リソースが制約された環境やプライベートデプロイメント要件下での実用的な可能性を実証した。本手法は、特に小規模なオープンソースモデルを用いたサイバーセキュリティ分野の異常検知研究における重要なギャップを埋めるものである。

紹介論文

APT-LLM: Embedding-Based Anomaly Detection of Cyber Advanced Persistent Threats Using Large Language Models

Sidahmed Benabderrahmane, Petko Valtchev, James Cheney, Talal Rahwan

高度持続的脅威（APT）は、そのステルス性と正常なシステム動作を模倣する能力により、サイバーセキュリティ上の重大な課題となっている。特に不均衡なデータセットでは検知が極めて困難である。従来の異常検知手法は、APT関連活動と良性プロセスを効果的に区別できず、実環境での適用性に限界がある。本論文では、大規模言語モデル（LLM）―BERT、ALBERT、DistilBERT、RoBERTa―を自動符号化器アーキテクチャと統合した、埋め込みベースの新たな異常検知フレームワーク「APT-LLM」を提案する。手動設計された特徴量や従来の異常検知モデルに依存する従来手法とは異なり、本手法はAPTの検出を実現する。（LLM）―BERT、ALBERT、DistilBERT、RoBERTa―とオートエンコーダ構造を統合した新たな埋め込みベースの異常検知フレームワークである。手動設計された特徴量や従来の異常検知モデルに依存する従来手法とは異なり、APT-LLMはLLMを活用してプロセス動作の由来トレースを意味豊な埋め込みに変換し、微妙な行動パターンを捕捉する。これらの埋め込みは、3つのオートエンコーダアーキテクチャ（ベースラインオートエンコーダ（AE）、変分オートエンコーダ（VAE）、ノイズ除去オートエンコーダ（DAE））を用いて分析され、正常なプロセス動作をモデル化し異常を特定する。最も性能の高いモデルを選定し、従来手法との比較を実施。本フレームワークはDARPA透明コンピューティングプログラムの現実世界データ（高度に不均衡なプロバンストレースデータセット）で評価され、APT型攻撃は複数OS（Android、Linux、BSD、Windows）および攻撃シナリオ全体でデータのわずか0.004％を占めるに過ぎない。結果は、APT-LLMが極端な不均衡条件下で検出性能を大幅に向上させ、既存の異常検知手法を上回り、サイバーセキュリティにおけるLLMベースの特徴抽出の有効性を示していることを実証している。

2025年/9月

紹介論文

CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models

Yutong Cheng, Osama Bajaber, Saimon Amanuel Tsegai, Dawn Song, Peng Gao

サイバー脅威インテリジェンス（CTI）レポートにおけるテキスト記述（セキュリティ記事やニュースなど）は、サイバー脅威に関する豊富な知識源であり、組織が急速に進化する脅威環境を把握するために不可欠である。しかし、現行のCTI知識抽出手法は柔軟性と汎用性に欠け、不正確かつ不完全な知識抽出を招くことが多い。構文解析は固定ルールと辞書に依存し、モデルの微調整には大規模な注釈付きデータセットが必要であるため、いずれのパラダイムも新たな脅威やオントロジーへの適応が困難である。この課題を解決するため、我々はCTINexusを提案する。これは大規模言語モデル（LLM）の最適化された文脈内学習（ICL）を活用し、データ効率的なCTI知識抽出と高品質なサイバーセキュリティ知識グラフ（CSKG）構築を実現する新規フレームワークである。既存手法とは異なり、CTINexusは膨大なデータやパラメータ調整を必要とせず、最小限の注釈付き例で多様なオントロジーに適応可能である。これは以下の手法により実現される：(1) 幅広いサイバーセキュリティエンティティと関係を抽出するための最適化されたデモンストレーション検索を備えた、慎重に設計された自動プロンプト構築戦略；(2) 抽出された知識を正規化し冗長性を除去する階層的エンティティアラインメント技術； (3) 欠落リンクを補完する長距離関係予測技術。10プラットフォームから収集した150件の実世界CTIレポートを用いた広範な評価により、CTINexusが正確かつ完全なCSKG構築において既存手法を大幅に上回り、動的な脅威環境に対応する効率的かつ適応性の高いソリューションとしてCTI分析を変革する可能性を実証した。

紹介論文

Mixture-of-Personas Language Models for Population Simulation

Ngoc Bui, Hieu Trung Nguyen, Shantanu Kumar, Julian Theodore, Weikang Qiu, Viet Anh Nguyen, Rex Ying

大規模言語モデル（LLM）の進歩は、人間行動シミュレーションなど様々な分野での応用を可能にした。LLMは社会科学研究や機械学習モデル訓練において、人間が生成したデータを補完し得る。しかし事前学習済みLLMは、個人や集団に内在する変動性のため、対象集団の行動多様性を捉えきれないことが多い。この課題に対処するため、我々はLLM応答を対象集団に整合させる確率的プロンプティング手法「Mixture of Personas」（MoP）を提案する。MoPは文脈混合モデルであり、各構成要素はペルソナとサブ集団行動を表す実例によって特徴付けられる言語モデルエージェントである。シミュレーション中に多様なLLM応答を引き出すため、学習済み混合重みに従いペルソナと実例がランダムに選択される。MoPは柔軟性が高く、モデルの微調整を必要とせず、基盤モデル間で転移可能である。合成データ生成実験では、MoPが競合手法をアラインメント指標と多様性指標の両方で上回ることを示した。

2025年/8月

紹介論文

QuASAR: A Question-Driven Structure-Aware Approach for Table-to-Text Generation

WeiJie Liu, Yibin Zheng, Fang Kong

表からテキストへの生成は、構造化または半構造化された表形式データから自然言語による説明を自動的に生成することを目的とする。従来のテキスト生成タスクとは異なり、モデルが表構造を正確に理解し表現することが求められる。既存の手法は通常、表を線形化またはグラフ構造に変換して処理する。しかしこれらの手法は、表構造を適切に捉えられないか、複雑な注意機構に依存するため適用範囲が限定される。これらの課題に対処するため、我々はモデルの構造認識・表現能力を強化する質問駆動型自己教師付き学習アプローチ「QuASAR」を提案する。具体的には、自己教師付き学習向けに構造関連クエリ群を構築し、局所的・全体的な表構造の両方を明示的に捕捉するようモデルを誘導する。さらに、生成テキストの流暢性と事実性を向上させるため、2つの補助的事前学習タスクを導入する：単語から文への再構築タスクと数値要約タスクである。ToTToおよびHiTabデータセットでの実験結果は、本手法が既存手法と比較して高品質なテキストを生成することを実証している。

紹介論文

Large Language Model based Multi-Agents: A Survey of Progress and Challenges

Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang

大規模言語モデル（LLM）は、幅広いタスクにおいて目覚ましい成功を収めている。LLMの優れた計画立案能力と推論能力により、自律エージェントとして多くのタスクを自動実行する用途に活用されてきた。近年では、単一のLLMを計画立案・意思決定エージェントとして活用する手法を発展させ、LLMベースのマルチエージェントシステムが複雑な問題解決や世界シミュレーションにおいて著しい進展を遂げている。このダイナミックな分野の概要をコミュニティに提供するため、本調査ではLLMベースのマルチエージェントシステムの本質的側面と課題について深く考察する。読者が以下の疑問に対する深い洞察を得られることを目的とする：LLMベースのマルチエージェントはどのような領域や環境をシミュレートするのか？これらのエージェントはどのようにプロファイリングされ、どのように通信するのか？エージェントの能力向上に寄与するメカニズムは何か？この研究分野を深く掘り下げたい方々のために、一般的に使用されるデータセットやベンチマークもまとめ、容易にアクセスできるようにしている。研究者が最新の研究動向を把握できるよう、LLMベースのマルチエージェントシステムに関する研究を網羅したオープンソースのGitHubリポジトリを運用している。

紹介論文

Mixture-of-Personas Language Models for Population Simulation

Ngoc Bui, Hieu Trung Nguyen, Shantanu Kumar, Julian Theodore, Weikang Qiu, Viet Anh Nguyen, Rex Ying

2025年/7月

紹介論文

TransitReID: Transit OD Data Collection with Occlusion-Resistant Dynamic Passenger Re-Identification

Kaicong Huang, Talha Azfar, Jack Reilly, Ruimin Ke

公共交通サービスの最適化には乗降地（OD）データが不可欠である。しかし、現行の収集手法（手動調査、Bluetooth/WiFi追跡、自動乗客計数装置など）は、コスト高、デバイス依存、個人レベルでの照合不能といった課題を抱えている。一方、大半の交通車両に既に設置されている車載監視カメラは、自動化されたODデータ収集において未活用の機会を提供している。これを活用し、公共交通環境向けに設計された個人レベルかつ遮蔽耐性のある乗客再識別フレームワーク「TransitReID」を提案する。本手法は以下の3つの革新を導入する：(1) 変分オートエンコーダによる領域注意機構と選択的品質特徴量平均化を統合した遮蔽耐性ReIDアルゴリズム。これにより、深刻な遮蔽や視点変動下でも可視性・識別性の高い身体領域を動的に強調する； (2) 階層的保存と動的マッチング（HSDM）機構：静的なギャラリーマッチングを動的プロセスへ変換し、実世界のバス運行における頑健性・精度・速度を実現；(3) マルチスレッド対応のエッジ実装：全データをローカル処理することでプライバシーを確保しつつ、ほぼリアルタイムのOD推定を可能とする。この分野の研究を支援するため、多様な遮蔽・視点条件下でバス前部・後部カメラから撮影された17,000枚以上の画像を含む新規TransitReIDデータセットを構築した。実験結果から、TransitReIDはR-1精度88.3%、mAP 92.5%という最先端性能を達成し、NVIDIA Jetsonエッジデバイス上でのバス路線シミュレーションにおいても90%のOD推定精度を維持することが実証された。本研究は自動交通OD収集のアルゴリズム的・システム的基盤を共に推進し、知能交通システムにおけるスケーラブルでプライバシー保護を実現する展開の道を開くものである。

紹介論文

Data Scaling Laws for End-to-End Autonomous Driving

Alexander Naumann, Xunjiang Gu, Tolga Dimlioglu, Mariusz Bojarski, Alperen Degirmenci, Alexander Popov, Devansh Bisla, Marco Pavone, Urs Müller, Boris Ivanovic

自律走行車（AV）のスタックは従来、知覚、予測、計画を別々のモジュールで処理する分解型アプローチに依存してきた。しかしこの設計では、モジュール間の通信中に情報損失が生じ、計算オーバーヘッドが増加し、複合的なエラーを引き起こす可能性がある。これらの課題に対処するため、近年の研究では全コンポーネントを統合したエンドツーエンドの微分可能モデルを提案しており、システム全体の最適化を可能にしている。この転換はソフトウェア統合よりもデータエンジニアリングを重視し、単にトレーニングリソースをスケールアップするだけでシステム性能を向上させる可能性を提供する。本研究では、16時間から8192時間に及ぶ内部走行データセットに対し、オープンループ指標とクローズドループシミュレーションの両方で、シンプルなエンドツーエンド走行アーキテクチャの性能を評価する。具体的には、目標とする性能向上（例：動作予測精度の5%改善）を達成するために必要な追加トレーニングデータの量を調査する。モデル性能とトレーニングデータセット規模の関係性を理解することで、自動運転開発におけるデータ駆動型意思決定への知見提供を目指す。

2025年/6月

紹介論文

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter

我々は第一世代推論モデルDeepSeek-R1-ZeroとDeepSeek-R1を紹介する。DeepSeek-R1-Zeroは、事前段階としての教師あり微調整（SFT）なしに大規模強化学習（RL）で訓練されたモデルであり、顕著な推論能力を示す。RLを通じて、DeepSeek-R1-Zeroは数多くの強力で興味深い推論行動を自然に獲得する。しかし、可読性の低さや言語混在といった課題に直面する。これらの問題を解決し推論性能をさらに向上させるため、RL前に多段階トレーニングとコールドスタートデータを組み込んだDeepSeek-R1を導入する。DeepSeek-R1は推論タスクにおいてOpenAI-o1-1217に匹敵する性能を達成する。研究コミュニティを支援するため、DeepSeek-R1-Zero、DeepSeek-R1、およびQwenとLlamaを基盤にDeepSeek-R1から蒸留した6つの高密度モデル（15億、70億、80億、140億、320億、700億パラメータ）をオープンソース化します。

紹介論文

Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?

Zhiqi Li, Zhiding Yu, Shiyi Lan, Jiahan Li, Jan Kautz, Tong Lu, Jose M. Alvarez

エンドツーエンド自律走行は、フルスタックの観点から自律性を追求する有望な研究方向として最近台頭してきた。この流れに沿い、最新の研究の多くはnuScenesを用いたオープンループ評価設定で計画行動を研究している。本論文では、詳細な分析を実施し、細部に潜む課題の解明を通じて、この問題の深層に迫る。まず、比較的単純な運転シナリオを特徴とするnuScenesデータセットでは、自己車両の状態（自己車両の速度など）を組み込んだエンドツーエンドモデルにおいて知覚情報の活用が不十分である点を確認した。これらのモデルは将来の経路計画において自己車両の状態に過度に依存する傾向がある。データセットの限界に加え、現行の評価指標では計画品質を包括的に評価できず、既存ベンチマークから導かれる結論に偏りが生じる可能性にも留意すべきである。この問題に対処するため、予測軌道が道路に適合しているかを評価する新たな指標を導入する。さらに、知覚アノテーションに依存せず競争力のある結果を達成可能な簡易ベースラインを提案する。ベンチマークと評価指標の現状の限界を踏まえ、研究コミュニティは関連する既存研究を再評価し、最先端技術の追求が説得力のある普遍的な結論をもたらすかどうか慎重に検討すべきであると提言する。

紹介論文

Encoding and Controlling Global Semantics for Long-form Video Question Answering

Thong Thanh Nguyen, Zhiyuan Hu, Xiaobao Wu, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu

長い動画から効果的に回答を探すことは、動画質問応答（videoQA）システムを構築する上で不可欠である。従来の方法は、計算量を節約するため長尺動画からフレームや領域を適応的に選択する。しかし、これにより動画全体のシーケンスを推論できず、性能が最適化されない。この問題を解決するため、マルチモーダルTransformerに状態空間層（SSL）を導入し、動画のグローバルな意味論を効率的に統合する。これにより、フレーム・領域選択モジュールによる動画情報の損失を軽減する。我々のSSLは、グローバルセマンティクスから視覚表現への流れを制御可能にするゲートユニットを備える。制御性をさらに高めるため、質問と整合したグローバルセマンティクスを促進するクロスモーダル構成的整合性(C^3)目的関数を導入した。長尺動画QA能力を厳密に評価するため、我々は2つの新規ベンチマークEgo-QAとMAD-QAを構築した。これらはそれぞれ17.5分と1.9時間という相当な長さの動画を特徴とする。広範な実験により、新規データセットおよび既存データセットにおいて本フレームワークの優位性が実証された。長い動画から効果的に回答を探すことは、動画質問応答（videoQA）システムを構築する上で不可欠である。従来の方法は、計算量を節約するため長尺動画からフレームや領域を適応的に選択する。しかし、これにより動画全体のシーケンスを推論できず、性能が最適化されない。この問題を解決するため、マルチモーダルTransformerに状態空間層（SSL）を導入し、動画のグローバルな意味論を効率的に統合する。これにより、フレーム・領域選択モジュールによる動画情報の損失を軽減する。我々のSSLは、グローバルセマンティクスから視覚表現への流れを制御可能にするゲートユニットを備える。制御性をさらに高めるため、質問と整合したグローバルセマンティクスを促進するクロスモーダル構成的整合性(C^3)目的関数を導入した。長尺動画QA能力を厳密に評価するため、我々は2つの新規ベンチマークEgo-QAとMAD-QAを構築した。これらはそれぞれ17.5分と1.9時間という相当な長さの動画を特徴とする。広範な実験により、新規データセットおよび既存データセットにおいて本フレームワークの優位性が実証された。

2025年/5月

紹介論文

AECR: Automatic attack technique intelligence extraction based on fine-tuned large language model

Minghao Chen, Kaijie Zhu, Bin Lu, Ding Li, Qingjun Yuan, Yuefei Zhu

サイバー脅威インテリジェンス（CTI）レポートは、サイバー攻撃キャンペーンに関する有益な情報を提供し、セキュリティアナリストが攻撃の傾向を推測し防御を強化する上で大きな助けとなる。しかし、レポートの内容や記述スタイルが多様であるため、現在のインテリジェンス抽出は主に時間のかかる手作業に依存している。さらに、既存の自動手法は一般的に背景知識の重要性を軽視し、不正確な抽出結果を生む。これらの問題がCTIレポートからのインテリジェンスの効果的な活用と共有を妨げている。本論文では、攻撃行動のパターンを明らかにし、時間経過でほとんど変化しない攻撃手法（AT）インテリジェンスの自動抽出に焦点を当てる。CTIレポート向けの新規自動AT抽出パイプライン（AECR）を提案する。AECRは、微調整された大規模言語モデル（LLM）に基づくATインテリジェンス抽出の可能性を探る。特に、選定したLLMに強化されたドメイン固有知識を付与することで、AT関連コンテンツの理解度を向上させ、幻覚問題を軽減する。実験結果から、AECRは妥当な時間コストで最先端手法を大幅に上回る性能を発揮することが実証された。具体的には、精度、精緻度、再現率、F1スコアをそれぞれ108%、37.2%、22.4%、67.5%向上させました。我々の知る限り、AECRは微調整済みLLMに基づくAT抽出を初めて実現した手法です。

紹介論文

Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic

近年の大規模言語モデルの進歩は、様々な領域におけるその顕著な汎用性を示している。しかし、その推論能力は、特に多段階の推論を必要とするシナリオに直面した場合、まだ改善の余地が大きい。大規模言語モデルは広範な知識を持っているが、その推論はしばしば、首尾一貫した思考パラダイムを確立するために、この知識を効果的に活用することができない。これらのモデルは、推論手順が論理的原則に制約されないため、時に幻覚を見せる。大規模言語モデルのゼロショット思考連鎖推論能力を向上させることを目的として、我々はLoT(Logical Thoughts)を提案する。LoTは、記号論理学、特にReductio ad Absurdumに根ざした原理を活用し、推論プロセスを体系的に検証し、段階的に修正する自己改善プロンプトフレームワークである。算数、常識、記号、因果推論、社会問題など多様な領域の言語タスクで行われた実験評価により、論理による推論強化の有効性が実証されている。

紹介論文

Towards Scalable Human-aligned Benchmark for Text-guided Image Editing

Suho Ryu, Kihyun Kim, Eugene Baek, Dongsoo Shin, Joonseok Lee

最近、さまざまなテキスト誘導画像編集モデルが提案されています。しかし、主にタスクの主観的な性質のために、広く受け入れられている標準的な評価方法はなく、研究者は手作業のユーザー研究に頼らざるを得ません。この問題を解決するために、我々はテキスト誘導画像編集（HATIE）のための新しい人間に合わせたベンチマークを紹介します。幅広い編集タスクをカバーする大規模なベンチマークセットを提供することで、評価しやすい特定のケースに限定されない、信頼性の高い評価を可能にします。また、HATIEは完全に自動化された全方向性の評価パイプラインを提供します。特に、人間の知覚と一致するように、編集のさまざまな側面を測定する複数のスコアを組み合わせます。我々は、HATIEの評価がさまざまな側面で実際に人間に合わせていることを経験的に検証し、いくつかの最先端モデルのベンチマーク結果を提供して、それらのパフォーマンスに関するより深い洞察を提供します。

2025年/4月

紹介論文

Multiple Object Tracking as ID Prediction

Ruopeng Gao, Ji Qi, Limin Wang

マルチオブジェクト追跡（MOT）は、動画理解における長年の課題である。この課題をオブジェクト検出と関連付けという二つの部分に分割するアプローチは自然かつ直感的である。主流手法の多くは、軌跡情報を維持しオブジェクトマッチングのためのコスト行列を計算するために、入念に設計されたヒューリスティック技法を採用している。これらの手法は顕著な追跡性能を達成できるものの、複雑なシナリオに直面すると、一連の精巧な手作業による修正が必要となることが多い。我々は、手動で仮定された事前知識が、ドメイン固有データから最適な追跡能力を学習する手法の適応性と柔軟性を制限すると考える。そこで、複数物体追跡を文脈内ID予測課題として扱う新たな視点を導入し、前述の物体関連付けをエンドツーエンドで学習可能な課題へと変換する。これに基づき、シンプルかつ効果的な手法「MOTIP」を提案する。ID情報を付帯した軌跡群が与えられると、MOTIPは現在の検出結果に対するIDラベルを直接復号することで関連付けプロセスを達成する。特化型や高度なアーキテクチャを用いることなく、本手法はオブジェクトレベルの特徴のみを追跡手がかりとして活用することで、複数のベンチマークにおいて最先端の結果を達成する。MOTIPの簡潔さと印象的な成果は、将来的な発展に大きな余地を残しており、それゆえに後続の研究にとって有望なベースラインとなる。

2024年/7月

【DLゼミ】Generative Image Dynamics, CVPR2024 from harmonylab

紹介論文

Generative Image Dynamics
公開URL：https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative _Image_Dynamics_CVPR_2024_paper.pdf

出典：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski: Generative Image Dynamics, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2024)

概要：自然な物体の動きを学習し、静止画から動画を生成する新しいアプローチを提案しています。実際の映像から抽出した動きのパターンをフーリエ領域でモデル化し、拡散モデルを用いて予測します。単一の画像から、周波数調整された拡散サンプリングプロセスを使用してスペクトル体積を予測し、これを動画全体をカバーする動きのテクスチャに変換します。この手法により、静止画からシームレスにループする動画を作成したり、実際の画像内のオブジェクトとインタラクティブに動きを生成したりすることが可能になります。

2024年/6月

紹介論文

Generating Automatic Feedback on UI Mockups with Large Language Models
公開URL：https://dl.acm.org/doi/10.1145/3613904.3642782

出典： Peitong Duan, Jeremy Warner, Yang Li, Bjoern Hartmann(CHI ’24)

概要：ユーザーインターフェイス (UI) のモックアップに関するフィードバックは、設計において非常に重要です。ただし、人間のフィードバックが常にすぐに得られるわけではありません。私たちは、自動フィードバックに大規模な言語モデルを使用する可能性を探ります。具体的には、GPT-4 を適用してヒューリスティック評価を自動化することに重点を置いていますが、これには現在、人間の専門家が UI が一連の設計ガイドラインに準拠しているかを評価する必要があります。私たちは、UI デザインと一連の記述されたヒューリスティックを取り込み、自動生成されたフィードバックを建設的な提案としてレンダリングする Figma プラグインを実装しました。私たちは 3 セットのガイドラインを使用して 51 の UI のパフォーマンスを評価し、GPT-4 によって生成された設計提案を人間の専門家からの提案と比較し、既存の慣行との適合性を理解するために 12 人の専門デザイナーと調査を実施しました。 GPT-4 ベースのフィードバックは、微妙なエラーの検出、テキストの改善、UI セマンティクスの検討に役立ちますが、フィードバックの有用性も反復が進むにつれて低下することがわかりました。参加者は、このプラグインの提案が不完全であるにもかかわらず、このプラグインのいくつかの用途について説明しました。

2024年/5月

【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching from harmonylab

紹介論文

XFeat: Accelerated Features for Lightweight Image Matching
公開URL：https://arxiv.org/pdf/2404.19174

出典：Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)

概要：リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat（Accelerated Features）」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。

2023年/11月

DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone from harmonylab

紹介論文

MobileOne: An Improved One millisecond Mobile Backbone
公開URL：https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html

出典：Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)

概要：モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。

DLゼミ: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation from harmonylab

紹介論文

Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation
公開URL：https://henghuiding.github.io/PADing/

出典：Shuting He, Henghui Ding, Wei Jiang: Primitive Generation and Semantic-related Alignment for Universal Zero-Shot Segmentation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)

概要：この研究は、トレーニングサンプルなしで新しいカテゴリのセグメンテーションを実現するために、ユニバーサルゼロショットセグメンテーションを提案します。意味論的空間と視覚的空間を結びつけ、生成モデルを用いて目に見えないカテゴリの特徴を合成し、ドメインギャップを軽減します。また、視覚的特徴を意味論的に関連する部分と非関連部分に分解し、クラス間関係を一致させ、最先端のパフォーマンスを達成しました。

2023年/8月

DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models from harmonylab

紹介論文

Llama 2: Open Foundation and Fine-Tuned Chat Models
公開URL：https://arxiv.org/pdf/2307.09288.pdf

出典：Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023)

概要：70億から700億のパラメータを持つ大規模言語モデル（LLM）の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。

2023年/6月

DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation from harmonylab

紹介論文

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
公開URL：https://proceedings.neurips.cc/paper_files/paper/2022/file/fbb10d319d44f8c3b4720873e4177c65-Paper-Conference.pdf

出典：Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao : ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation, Advances in Neural Information Processing Systems 35 (NeurIPS 2022), pp. 38571-38584 (2022)

概要：姿勢推定はコンピュータビジョンの1タスクとして知られています。本論文ではプレーンなVision Transformerを使った姿勢推定手法「ViTPose」を提案します。ViTPoseは非階層的なVision Transformerを特徴抽出のために使用し、100Mから1Bのパラメータにスケールアップ可能です。このモデルは事前学習や、複数のポーズタスク対応などにおいて柔軟性を持ち、大規模モデルの知識を小規模モデルに転送することも可能です。実験結果は、ViTPoseがMS COCO Keypoint DetectionベンチマークにおいてSoTAを達成しました。

紹介論文

Voyager: An Open-Ended Embodied Agent with Large Language Models
公開URL：https://arxiv.org/abs/2305.16291

出典：Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar : Voyager: An Open-Ended Embodied Agent with Large Language Models, arXiv: 2305.16291 (2023)

概要：本論文では、Minecraftの世界を持続的に探索し、多様なスキルを獲得し、新たな発見を人間の介入なく行う最初の大規模言語モデル（LLM）を駆使した具現化エージェントであるVoyagerを紹介する。Voyagerは、探索を最大化する自動カリキュラム、複雑な行動を格納・取得するためのスキルライブラリ、そして環境のフィードバック、実行エラー、プログラム改善のための自己確認を組み込む新たな反復的なプロンプトメカニズムの3つの主要なコンポーネントから成り立つ。

2023年/5月

DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation from harmonylab

紹介論文

Ego-Body Pose Estimation via Ego-Head Pose Estimation
公開URL：https://arxiv.org/abs/2212.04636

出典：Jiaman Li, C. Karen Liu, Jiajun Wu : Ego-Body Pose Estimation via Ego-Head Pose Estimation, arXiv preprint arXiv:2212.04636 (2022)

概要：人間の行動理解やVR/ARへの応用において、一人称映像から人の3次元姿勢 (3D human motion)を推定することは重要である。提案手法EgoEgoは、中間表現として頭部モーションを採用した新たな手法である。問題を2分割したことにより、既存のデータセットが活用でき、他のSoTA手法より優れた性能を示した。さらにベンチマークのための一人称映像と人の3次元推定データセットARESを開発した。

2023年/4月

紹介論文

ReAct: Synergizing Reasoning and Acting in Language Models
公開URL：https://arxiv.org/abs/2210.03629

出典：Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022)

概要：本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク（QAタスク・事実検証タスク）と意思決定タスク（テキストゲーム、ウェブナビゲーション）でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。

2022年/12月

紹介論文

Emotionally Intelligent Fashion Design Using CNN and GAN

出典：Yang, Cheng et al. “Emotionally Intelligent Fashion Design Using CNN and GAN.” Computer-aided Design and Applications 18 (2021): 900-913.

全体的な製品の性能が向上したことにより、消費者は機能よりもイメージのような感情に訴えられる部分に注目するようになった。そこで本研究では、靴に着目することで商品イメージを識別するProduct Image Recognition model とイメージ通りの商品を生成するIntelligent Design Generation Model を提案する。Product Image Recognition model では、アンケートによって得られた各商品の画像のイメージ情報をCNNベースのモデルによって学習を行い、商品イメージの識別を実現した。Intelligent Design Generation Model では、GANベースのモデルより、イメージに沿った商品の生成を実現した。見た目による定性的な評価や被検者による実験の結果などから、提案手法の実現可能性と有効性が示せた。

2022年/11月

Feature Erasing and Diffusion Network for Occluded Person Re-Identification from harmonylab

紹介論文

Feature Erasing and Diffusion Network for Occluded Person Re-Identification

出典：Zhikang Wang, Feng Zhu, Shixiang Tang, Rui Zhao, Lihuo He, Jiangning Song，CVPR2022

概要：オクルージョン消去モジュール(OEM)と特徴拡散モジュール(FDM)を導入したReIDモデル，FEDを提案．ReIDのベンチマークでSoTAを達成．

Towards Total Recall in Industrial Anomaly Detection from harmonylab

紹介論文

Towards Total Recall in Industrial Anomaly Detection
公開URL：https://openaccess.thecvf.com/content/CVPR2022/papers/Roth_Towards_Total_Recall_in_Industrial_Anomaly_Detection_CVPR_2022_paper.pdf

出典：Karsten Roth, Latha Pemula, Joaquin Zepeda, Bernhard Schölkopf, Thomas Brox, Peter Gehler： Towards Total Recall in Industrial Anomaly Detection, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14318-14328 (2022)

概要：本論文では位置情報を考慮した特徴量の集合和であるメモリバンクとCoresetによる画像パッチ特徴量の削減を行うPatchCoreアルゴリズムを提案する．結果として、異常検出のベンチマークであるMVTecにおいてAUROC99％以上の精度を出力し，2022年時点でのSoTAを記録した．また，PatchCoreによる特徴量削減により，学習のサンプル数を20％に減らした場合でも以前のSoTAに匹敵する精度となった．

2022年/10月

紹介論文

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
公開URL：https://arxiv.org/abs/2111.09543

出典：Pengcheng He, Jianfeng Gao, Weizhu Chen : DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing, arXiv: 2111.09543 (2021)

概要：本論文ではDeBERTaの事前学習手法をMasked Language Modeling(MLM)からELECTRAで提案されたReplaced Token Detection(RTD)に変更したDeBERTa V3を紹介する．また，ELECTRAにおけるGeneratorとDiscriminatorのEmbedding共有手法の問題点を分析し，その問題を回避する新しい共有手法であるGradient-Disentangled Embedding Sharingを提案する．代表的な自然言語理解タスクでDeBERTa V3の性能を評価し，同様の構造をもつモデルの中でも高い性能を示すことを示した．

紹介論文

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic

出典：Tewel, Yoad, et al. “ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

公開URL：https://openaccess.thecvf.com/content/CVPR2022/papers/Tewel_ZeroCap_Zero-Shot_Image-to-Text_Generation_for_Visual-Semantic_Arithmetic_CVPR_2022_paper.pdf

概要：CLIPと LM (GPT-2 ) を使用して、 Zero-shotでImage-to-Textタスクを解く自己回帰モデルであるZeroCapを提案している。生成されたキャプションは意味レベルで画像とよく一致し、現実世界の情報も示していた。2 つの画像の違いを言葉で説明する方法と、複数の画像の概念を組み合わせる方法を示す。どちらも新しい高レベルの認識タスクとなっている。

2022年/9月

Outracing champion Gran Turismo drivers with deep reinforcement learning from harmonylab

紹介論文

Outracing champion Gran Turismo drivers with deep reinforcement learning
公開URL: https://www.nature.com/articles/s41586-021-04357-7

出典：Peter R. Wurman, Samuel Barrett , Kenta Kawamoto, James MacGlashan, Kaushik Subramanian, Thomas J. Walsh, Roberto Capobianco , Alisa Devlic, Franziska Eckert, Florian Fuchs, Leilani Gilpin, Piyush Khandelwal, Varun Kompella, HaoChih Lin, Patrick MacAlpine, Declan Oller, Takuma Seno, Craig Sherstan, Michael D. Thomure, Houmehr Aghabozorgi, Leon Barrett, Rory Douglas, Dion Whitehead, Peter Dürr, Peter Stone, Michael Spranger & Hiroaki Kitano:Outracing champion Gran Turismo drivers with deep reinforcement learning，Nature(2021)

概要: PlayStation4(PS4)用ゲームソフトGran Turismo (GT) Sportを用いて深層強化学習エージェントと人間のプロが対決。強化学習エージェントの学習にあたって、最先端のモデルフリーの深層強化学習アルゴリズムOR-SACの開発、スポーツマンシップを守りつつ競争力のある報酬関数の構築、更に学習シナリオにも工夫を加えたことで卓越したスピードと優れた戦術を組み合わせた統合制御方策を学習した。本論文のエージェント、Gran Turismo Sophy(GT Sophy)は世界最高のGTのドライバー4人と直接対決の末、勝利を飾った。

2022年/8月

All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text from harmonylab

紹介論文

All That’s ‘Human’ Is Not Gold Evaluating Human Evaluation of Generated Text

出典: Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, Noah A. Smith, Association for Computational Linguistics (2021)

概要：本研究は3つのドメインにおいて、人間または機械が作成したテキストを区別する能力を評価する実験を実施しました。その結果、非エキスパートはGPT3と人間作成のテキストをチャンスレベルでしか区別できていないことがわかりました。また、GPT3が作成したテキストをより適切に識別するために3つの訓練（詳細な説明、注釈付き問題例、ペア例）を被験者に施しましたが、精度は有意な向上が見られないことを明らかにしました。そして実験の結果をもとに、NLG研究者に最先端のモデルから生成されたテキストの人間評価を改善するための提言を行いました。

紹介論文

Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning

出典: Jianfeng Dong, Zhe Ma, Xiaofeng Mao, Xun Yang, Yuan He, Richang Hong, Shouling Ji : Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning, Proceedings of IEEE Transactions on Image Processing (2021)

概要：ファッションアイテムのきめ細かい属性の類似性を学習するASENを提案しました。ASEN はGlobal branch（画像全体を入力値）とLocal branch（Global branchの途中の過程で取得できる、属性に着目している部分のみ切り取った画像が入力値）の２つのモデルから成りたちます。また、2つのモデルは、ASAとACAにより、属性の類似度計算を実現しました。実験の結果、類似性を識別にはASENが最も良いことが分かりました。

2022年/7月

ArcFace: Additive Angular Margin Loss for Deep Face Recognition from harmonylab

紹介論文

ArcFace: Additive Angular Margin Loss for Deep Face Recognition
公開URL：https://arxiv.org/abs/1801.07698

出典: Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou : ArcFace: Additive Angular Margin Loss for Deep Face Recognition, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (2019)

概要 : 顔認識のための畳み込みニューラルネットワーク(DCNN)の課題は識別力を高める適切な損失関数を設計することです。本論文では、顔認識のための識別性の高い特徴量を得るために、Additive Angular Margin Loss (ArcFace)を提案します。一般的な顔認識ベンチマークから1兆ペアの大規模データセットなどを用いて、最先端顔認識技術との比較実験を行いました。結果は、従来手法を凌駕する精度を持つことが明らかになりました。

紹介論文

Solving Quantitative Reasoning Problems with Language Models
公開URL：https://arxiv.org/abs/2206.14858

出典：Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, Vedant Misra : Solving Quantitative Reasoning Problems with Language Models, arXiv:2206.14858 (2022)

概要：言語モデルは様々なNLPタスクで高い性能を示している．一方で数学の問題を解くようなQuantitative Reasoningを必要とするタスクには最先端モデルでも苦戦している．本論文では数学・科学の問題を高い精度で解くことが可能なMinervaを紹介する． PaLMを数学・科学関連のデータセットでfinetuneしたモデルであるMinervaは．外部ツールを使用することなく，LATEX記法を含む問題文から問題の解を解の導出過程を含めて出力可能である．

紹介論文

Self-supervised Learning of Adversarial Example:Towards Good Generalizations for Deepfake Detection

出典：Chen, Liang, et al. “Self-supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

概要：DeepFakeの検出器をより一般化するための学習手法を提案しており、モデルの学習にフェイクの構成を推定するアプローチを組み込むことで、汎化性能の向上を狙っている。学習とは異なるデータセットでテストを行い、従来手法より精度向上したことから、提案手法が汎化性能向上に貢献していることが示されている。

紹介論文

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

出典：Krishna Pillutla，Swabha Swayamdipta，Rowan Zellers，John Thickstun，Sean Welleck，Yejin Choi，Zaid Harchaoui:MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers(NeurIPS 2021)

概要：大規模言語モデルはオープンエンドテキスト生成において，高品質で一貫性を持つ文章を生成できる能力を示していますが，モデルが生成したテキストと人間が書いたテキストの近さを測るための評価指標は未だに確立されていません。提案された評価指標MAUVEはこれらのテキストをKL divergenceを用いて直接比較します。実験では既存の評価指標よりも人間による評価との相関が確認されました。

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving from harmonylab

紹介論文

Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving
公開URL: https://arxiv.org/abs/2103.10690

出典：Zhiyu Huang, Jingda Wu, Chen Lv:Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autonomous Driving，IEEE Transactions on Neural Networks and Learning Systems(2022)

概要: 深層強化学習(DRL)は人間のような自律走行を実現するための有望な方法であり広く研究されている．しかし、DRLの実際の応用にはサンプル効率の低さと報酬関数の設計の難しさが妨げとなっている．DRLに人間の事前情報を組み込むことで、これらの問題を解消する新しいフレームワークを提案する．2つの都市交通シナリオ(無防備左折、環状交差点)で実験し、既存の手法と比較して最も良い性能を示した．

2022年/6月

A Transformer-based Framework for Multivariate Time Series Representation Learning from harmonylab

紹介論文

A Transformer-based Framework for Multivariate Time Series Representation Learning
公開URL：https://dl.acm.org/doi/abs/10.1145/3447548.3467401?

出典：Zerveas, George, et al. “A transformer-based framework for multivariate time series representation learning.” Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021.

概要：A novel framework for multivariate time series representation learning based on the transformer encoder architecture.The framework includes an unsupervised pre-training scheme, which can offer substantial performance benefits over fully supervised learning on downstream tasks

Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing from harmonylab

紹介論文

Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing
公開URL：https://roemmele.github.io/publications/human_computer_authoring.pdf

出典：Roemmele, M : Inspiration through Observation: Demonstrating the Influence of Automatically Generated Text on Creative Writing, International Conferences on Computational Creativity (ICCC) (2021)

概要：人工知能の活用例として作品を自動生成し、生成された作品を人間に提示することで人間の創作能力を増強させる試みがあります。本論文は文章生成において、この試みを実験により検証したものです。統計的な分析の結果、生成モデルであるGPT-2により生成された文章を観測することで、人間の創作能力の一部が増強されていることがわかりました。

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers from harmonylab

紹介論文

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
公開URL：https://arxiv.org/abs/2105.15203

出典：Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers(NeurIPS 2021), (2021)

概要：SegFormerはTransformerとMLPデコーダを統合した、シンプルですが強力なセマンティックセグメンテーションフレームワークです。そのモデル構造として，エンコーダ部分は，固定サイズの位置埋め込みではなく動的位置埋め込みを用いた階層型Transformerの構造となっており，デコーダ部分は複雑性や計算コストを抑えるAll-MLP構造です。SegFormerは計算コストが低いにも関わらずSoTAを記録しました。

紹介論文

Personalized Fashion recommendation from personal social media data an item to set metric learning approach
公開URL：https://arxiv.org/pdf/2005.12439.pdf

出典：Haitian Zheng, Kefei Wu, Jong-Hwi Park, Wei Zhu, Jiebo Luo, Personalized Fashion recommendation from personal social media data an item to set metric learning approach, 2021 IEEE International Conference on Big Data (Big Data)

概要：オンラインショッピングの成長により、服装の推薦精度が重要なタスクになり、個人の好みもソーシャルメディアデータから分かるようになりました。そこで、ソーシャルメディアデータを用いて、個人の好みに沿った衣服の推薦を提案します。具体的には過去のアイテムと新しいアイテムの距離を計算して学習する枠組みを提案します。提案手法の特徴として、マルチモダリティな特徴量やクロスモダリティな融合方法を使用します。実験では、ソーシャルメディアに実在するデータを用いて、他の手法よりも優れた成果を出すことができました。

2022年/5月

紹介論文

A Generalist Agent
公開URL：https://arxiv.org/abs/2205.06175

出典：Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, Tom Eccles, Jake Bruce, Ali Razavi, Ashley Edwards, Nicolas Heess, Yutian Chen, Raia Hadsell, Oriol Vinyals, Mahyar Bordbar, Nando de Freitas : A Generalist Agent, arXiv:2205.06175 (2022)

概要：マルチモーダル，マルチタスク，マルチエンボディメントの汎化ポリシーとして機能するGeneralist Agentを学習する．同じ重みをもつ単一のネットワークによって，Atariゲーム，画像キャプション生成，チャット，実世界のロボットアームの制御などを実行可能である．様々なタスクに対応可能なGeneralist Agentが学習可能であり，このAgentが僅かな追加データによってより多くのタスクに適応可能であることを示した．

MLP-Mixer: An all-MLP Architecture for Vision from harmonylab

紹介論文

MLP-Mixer: An all-MLP Architecture for Vision
公開URL：https://arxiv.org/abs/2105.01601

出典：Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy : Mlp-mixer: An all-mlp architecture for vision, Advances in Neural Information Processing Systems 34 (2021)

概要：最近の画像処理分野ではCNNやVision Transformerのようなネットワークが人気です。この論文では、多層パーセプトロン（MLP）のみで作成したアーキテクチャ”MLP-Mixer”を提案します。MLP-Mixerは2種類のレイヤーを保持しており、チャネルとトークン（位置）をそれぞれ別のMLPで学習します。このモデルは画像分類ベンチマークにおいて、事前学習と推論コストが最新モデルに匹敵するスコアを達成しました。

2022年/4月

紹介論文

Background Splitting: Finding Rare Classes in a Sea of Background

Ravi Teja Mullapudi, Fait Poms, William R. Mark, Deva Ramanan, Kayvon Fatahalian

少数の正例クラスを含む不均衡データセットに対する精度向上を目的とした、多様な不例データの特徴量を用いる補助タスクを学習に組み込むアプローチを提案した。SOTA手法と比較し、不例データが99.98%のデータセットに対してmAPが42.3ポイント向上した。

2022年/1月

Outfit net fashion outfit recommendation with attention based multiple instance learning from harmonylab

紹介論文

OutfitNet: Fashion Outfit Recommendation with Attention-Based Multiple Instance Learning

Yusan Lin ,Maryam Moosaei ,Hao Yang

・ファッションのリコメンドをMultiple Instanec Learning問題として、定式化
・OutfitNetを提案
・OutfitNetは、服装内のアイテムの相互関係を読み解くFashion Item Relevancy Networkと、服装の好みを学習するOutFit Preference Networkという２つのネットワークから成る
・ファッションリコメンド関連のタスクにおいてSOTA

2021/12月

RAPiD from harmonylab

紹介論文

RAPiD: Rotation-Aware People Detection in Overhead Fisheye Images

Zhihao Duan, M. Ozan Tezcan, Hayato Nakamura, Prakash Ishwar, Janusz Konrad

・天井視点の魚眼画像における人物検出でSoTA
・様々な人物の姿勢に対応できるように矩形の角度を学習するための損失関数を提案
・天井視点の魚眼画像のデータセットを新たに作成

2021/11月

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation from harmonylab

紹介論文

HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation
公開URL：https://arxiv.org/abs/1908.10357

出典：Cheng B, Xiao B, Wang J, Shi H, Huang T S, Zhang L : Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 5386-5395 (2020) https://arxiv.org/abs/1908.10357

高解像度特徴量ピラミッドを用いて人物の大きさに考慮したBottom-Up型の姿勢推定手法の一つです．HRNetの特徴マップ出力と，転置畳み込みによるアップサンプリングされた高解像度な出力で構成されています．COCO test-devにおいて，中人数以上で従来のBottom-Up型手法を2.5％AP上回り，後処理などを含めない場合においてBottom-Up型でSOTA (70.5%AP)を達成しました．

Suphx: Mastering Mahjong with Deep Reinforcement Learning from harmonylab

紹介論文

Suphx: Mastering Mahjong with Deep Reinforcement Learning

Junjie Li, Sotetsu Koyamada, Qiwei Ye, Guoqing Liu, Chao Wang, Ruihan Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon

• Microsoftが開発した麻雀AI
• 強化学習で麻雀は非常に難しい
– マルチプレイヤーマルチラウンド不完全情報ゲーム – プレイヤーが知れる情報が少ない
• 天鳳(オンライン麻雀)のtop0.001%に位置 • 麻雀AIのSOTA

2021/10月

Recursively Summarizing Books with Human Feedback from harmonylab

紹介論文

Recursively Summarizing Books with Human Feedback
公開URL：https://arxiv.org/abs/2109.10862

出典：Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano : Recursively Summarizing Books with Human Feedback, arXiv:2109.10862 (2021).

概要：MLモデルの学習のために行動の良し悪しを表すtraining signalを人間がループの中で提供する必要があるタスクが多く存在する．人間による評価に時間や専門的な知識を要するタスクの学習のためには，効果的なtraining signalを生成するためのスケーラブルな手法が必要となる．本論文では書籍全体の要約タスク(abstractive)を対象として，再帰的なタスクの分解と人間のフィードバックからの学習を組み合わせたアプローチを紹介する．モデルによる要約の中には人間が書いた要約の品質に匹敵する要約もあるが，平均するとモデルの要約は人間の要約に著しく劣ることが示された．

Composing Photos Like a Photographer from harmonylab

紹介論文

公開URL:Composing Photos Like a Photographer

出典：Chaoyi Hong, Shuaiyuan Du, Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong

概要 : 本論文では,プロの写真家が重要としている構図に基づいた,自動で画像をクロップするモデルであるCACNetを提案している.従来手法では課題だった画像の良さの評価について,KCM手法と構図推定を用いて定量化している.

Calorie Estimation in a Real-World Recipe Service from harmonylab

紹介論文

Calorie Estimation in a Real-World Recipe Service

公開URL:https://ojs.aaai.org//index.php/AAAI/article/view/7041

出典：Jun Harashima, Makoto Hiramatsu, Satoshi Sanjo(Cookpad Inc) : Calorie Estimation in a Real-World Recipe Service, IAAI 2020

概要 : 本論文ではネット上のオンラインレシピのタイトル、材料などの情報からカロリー推定を行う方法を報告しています。オンラインレシピ内の表現の正規化とレシピの分量推定に機械学習の手法を用いたシステムとなっており実際にクックパッドのサービスで使用されています。

Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis from harmonylab

紹介論文

Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

公開URL : https://openreview.net/pdf?id=1Fqg133qRaI

出典 : Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed Elgammal : Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis, ICLR 2021

概要 : 本論文では、少数データで高解像度の画像生成モデルを高速に学習することを目的に、軽量かつ効果的に学習可能なgeneratorと少数データでもdiscriminatorを効果的に学習するための正則化を提案しています。提案されたSkip-Layer ExcitationとSelf-Supervised Discriminatorという2つのモジュールを導入することで、高解像度画像・少数データ・GPU1枚・数時間という低いコストでGANの学習を行うことができます。

Disentangling semantics and syntax in sentence embeddings with pre trained language models from harmonylab

紹介論文

Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models

公開URL：https://arxiv.org/pdf/2104.05115.pdf

出典：James Y. Huang, Kuan-Hao Huang, Kai-Wei Chang : Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models, arXiv (2021)

概要：本論文では、文章の埋め込みにおいて、文が持つ意味情報と構文情報を切り離すことを学習する意味的な文章埋め込みモデルであるParaBARTを提案します。このモデルは、教師なしの文同士の意味的類似度を評価するタスクにおいて、最先端の文章埋め込みモデルよりも優れた性能を発揮しました。また、意味的類似度を評価するタスクにおいて構文変化に対してより高いロバスト性をもたらしました。

2021/09月

2021 09 29_dl_hirata from harmonylab

紹介論文

Learning Transferable Visual Models From Natural Language Supervision

公開URL：https://arxiv.org/pdf/2103.00020

出典：Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever : Learning Transferable Visual Models From Natural Language Supervision, arXiv, 2021

概要：近年、NLP分野で成功している大規模事前学習、転移学習のシステムを CV分野に応用し、zero-shot 条件下でも性能を発揮する分類モデル CLIP を提案しました。自然言語と画像を結びつけるタスクを設定することで、従来の分類モデルよりもラベルに対する拡張性の高いモデルを学習することに成功しました。学習に用いたWeb 上から収集した(画像, テキスト)ペアの4億組のデータセットはGitHub上で公開されています。

Personalized outfit recommendation with learnable anchors from harmonylab

紹介論文

Personalized outfit recommendation with learnable anchors

出典：Zhi Lu, Yang Hu, Yan Chen, Bing Zeng; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 12722-12731

概要：服のリコメンドについて、様々な研究がされていますが、少ない画像数から好みにあった服をリコメンドすることが課題として挙げられます。そこで、本研究では、LPAEという個人の好みにあった服のリコメンドシステムの提案を行います。結果としては、既存の手法よりも高いリコメンド精度を出すことができ、コールドスタート問題（少ないデータで推薦することは難しさに関する問題）を解決するための案を提案することができました。

Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach from harmonylab

紹介論文

Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach

公開URL：https://www.sciencedirect.com/science/article/abs/pii/S0957417419306128

出典:Kasun Bandara, Christoph Bergmeir, Slawek Smyl,Forecasting across time series databases using recurrent neural networks on groups of similar series: A clustering approach, Expert Systems with Applications,Volume 140,2020,112896,

概要：A prediction model that can be used with different types of RNN models on subgroups of similar time series, which are identified by time series clustering techniques.

Deep High Resolution Representation Learning for Human Pose Estimation from harmonylab

紹介論文

Deep High Resolution Representation Learning for Human Pose Estimation

公開URL：https://arxiv.org/abs/1902.09212

出典：Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang: Deep High-Resolution Representation Learning for Human Pose Estimation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 5693-5703, (2019)

概要：Top-downアプローチを使った姿勢推定モデルを提案しています．低解像度のサブネットワークを追加し，複数の解像度のサブネットワークを並列に接続する機構を持つため、高解像度の表現を維持しています．比較実験では，COCO Keypoint datasetとMPⅡ Human Pose datasetを使用しました．結果は，他のモデルよりモデルサイズと計算量を抑えつつ，高い精度を実現しました．

2021/08月

2021 08 24_dl_tomoya_oda from harmonylab

紹介論文

Decision Transformer: Reinforcement Learning via Sequence Modeling

Lili Chen (UC Berkeley)
Kevin Lu (UC Berkeley)
Aravind Rajeswaran (Facebook AI Research)
Kimin Lee (UC Berkeley)
Aditya Grover (Facebook AI Research)
Michael Laskin (UC Berkeley)
Pieter Abbeel (UC Berkeley)
Aravind Srinivas (UC Berkeley)
Igor Mordatch (Google Brain)

– Transformerを用いた自己回帰モデルを強化学習に応用
– TD法に頼っていた強化学習の新たなパラダイム
– Offline RLのいくつかのタスクでSOTA

Anomaly Detection for an E-commerce Pricing System from harmonylab

紹介論文

Anomaly Detection for an E-commerce Pricing System

公開URL：https://dl.acm.org/doi/10.1145/3292500.3330748

出典：Jagdish Ramakrishnan, Elham Shaabani, Chao Li, and Matyas A. Sustik.: Anomaly Detection for an E-commerce Pricing System, 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD ’19).

概要：本紹介論文では大規模オンラインプライシングシステムに対する異常検知手法を提案しています．誤った値付けとその原因となるデータの特定をおこなう手法を開発しました．特徴的な点として，人手チェックを考慮したビジネスインパクトによる異常の優先度付けが挙げられます．手法は実システムに適用され，現実環境における効果の検証も行われています．

PENS: A Dataset and Generic Framework for Personalized News Headline Generation from harmonylab

紹介論文

PENS: A Dataset and Generic Framework for Personalized News Headline Generation
公開URL：https://www.microsoft.com/en-us/research/publication/pens-a-dataset-and-generic-framework-for-personalized-news-headline-generation/

出典：Xiang Ao, Xiting Wang, Ling Luo, Ying Qiao, Qing He, Xing Xie : PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL-IJCNLP 2021 (2021).

概要：本論文では，個人化されたニュースの見出し(Personalized News Headline) の生成問題におけるオフライン評価用のデータセットであるPENS (PErsonalized News headlineS) を公開する．Microsoft News のインプレッションログから収集したデータを用いて，数百人のネイティブスピーカーが手作業でテストセットを作成した．また，この問題に対する解決策として一般的なフレームワークを提案し，構築したデータセットのベンチマークスコアを示す．

2021/07月

Joint Negative and Positive Learning for Noisy Labels from harmonylab

紹介論文

Joint Negative and Positive Learning for Noisy Labels
Youngdong Kim Juseung Yun Hyounguk Shon Junmo KimSchool of Electrical Engineering, KAIST, South Korea
概要：Noisy Labelsに対する従来手法のNLNLを改善したJNPLを提案した．新たな損失関数NL+とPL+を用いた単一の学習アルゴリズムを用いることで単純化し学習コストの削減と精度向上を狙い，SOTAを達成した．

From street photos to fashion trends leveraging user provided noisy labels for fashion understanding from harmonylab

紹介論文

From Street Photos to Fashion Trends: Leveraging User-Provided Noisy Labels for Fashion Understanding.
Huang, Fu-Hsien, Hsin-Min Lu, and Yao-Wen Hsu.
概要：本研究では、ファッションコーディネート投稿アプリ「WEAR」から、アジアの地域を対象としたRichWEARデータセットを提案します。また、RichWEARデータセットを用いてアイテムの色、属性、模様を予測するFARNetモデルも提案しています。FARNetモデルは、先行研究より優れた精度でアイテムの色、属性、模様を予測することができました。さらに、FARNetモデルを用いてアイテムの色、属性、模様を予測することで、季節・年ごとのファッションのトレンド分析を実施しています。

2021/06月

A hybrid model for building energy consumption forecasting using long short term memory networks from harmonylab

紹介論文

A Hybrid Model For Building Energy Consumption Forecasting Using Long Short Term Memory Networks
NivethithaSomu, GauthamaRaman M R, KrithiRamamrithama
Abstract: An energy consumption forecasting model which employs long short term memory networks and improved sine cosine optimization algorithm (ISCOA-LSTM) for building energy consumption forecasting

Semi-Supervised Neural Architecture Search from harmonylab

紹介論文

Semi-Supervised Neural Architecture Search
出典: Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Enhong Chen, 33th Conference on Neural Information Processing Systems (NeurIPS 2020)
概要: ニューラルアーキテクチャ検索（NAS）は、優れたコントローラを使用して、より優れたアーキテクチャを生成したり、特定のアーキテクチャの精度を予測します。精度を正確に評価するにはコストがかかりますが、本論文では半教師付き学習のアプローチによってコストを削減します。

Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models from harmonylab

紹介論文

Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models
出典：Isabel Papadimitriou, Dan Jurafsky, EMNLP2020
概要：LSTMにおける文法構造のエンコードがどのように行われているかという点についての分析を、様々な言語での転移学習の実験結果から議論している。文法構造のエンコードにおいて、語彙分布が学習に与える影響は小さいこと、楽譜データやプログラミング言語のデータからも一般化可能な文法構造のエンコードが可能である点などを明らかにした。

Tell Me What They’re Holding: Weakly Supervised Object Detection with Transferable Knowledge from Human-Object Interaction from harmonylab

紹介論文

Tell Me What They’re Holding: Weakly Supervised Object Detection with Transferable Knowledge from Human-Object Interaction
出典：Daesik Kim, Gyujeong Lee, Jisoo Jeong, Nojun Kwak, The Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20).
概要：物体検出モデルを学習させるために、ラベル付きのデータが大量に必要です。しかし、画像にアノテーションを付与することは、相当な時間やコストがかかります。そこで、人と物体の相互作用HOI情報を使用し、新しい弱教師あり物体検出モデルRRPNを提案します。この手法によって、Bounding Boxなしで物体の位置を推定できます。

Learning to Incetivize Other Learning Agents from harmonylab

紹介論文

Learning to Incetivize Other Learning Agents
出典：Jiachen Yang, Ang Li, Mehrdad Farajtabar, Peter Sunehag, Edward Hughes, Hongyuan Zha，34th Conference on Neural Information Processing Systems (NeurIPS 2020)
概要：マルチエージェント環境において，各エージェントにインセンティブ関数を学習させ，他エージェントに報酬を与える手法の提案しました．提案手法は標準的な強化学習エージェント，opponent shapingエージェントの性能を上回りました．

You Only Learn One Representation: Unified Network for Multiple Tasks from harmonylab

紹介論文

You Only Learn One Representation: Unified Network for Multiple Tasks

Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

・形式知と暗黙知を併用したネットワークを提案
・単一モデルのアーキテクチャでマルチタスク学習に効果的
・物体検出タスクにおいて圧倒的な性能を発揮

A Learning-based Iterative Method for Solving Vehicle Routing Problems from harmonylab

紹介論文

ICLR: A Learning-based Iterative Method for Solving Vehicle Routing Problems

出典：Hao Lu, Xingwen Zhang, Shuang Yang: A Learning-based Iterative Method for Solving Vehicle Routing Problems, International Conference on Learning Representations (ICLR 2020)

概要：ルールベースとRLベースのコントローラを組み合わせたLearn to Improve(L2I)を提案しました。この手法はCVRPインスタンスにてsotaを達成しています。

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis from harmonylab

紹介論文

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

出典：Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng : NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, European Conference on Computer Vision (ECCV 2020)

概要：複数視点の画像から、新たな視点の画像を合成するタスク「Novel View Synthesis」における手法です。シーンをMLPの出力によって表現しています。入力を連続した5次元座標と2次元の視点方向とし、出力をその視点における色と密度(=volume density)としています。色と密度を古典的なボリュームレンダリング手法を用いて画像に変換させています。

2021/05月

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2) from harmonylab

紹介論文

MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)

Danijar Hafner (Google Research), Timothy Lillicrap(DeepMind), Mohammad Norouzi (Google Research), Jimmy Ba(University of Toronto)

• World Modelの派生系のDreamerの2代目 • 画像入力から学習した世界モデルの潜在空間内のみで学習 • 同じ計算資源・サンプル数でIQN, Rainbow(モデルフリー)を凌駕

Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Basket Prediction from harmonylab

紹介論文

Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Basket Prediction
公開URL:https://ojs.aaai.org//index.php/AAAI/article/view/6093

出典：Shoujin Wang, Liang Hu, Yan Wang, Quan Z. Sheng, Mehmet Orgun, Longbing Cao : Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Basket Prediction,AAAI-20

心理学の知見を組み込んだ，ユーザ行動の予測モデルであるIntention Netsを提案しています．意図によって行動の継続期間は異なることに着目し，独自のモデルを設計しました．ユーザの次回の購買商品を予測するnext-basket predictionで先行事例よりも優れた精度を達成しています．

Learning to Resize Images for Computer Vision Tasks from harmonylab

紹介論文

Learning to Resize Images for Computer Vision Tasks
公開URL:https://arxiv.org/pdf/2103.09950v1.pdf

出典：Hossein Talebi, and Peyman Milanfar：Learning to Resize Images for Computer Vision Tasks

概要：CNNを用いたタスクにおいて，画像のリサイズと解像度に関する研究・調査は殆ど行われていないが，精度に大きく貢献すると思われる．そこで，新たなリサイザーモデルを提案する．

AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill Assessments from harmonylab

紹介論文

AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill Assessments
公開URL：https://arxiv.org/abs/2012.01186

出典：Eric Li, Jingyi Su, Hao Sheng, Lawrence Wai : AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill Assessments, arXiv:2012.01186 (2020)

概要：Multiple-Choice-Question(MCQ)は自動採点が容易であり、受験者のスキル評価に一般的に用いられる。MCQによるスキル評価の課題である正解の推測と不正行為の影響を最小限に抑えるため、意味的に同じ問題を複数作成することが現実的なアプローチとして考えらえる。本論文では、入力されたMCQと同じ意味のMCQを自動生成する手法を提案する。問題文の言い換えと単語置換によって、入力した問題の意味を維持しながら文構造の異なる問題を生成する。提案手法はpre-trained modelを使用し、target domainのデータを必要としない。人間による評価と機械翻訳の自動評価指標によって、提案手法の有効性を示した。

2020/11月

Can increasing input dimensionality improve deep reinforcement learning? from harmonylab

紹介論文

Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?
公開URL：https://dl.acm.org/doi/10.1145/3383313.3412242

出典：Kei Ota, Tomoaki Oiki, Devesh K. Jha, Toshisada Mariyama, Daniel Nikovski : Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?, ICML 2020: Thirty-seventh International Conference on Machine Learning, Virtural Event

概要：連続値制御のタスクは状態空間が低次元であることが一般的です。そこで、本論文では低次元の観測から高次元の状態表現を学習するOFENetを提案しています。OFENetは次の観測を予測するという補助タスクによって学習が行われ、出力の高次元の状態表現が強化学習モデルの入力として使用されます。このOFENetを使用したモデルは、MuJoCoの連続値制御タスクにおいてより高いスコアの獲得に成功しました。

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints from harmonylab

紹介論文

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints
公開URL：https://arxiv.org/pdf/1906.11435.pdf

出典：Liming Han, Yimin Lin, Guoguang Du, Shiguo Lian : DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints, arXiv preprint arXiv:1906.11435 (2019), https://arxiv.org/abs/1906.11435

概要：6-DoF運動の推定はロボット工学において重要な課題の一つです。教師あり学習のVisual Inertial Odometry(VIO)は存在しますが、学習のための大量のGround Truthデータが必要となります。この問題を解決するために、低コストのステレオカメラを用いた自己教師ありVIOシステムが提案されています。2次元のオプティカルフロー特徴量とIMUのデータをマージすることによって、絶対位置の軌跡を推定します。

2020/10月

MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems from harmonylab

紹介論文

MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems
公開URL：https://dl.acm.org/doi/10.1145/3383313.3412242

出典：Ahmed Rashed, Shayan Jawed, Lars Schmidt-Thieme, Andre Hintsches : MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Auction Systems, RecSys ’20: Fourteenth ACM Conference on Recommender Systems, Virtual Event, Brazil (2020)

概要：オークションにおける推薦の需要は存在するが，従来アルゴリズムの適用は困難です．本論文ではユーザ-アイテム間の関係に加えて入札関係や落札価格などを組み込んだシンプルな推薦モデルMultiRecを提案しています．プロプライエタリの現実のオークションデータセットおよびパブリックなeBayデータセットで他のimplicit feedbackに対応するSOTAモデルを凌駕する性能を発揮しました．

Learning to summarize from human feedback from harmonylab

紹介論文

Learning to summarize from human feedback
公開URL：https://arxiv.org/abs/2009.01325

出典：Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)

概要：言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。

Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption on Person Re-identification from harmonylab

紹介論文

Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption on Person Re-identification
公開URL：https://arxiv.org/abs/2001.01526 出典：Yixiao Ge, Dapeng Chen , Hongsheng Li:Mutual Mean-Teaching:Pseudo Label Refinery for Unsupervised Domain Adaption on Person Re-identification,ICLR 2020 概要：Person Re-Identificationにおける最新の教師なしドメイン適応(Unsupervised Domain Adaption)はターゲットドメインをクラスタリングして作成した疑似ラベルで最適化を行いソースドメインから知識を転送するが、クラスタリングした際のラベルのノイズは無視されてきた。その影響を軽減するためにソフト疑似ラベルとハード疑似ラベルを使ってターゲットドメインからより良い特徴を学習するMutual Mean-Teaching(MMT)とtriplet lossをソフトラベルに対応させるためのsoft softmax-triplet lossを提案し、従来の手法に比べて大幅にmAPを改善した。

2020/9月

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching from harmonylab

紹介論文

Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching\\
出典：Yujiao Shi, Xin Yu, Dylan Campbell, Hongdong Li
概要：地上で撮影された画像を用いて,航空画像の特徴と一致する場所を特定するクロスビュー検索問題に対し,Two-Stream CNNと動的類似性マッチングネットワーク（DSM）を組み合わせた手法を提案した.従来手法に比べ,視野（FoV）の小さい地上画像に対しても適用可能であり,地上画像の方位角を推定して利用するDSMを用いることでSOTAを達成した.

Not all unlabeled data are equal from harmonylab

紹介論文

UNot All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning
公開URL:https://arxiv.org/abs/2007.01293
出典：Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing
概要：通常，半教師あり学習ではラベルなしデータに対して一様な重みで学習を行います．しかし，ラベルなしのデータはイコールではありません．例えば，推定を間違えている場合などはそのデータは悪影響を与えることになります．そこで，この論文では個々のラベルなしデータに対する重みを学習する方法を提案しています．ラベルなしデータの重みを固定して，トレーニングデータを用いてモデルパラメータを更新することと，モデルパラメータを固定して，バリデーションデータを用いてラベルなしデータの重みを更新することを繰り返します．既存の半教師あり学習の手法に組み込むことで，精度が向上することが確認されました．

Unified Vision-Language Pre-Training for Image Captioning and VQA from harmonylab

紹介論文

Unified Vision-Language Pre-Training for Image Captioning and VQA
公開URL:https://aaai.org/ojs/index.php/AAAI/article/view/7005/6859
出典：Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
概要：本論文ではUnified VLPというVision-Languageタスクを解くための統一的なモデルを提案しています。統一的というのは、EncoderとDecoderを一つのTransfomer内で完結させている点、画像キャプションとVQAという性質の異なるタスクを同じモデルで解くことができるという点からきている用語です。さらに本論文では、従来はBERTなどの言語モデルで行われていた事前学習をVision-Languageモデルにも適用し、画像とそのキャプションのペアを事前学習のデータセットとして用いることで、モデルの性能が向上することを示しています。

Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval from harmonylab

紹介論文

Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval
公開URL: https://www.nextcenter.org/wp-content/uploads/2020/04/Deep-Undestanding-of-Cooking.pdf

出典: Jing-Jing Chen, Chong-Wah Ngo, Fu-Li Feng, Tat-Seng Chua: Deep Understanding of Cooking Procedure for Cross-modal Recipe Retrieval, MM’18, October 22-26, 2018, Seoul, Republic of Korea

概要: Attention機構を用いて、料理のレシピ――画像検索を行うクロスモーダルなシステムを開発しました。レシピのデータセットであるRecipe1Mを用いて学習を行い、そのテストデータを用いて成果を検証することで、精度の向上にAttentionが有用であることや、レシピの調理手順を学習の対象とすることの重要性を示しました。

Deep uncertainty quantification a machine learning approach for weather forecasting from harmonylab

紹介論文

Deep uncertainty quantification a machine learning approach for weather forecasting
公開URL：https://dl.acm.org/doi/10.1145/3292500.3330704

出典 : Bin Wang, Jie Lu, Zheng Yan, Huaishao Luo, Tianrui Li, Yu Zheng, Guangquan Zhang : Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting: Concerns and ways forward, KDD 2019, https://dl.acm.org/doi/10.1145/3292500.3330704

概要 : 天気予報はNWP(数値気象予測)によって行われていますが、初期状態によって満足な予測ができない場合があります。本論文ではNWP予測と過去のデータを融合した手法を設計し、天気予報問題をend-to-endの深層学習問題とし、NLE(負の対数尤度誤差関数)を提案しています。点推定予測と不確実性定量化を同時に実行するのがポイントで、精度向上のためにディープアンサンブル戦略も検討しています。NWPと比較して47.76%の精度向上が見られ,今回のデータセットではベストスコアを叩き出しました。

2020/8月

Libra from harmonylab

紹介論文

Libra R-CNN: Towards Balanced Learning for Object Detection

公開URL :https://arxiv.org/abs/1904.02701

出典：Jiangmiao Pang, Kai Chen, Jianping Shi, Huajun Feng, Wanli Ouyang, Dahua Lin：Libra R-CNN: Towards Balanced Learning for Object Detection, CVPR (2019)

物体検出において課題とされている３つのimbalance、物体領域の抽出レベルのimbalance・特徴の抽出レベルのimbalance・最適化レベルのimbalanceに関してそれぞれ簡単で有効な解決手法を提案した。３つの手法を合わせてLibraと呼び、様々なモデルに組み込むことが出来る。

2020 08 05_dl_DETR from harmonylab

紹介論文

End-to-End Object Detection with Transformers

公開URL：https://arxiv.org/abs/2005.12872

出典：Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko Facebook AI : “End-to-End Object Detection with Transformers”, 2020;

概要: Detection Transformer(DETRという)という新しいフレームワークによって,non-maximum-supressionやアンカー生成のような人手で設計する必要なく、End-to-Endで画像からぶった検出を行う手法を提案しています。物体検出を直接集合予測問題として解くためのtransformerアーキテクチャとハンガリアン法を用いて二部マッチングを行い正解と予測の組み合わせを探索しています。Attentionを物体検出に応用しただけでなく、競合手法であるFaster R-CNNと同等の精度を達成しています。

2020/7月

Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponsored Search Auctions from harmonylab

紹介論文

Reinforcement Mechanism Design: With Applications to Dynamic Pricing in Sponsored Search Auctions

公開URL : https://aaai.org/ojs/index.php/AAAI/article/view/5600

出典 : Weiran Shen, Binghui Peng, Hanpeng Liu, Michael Zhang, Ruohan Qian, Yan Hong, Zhi Guo, Zongyao Ding, Pengjun Lu, Pingzhong Tang : Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponsored Search Auctions, AAAI, vol. 34, no. 02, pp. 2236–2243, (2020)

概要：スポンサードサーチオークションにおける留保価格(reserve price)の動的設定をおこなうフレームワークを提案しています．フレームワークは大きく2つの要素から構成されています．一つはRNNを用いたbidderの行動モデル，もう一つは動的メカニズムデザインをマルコフ決定過程として定式化したものです．このMDPに対してモンテカルロ木探索を用いて長期間の売り手の収入を最大化する留保価格を発見しています．シミュレーション実験ではstaticな戦略やBaiduで採用されていたものよりも良い性能を発揮し，提案フレームワークを利用して設計したアルゴリズムが実際に運用されました．

Top-K Off-Policy Correction for a REINFORCE Recommender System from harmonylab

紹介論文

Top-K Off-Policy Correction for a REINFORCE Recommender System

公開URL：https://research.google/pubs/pub47647/

出典：Minmin Chen, Alex Beutel, Paul Covington, Sagar Jain, Francois Belletti, Ed Chi: “Top-K Off-Policy Correction for a REINFORCE Recommender System”, 2018;

概要：産業用推薦システムは，非常に大きな行動空間であり，また多くのユーザにサービスを提供する必要があるため，状態空間が複雑になる．
過去ログからのオフライン学習は，前のバージョンの推薦システムのバイアスの影響を受ける．そこで，本研究では，RENFORCEを用いて構築されたYouTubeの本番用Top-K推薦システムにおいて，このようなバイアスに対処するための一般的な手法を提案する．また，本研究の貢献として，行動空間のスケールアップ，複数の方策から収集されたログからのオフライン学習，本番環境での実験にて有効性を示している．

Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection from harmonylab

紹介論文

Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection
公開URL：https://openaccess.thecvf.com/content_CVPR_2020/html/
Lang_Which_Is_Plagiarism_Fashion_Image_Retrieval_Based_on_Regional_Representation_CVPR_2020_paper.html

出典：Yining Lang, Yuan He, Fan Yang, Jianfeng Dong, Hui Xue : Which is Plagiarism: Fashion Image Retrieval based on Regional Representation for Design Protection, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle(2020)

近年のオンラインショッピングのブームにより、ファッション周りの研究は注目を集めています。しかし、盗用された衣服の検索は産業界では応用価値が高いにも関わらず学術界では無視されてきました。そこで本論では、盗用された衣服の検索のための新しいデータセットとネットワークを提案します。

FastDepth: Fast Monocular Depth Estimation on Embedded Systems from harmonylab

紹介論文

FastDepth: Fast Monocular Depth Estimation on Embedded Systems

公開URL：http://fastdepth.mit.edu/2019_icra_fastdepth.pdf

出典：Diana Wofk, Fangchang Ma, Tien-Ju Yang, Sertac Karaman, FastDepth: Fast Monocular Depth Estimation on Embedded Systems, 2019 International Conference on Robotics and Automation (ICRA), Montreal, Canada (2019)

概要：深度推定は、マッピングや障害物検出などのロボットタスクにおいて重要な機能です。最近では、高コストな深度センサによる深度推定ではなく、安価な単眼カメラによる深度推定に関心が寄せられています。しかし、最先端の単眼深度推定は複雑なディープラーニングネットワークをベースにしており、リアルタイム推論に時間がかかってしまいます。こうした背景から、組み込みシステム上での高速深度推定の問題に取り組み、軽量なエンコーダ/デコーダネットワークを提案します。

Variational Template Machine for Data-to-Text Generation from harmonylab

紹介論文

Variational Template Machine for Data-to-Text Generation

公開URL：https://openreview.net/forum?id=HkejNgBtPB

出典：Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)

概要：Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。

Noise or signal the role of image backgrounds in object recognition from harmonylab

紹介論文

Noise or signal the role of image backgrounds in object recognition
公開URL：https://arxiv.org/abs/2006.09994

出典：Kai Xiao, Logan Engstrom, Andrew Ilyas, and Aleksander M ̨adry: Noise or Signal: The Role of Image Backgrounds in Object Recognition

概要：物体認識モデルは訓練データのロスを最小化するように学習を行っており，画像とラベルの一般的な相関を利用することで精度が上昇します．背景は相関を示す自然なソースであり，過去の研究でも背景を用いて物体錦を行っている可能性が示唆されています．この研究では，背景をどのように利用しているか理解を深めることを目的としており，背景と前景の影響を調べるデータセットを作成しました．結果として，背景が精度に大きな影響を与えていることものの，より正確なモデルは背景にロバストになることが分かりました．

Spectral Metric for Dataset Complexity Assessment from harmonylab

紹介論文

Spectral Metric for Dataset Complexity Assessment
公開URL：http://openaccess.thecvf.com/content_CVPR_2019/papers/ Branchaud-Charron_Spectral_Metric_for_Dataset_Complexity_ Assessment_CVPR_2019_paper.pdf

出典：Fŕedéric Branchaud-Charron, Andrew Achkar, Pierre-Marc Jodoin : Spectral Metric for Dataset Complexity Assessment, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long beach, California, pp. 3215-3224 (2019)

概要：データセットの複雑度を推定するCumulative Spectral Gradient(CSG)を提案しています。クラス間の類似度行列を計算し、求められる固有値の勾配を利用した複雑度の新たな指標であるCSGを用いることで、データセットの理解や訓練コストの削減が行なえます。

2020/6月

Never give up from harmonylab

紹介論文

NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES
公開URL：https://openreview.net/pdf?id=Sye57xStvB

出典：Adrià Puigdomènech Badia, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Bilal Piot, Steven Kapturowski, Olivier Tieleman, Martín Arjovsky, Alexander Pritzel, Andew Bolt, Charles Blundell, (2020)

概要：疎報酬な環境での強化学習をうまく行う深層強化学習エージェントNGUの提案をしました。内部報酬を利用することで探索を行い続けるという考えが、Never Give Upという名前の由来となっています。Atariの57本のゲーム中51本で人間レベルを超えた性能を出しました。

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering from harmonylab

紹介論文

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
公開URL：http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.html

出典：Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang : Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6077-6086 (2018)

概要：Bottom-Up Attention、Top-Down Attentionという2つのAttention機構を用いた画像キャプションモデル、VQAモデルを提案しました。本論文では物体検出アルゴリズムであるFaster R-CNNをモデルに組み込むことにより、より人間らしく、オブジェクトベースでのキャプション生成、VQAが可能になりました。性能面においてもMSCOCOテストサーバでSOTAを達成、2017年のVQA challengeで第１位を獲得しました。

Statistical machine learning forecasting methods concerns and ways forward from harmonylab

紹介論文

Statistical and Machine Learning forecasting methods: Concerns and ways forward
公開URL：https://doi.org/10.1371/journal.pone.0194889

出典 : Makridakis S, Spiliotis E, Assimakopoulos V : Statistical and Machine Learning forecasting methods: Concerns and ways forward, PLoS ONE, 13(3), 2018, https://doi.org/10.1371/journal.pone.0194889

概要 : 時系列予測において、統計的手法に変わるものとして機械学習が学術的に提案されてきましたが、両者を比較した性能の違いというのはあまり知られてはいません。本論文ではM3コンペティションで使用された大規模なサブデータセットを用いて、統計的手法と機械学習の性能の違いを見ることで、現状では統計的手法の方が性能が高いことが明らかになりました。また機械学習の性能を上げるための方法案を提案しています。

NAS-FPN:Learning Scalable Feature Pyramid Architecture for Object Detection from harmonylab

紹介論文

NAS-FPN:Learning Scalable Feature Pyramid Architecure for Object Detection
公開URL:https://arxiv.org/abs/1904.07392

出典：Golnaz Ghiasi, Tsung-Yi Lin, Ruoming Pang, Quoc V. Le：NAS-FPN:Learning Scalable Feature Pyramid Architecure for Object Detection,Computer Vision and Pattern Recognition(CVPR 2019)

概要：ConvNetsで得られた特徴量マップの処理方法の1つにFPN(Feature Pyramid Network)がありますが、そのアーキテクチャは従来、手動で設計されてきました。よりよいアーキテクチャを構築したくても、複雑に入り組んだものの設計は手動では限界があります。そこで強化学習を用いたNAS(Neural Architecture Search)によるアーキテクチャの探索手法を提案しています。

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos from harmonylab

紹介論文

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
公開URL：https://arxiv.org/pdf/1811.06152.pdf

出典：Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova : Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos, the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)

概要：カメラ映像による深度予測は、屋内及び屋外のロボットナビゲーションにとって必要なタスクです。本研究では、教師なし学習を用いて映像の深度予測とカメラのエゴモーション（自身の動き）の学習に取り組んでいます。先行研究で確立されたベースラインのモデルに、移動する個々の物体のモデル化と、オンラインでのモデルの調整を行う手法を取り入れています。結果として、物体の動きを多く含むシーンでの予測結果を大幅に向上させています。

Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control from harmonylab

紹介論文

Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control
公開URL：https://papers.nips.cc/paper/8586-efficient-communication-in-multi-agent-reinforcement-learning-via-variance-based-control

出典：Sai Qian Zhang, Qi Zhang, Jieyu Lin : Efficient Communication in Multi-Agent Reinforcement Learning via Variance Based Control, Proceedings of the 33rd Advances in Neural Information Processing Systems 32 (NIPS 2019), Vancouver, Canada, (2019)

概要：本論文では、マルチエージェント強化学習において効率の良いコミュニケーションを行う手法としてVBCを提案しています。エージェント間のコミュニケーションはオーバーヘッドとなるだけでなく、学習を阻害してしまう可能性も報告されています。そこで、提案手法ではコミュニケーションを行う際にいくつか条件を設定しそれに沿った学習を行うことによって、ベンチマークにて既存手法を上回るスコアを達成しつつ、コミュニケーションのオーバーヘッドを改善することに成功しています。

2020/5月

Towards Knowledge-Based Personalized Product Description Generation in E-commerce from harmonylab

紹介論文

Towards Knowledge-Based Personalized Product Description Generation in E-commerce
公開URL：https://arxiv.org/abs/1903.12457

出典：Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)

概要：ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の２点であると本論文では主張しています。１．顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。２．顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。

Optimal auction through Deep Learning from harmonylab

紹介論文

Optimal Auctions through Deep Learning
公開URL：http://proceedings.mlr.press/v97/duetting19a/duetting19a.pdf

出典：Paul Dütting, Zhe Feng, Harikrishna Narasimhan, David C. Parkes, Sai Srivatsa Ravindranath : Optimal Auctions through Deep Learning, Proceedings of the 36 th International Conference on Machine Learning(ICML2019), Long Beach, Calfiornia, USA, (2019)

概要：本論文では最適オークション設計を学習問題として定式化し，ニューラルネットワークを用いて解くための方法を示しています．提案手法を用いることで，従来の研究で解析的に求められていた解の再現および最適オークションが知られていない設定に対しても同等以上の収入を達成できるオークションを求められるという結果が得られています．LPベースの手法と比較では，より大きな設定に対して適用可能であるという利点があることが示されました．

Real-Time Semantic Stereo Matching from harmonylab

出典：Pier Luigi Dovesi, Matteo Poggi, Lorenzo Andraghetti, Miquel Martí, Hedvig Kjellström, Alessandro Pieropan, Stefano Mattoccia : 2020 International Conference on Robotics and Automation(ICRA2020), Paris, France(2020)
公開URL：https://arxiv.org/pdf/1910.00541.pdf

概要：深度推定とセマンティックセグメンテーションは相性がいい。光が当たったりして深度推定が困難な画像にセグメンテーションを行うことで、精度が上がる。また、植生や地形など曖昧な画像に対してのセグメンテーションには深度推定をすることで曖昧性を取り除くことができる。このような相乗効果を利用して、リアルタイムで深度推定を行う手法を本論文では提案した。

[DLゼミ] Learning agile and dynamic motor skills for legged robots from harmonylab

紹介論文

Learning agile and dynamic motor skills for legged robots
公開URL：https://arxiv.org/pdf/1901.08652.pdf

出典：Jemin Hwangbo, Joonho Lee, Alexey Dosovitskiy, Dario Bellicoso, Vassilios Tsounis,Vladlen Koltun3, Marco Hutter, Science Robotics 16 Jan 2019:Vol. 4, Issue 26, eaau5872

概要：複雑なモータ制御が必要なロボットの制御方法を提案。シミュレーションのみで学習した方策をロボットに転送し、実環境のロボット制御に成功した。ロボットのシミュレーションとの違いをNNによって吸収しシミュレータでのモデリングが改善した。方策はシミュレーション上のみで学習したにも関わらず、既存のSOTAのモデルベース手法より優れた性能。より、少ないエネルギー、計算量ながら、より高速で高い精度を誇り、本論文は多脚ロボットの汎用的なコントローラの獲得への一歩といえる。

2020/4月

ResNest: split-attention networks from harmonylab

出典:Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Haibin Lin, Zhi Zhang, Yue Sun, Tong He, Jonas Mueller, R. Manmatha, Mu Li, and Alexander Smola: ResNeSt: Split-Attention Networks
公開URL: https://arxiv.org/abs/2004.08955

概要：画像認識のネットワークは物体検出、セグメンテーション、ポーズ推定など様々なタスクで使われています。最近ではNASで作成されたものが高精度を誇っていますが、メモリ使用量などハードウェアに対して最適化されていないため実際にはRESNET系列のモデルがよく利用されています。しかし、実際のタスクに利用する際は画像サイズなどちょっとした拡張が必要となっています。そこで、本論文ではRESNETにSplit-Attention blockを導入したResNestを提案しています。これは、既存のRESNET系列のモデルよりも少ない計算量と労力で他のタスクに適用可能であり、精度も既存のものよりも良いというものになっています。

Invariant Information Clustering for Unsupervised Image Classification and Segmentation from harmonylab

紹介論文

Invariant Information Clustering for Unsupervised Image Classification and Segmentation
公開URL：https://arxiv.org/abs/1807.06653

出典：Xu J, João F. Henriques, Andrea Vedaldi：Invariant Information Clustering forUnsupervised Image Classification and Segmentation, International Conference on Computer Vision (ICCV 2019), Seoul, Korea

概要：本論文では、正解ラベルを必要としない教師なし学習手法IICを提案しています。元画像に一般的なランダム変換を加えたペアを作成し、元画像とペアの相互情報量を最大化するよう学習を行います。画像のクラス分類・セグメンテーションタスクにおいて、8つのベンチマークでSOTAを達成しています。さらに、半教師あり学習にすることで、従来の教師あり学習精度を超える結果を得ています。

2019/11月

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model from harmonylab

Mastering Atari, Go, Chess and Shogi by Planning with aLearned Model

Mastering Atari, Go, Chess and Shogi by Planning with aLearned Model
Julian Schrittwieser,1 Ioannis Antonoglou,1;2 Thomas Hubert,1 Karen Simonyan,1 Laurent Sifre,1 Simon Schmitt,1 Arthur Guez,1 Edward Lockhart,1 Demis Hassabis,1 Thore Graepel,1;2 Timothy Lillicrap,1 David Silver1;2
モンテカルロ木探索などの探索木ベースのModel-Basedな強化学習手法はチェスや囲碁など，環境を完璧に再現できるドメインで大成功を収めている．(Alpha Zeroなど) しかし，実際の問題では環境のモデルを完璧に再現することは一般的に難しい．実際にAtariなどのドメインではModel-Freeな手法がSOTAである．(R2D2) そこでこの提案手法は，MCTSを使ったModel-Based強化学習で，モデルを人間が事前に作成し知識を与えなくても，チェス，囲碁，将棋でAlpha Zeroと同等，AtariでSOTAを上回る精度を達成.

Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning from harmonylab

紹介論文

Generating Better Search Engine Text Advertisements with Deep Reinforcement Learning
John Hughes, Keng-Hao Chang and Ruofei Zhang

魅力的(高いクリック率)な検索エンジン広告を生成
・Self Critical Sequence Training(SCST)を適用
・微分不可能なmetric(予想クリック率)を最適化
・自動評価と人間による評価
・SCSTの適用によって予想クリック率の向上，魅力の向上を実証
・文法的精度を大きく低下させない

Self training with noisy student from harmonylab

紹介論文

Self-training with Noisy Student improves ImageNet classification
Qizhe Xie1, Eduard Hovy2, Minh-Thang Luong1, Quoc V. Le1
1Google Research, Brain Team, 2Carnegie Mellon University
SOTAのvision modelは35億のインスタの弱ラベル付き画像を使用しているが，ラベル無し画像は使われていない．そこで，ラベル無し画像を追加で使用して精度の向上を図る．学習は以下の手順で行う．
1. 教師モデルをラベル付きの画像で学習 2. 教師モデルを使ってラベルなし画像の疑似ラベルを生成 3. 生徒モデルをラベル付き画像と擬似ラベル付き画像を用いて学習 4. 3で学習した生徒モデルを教師モデルとして2,3を数回繰り返す
この時，疑似ラベルの生成時にはノイズを加えず、生徒モデルの学習時にはノイズを加える．結果として，ImageNetのSOTAを1%更新．ImageNet-A,C,Pでロバスト性の向上を確認した．

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA from harmonylab

紹介論文

EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA
Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew
チーム戦のかくれんぼを通じて，相互の戦略を獲得できたとする研究．このAUTOCURRICULAは他の手法（内発的動機付けを用いたものなど）よりも，各チームごとにシンプルな報酬のみにもかかわらず，人間に関連するスキルを中心とする行動を獲得できたと主張している．

Capsule Graph Neural Network from harmonylab

紹介論文

Capsule Graph Neural Network
Zhang Xinyi, Lihui Chen
CapsuleNeural Network（CapsNet）で提案されるカプセルの概念を用いたカプセルグラフニューラルネットワーク（CapsGNN）を提案し、既存のGNNベースのグラフ埋め込みアルゴリズムの改善を行った．10個のグラフ構造化データセットを使用した広範な評価により、CapsGNNはいくつかのグラフ分類タスクで他のSOTAテクニックよりも優れていることを検証した．

Dynamic Pricing for Airline Ancillaries with Customer Context from harmonylab

紹介論文

Dynamic Pricing for Airline Ancillaries with Customer Context
N. Shukla, A. Kolbeinsson, K. Otwell, L. MarlaとK. Yellepeddi, 「Dynamic Pricing for Airline Ancillaries with Customer Context」, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining – KDD ’19, Anchorage, AK, USA, 2019, pp. 2174–2182.

航空産業においてアンシラリーは収入のメインになったが，従来の価格戦略はあまり高度ではなく，市場の変化に対応できない．この論文では(1)古典的識別モデルによる購買確率の推定とロジスティックマッピングによるプライシング，(2)DNNによる購買確率の推定としらみつぶし探索によるプライシング，(3)end-to-end DNNプライシングの3つのモデルを提案している．提案したモデルに対してはオフライン実験により性能比較を行っている．(1)のモデルではオンライン実験として実システムにおけるA/Bテストも実施した．オンライン実験の結果(1)のモデルでも人が決めた価格に対してコンバージョン率が36%向上し，1注文あたりの利益も10%向上した．オフライン実験では(3)のモデルがよい性能を示していたのでさらなる向上が期待される．

AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks from harmonylab

紹介論文

AlphaStock: A Buying-Winners-and-Selling-Losers Investment Strategy using Interpretable Deep Reinforcement Attention Networks
Jingyuan Wang, Yang Zhang, Ke Tang, Junjie Wu and Zhang Xiong

強化学習ベースの投資戦略であるAlphaStockを提案した論文。従来のDL/RLを活用した投資戦略の3点の課題を克服。
１．リスクとリターンのバランス　投資の効率の良さを表すシャープレシオを目的関数とした強化学習ベースの最適化
２．資産間の相互関係のモデリング　CAAN(Cross-Asset Attention Network)による相互関係のモデリング
３．投資戦略の解釈　感度分析法による特徴量の影響度の数値化
2つのデータセットで実験(U.S. stock markets, Chinese markets)，様々な評価尺度において従来手法よりも良い性能を示した。

2019/10月

Stand alone self attention in vision from harmonylab

紹介論文

Stand-Alone Self-Attention in Vision Models
Prajit Ramachandran∗, Niki Parmar∗, Ashish Vaswani∗, Irwan Bello, Anselm Levskaya, Jonathon Shlens
∗Denotes equal contribution. Ordering determined by random shuffle.
画像認識は畳み込みで成功を収め、近年ではattentionがアドオン的に挿入されている(Squeeze-Excitenなど)。そこで、attentionを畳み込みの補強ではなくコア要素として扱えないかと考え、畳み込み層をlocal self-attentionに変更したFull Attention のvision modelを提案した。結果として同程度の精度を少ない計算量とパラメータで達成。

2019/8月

2019 08 20_dl from harmonylab

紹介論文

Fixing the train-test resolution discrepancy.
Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou
CoRRabs/1906.06423 (2019)

画像分類タスクにおいて，CNNには一般的に画像の切り出しやリサイズなどのデータ拡張(data augmentation)が使用されており，精度向上に大きく寄与している．一方で訓練時とテスト時でデータ拡張の方法は異なっていることが多く，入力と出力の分布が同じであるという前提のもとでうまくはたらくCNNには悪影響があると考えられる．

本論文では入力時と比べて出力時の画像にうつる物体サイズが小さくなることを簡略化した例で解析的に示している．また，テスト画像サイズを変えたときのプーリング層への入力値分布が大きく変化することを指摘している．

これらの問題点を，テスト画像サイズを入力サイズより大きくし，テスト画像のサイズ変更によるプーリングへの影響を最終層のテスト画像解像度でのファインチューニングにより吸収することで解決した．

主にImageNet画像に対して実験をおこない，上記の低解像度訓練→高解像度テストによる精度向上が確認された(ImageNetのSOTAをtop-1で1%更新)．この手法の利用により学習の高速化も可能になり，種々の画像関連タスクに有用であるといえる．

強化学習 DQNからPPOまで from harmonylab

紹介論文

Proximal Policy Optimization Algorithms
John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
強化学習をDQNから順に追って，A3C，PPOまでを解説します．

Lookahead Optimizer: k steps forward, 1 step back from harmonylab

紹介論文

Lookahead Optimizer: k steps forward, 1 step back
Michael R. Zhang James Lucas Geoffrey Hinton Jimmy Ba
NNの最適化の新手法Lookaheadを提案．学習の安定化、高速化が図れる．ハイパーパラメータの違いにロバストである．

2019/7月

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings from harmonylab

論文紹介

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Aviral Kumar, Sunita Sarawagi, Ujjwal Jain
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
ニューラルネットワークで学習可能な較正尺度を提案した論文

Context-Aware Crowd Counting from harmonylab

紹介論文

Context-Aware Crowd Counting
Weizhe Liu, Mathieu Salzmann, Pascal Fua
Context-Aware Crowd Counting
遠近感などの画像内のスケールの変化を適応的にエンコードし、群衆人数推定をコンテキスト情報に即して行う

2019/6月

Playing Atari with Six Neurons from harmonylab

紹介論文

Playing Atari with Six Neurons
Giuseppe Cuccu, Julian Togelius, Philippe Cudré-Mauroux
Playing Atari with Six Neurons
表現学習と方策学習を分けることで小さいモデルでも難しいタスクが実行可能であることを示す

Customized Regression Model for Airbnb Dynamic Pricing from harmonylab

紹介論文

Customized Regression Model for Airbnb Dynamic Pricing

Peng Ye (Airbnb); Julian Qian (Ant financial); Jieying Chen (Airbnb); Chen-Hung Wu (Airbnb); Yitong Zhou (Airbnb); Spencer De Mars (Airbnb); Frank Yang (Airbnb); Li Zhang (Airbnb)
Customized Regression Model for Airbnb Dynamic Pricing

Airbnb上で展開される動的な価格戦略モデルについて.1年以上Airbnb上で導入され,本論文の回帰モデルが予測した最適価格を採用したホストユーザーは予約数と予約額が大幅に増加した.

紹介論文

Generating Diverse High-Fidelity Images with VQ-VAE-2

Ali Razavi, Aäron van den Oord, Oriol Vinyals

この論文は，VQ-VAEとPixelCNNを用いた生成モデルを提案している． VQ-VAEの階層化と，PixelCNNによる尤度推定により，生成画像の解像度向上・多様性の獲得・一般的な評価が可能になった.

2019/5月

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks from harmonylab

紹介論文

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

Mattias Teye, Hossein Azizpour, Kevin Smith
Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

バッチ正規化を用いたニューラルによりモデルの不確実性を推定する手法を提案。

Object as Points from harmonylab

紹介論文

Objects as Points

Xingyi Zhou, Dequan Wang, Philipp Krahenbuhl
Objects as Points

リアルタイム物体認識の論文．
物体の中心をキーポイント推定で探知，様々なオブジェクトプロパティに回帰．

MixMatch: A Holistic Approach to Semi- Supervised Learning from harmonylab

紹介論文

MixMatch: A Holistic Approach to Semi- Supervised Learning

Nicholas Carlini, Ian Goodfellow, Avital Oliver, Nicolas Papernot, Colin Raffel, David Berthelot
MixMatch: A Holistic Approach to Semi- Supervised Learning

半教師あり学習の手法であるMixMatchを提案。これまでの半教師あり学習のアプローチをひとまとめにした。Cifar-10（250label）のエラー率を38%から11%まで改善。

2019/4月

Differential Networks for Visual Question Answering from harmonylab

紹介論文

Differential Networks for Visual Question Answering

Chenfei Wu, Jinlai Liu, Xiaojie Wang, Ruifan Li
Differential Networks for Visual Question Answering

FCNに工夫を加えたDifferential Networksを提案，
DNを用いたVQAを解くVQAモデルを作成し，４つのデータセットでSOTA

紹介論文

VideoCapsuleNet: A SImplified Network for Action Detection

Kevin Duarte, Yogesh S Rawat, Mubarak Shah

CapsuleNetと3DCNNを組み合わせて人物の行動認識を行うVideoCapsuleNetを提案する論文

2018/12月

Natural and Effective Obfuscation by Head Inpainting from harmonylab

紹介論文

Natural and Effective Obfuscation by Head Inpainting

Qianru Sun Liqian Ma Seong Joon Oh
Luc Van Gool Bernt Schiele Mario Fritz
Natural and Effective Obfuscation by Head

ソーシャルメディア画像の難読化

2018/11月

Disconnected Recurrent Neural Networks for Text Categorization from harmonylab

紹介論文

Disconnected Recurrent Neural Networks for Text Categorization

BaoxinWang
Disconnected Recurrent Neural Networks for Text Categorization

RNNへの入力を制限することにより、文全体を捉えつつ、CNNのように局所的な特徴を捉えることができるようにしたDisconnected Recurrent Neural Networkを提案した。

Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery from harmonylab

紹介論文

Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

Thomas Schlegl, Philipp Seeb ̈ock, Sebastian M. Waldstein, Ursula Schmidt-Erfurth, and Georg Langs
Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery

概要：GANを用いた教師なし学習による異常検知タスクを解決する「AnoGAN」を提案しています．
異常データが少ない場合や，アノテーションコストを削減することができます．

Mean Teacher from harmonylab

紹介論文

Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Antti Tarvainen, Harri Valpola
Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Feature engineering for predictive modeling using reinforcement learning from harmonylab

紹介論文

Feature engineering for predictive modeling using reinforcement learning

Udayan Khurana, Horst Samulowitz, Deepak Turaga
Feature engineering for predictive modeling using reinforcement learning

強化学習によるFeature Engineering

End to-end convolutional semantic embeddings from harmonylab

紹介論文

End to-end convolutional semantic embeddings

Quanzeng You, Zhengyou Zhang, Jiebo Luo
End-to-End Convolutional Semantic Embeddings

画像・文章のクロスモーダルな特徴量学習における、文章に対してのCNNの適用。
CNNの適用によって得られる、文章の中間特徴量についての考察。

2018/10月

Compressed Video Action Recognition from harmonylab

紹介論文

Compressed Video Action Recognition

Chao-Yuan Wu, Manzil Zaheer, Hexiang Hu, R. Manmatha,
Alexander J. Smola, Philipp Kr¨ahenb¨uhl
Compressed Video Action Recognition

圧縮された動画の学習

Understanding Blackbox Predictions via Influence Functions from harmonylab

紹介論文

Understanding Blackbox Predictions via Influence Functions

Pang Wei Koh， Percy Liang．
Understanding Blackbox Predictions via Influence Functions

学習するデータが、モデルの出力した結果に対してどれほど影響を与えたのか検証するための手法を提案

2018/9月

CNN-RNN: a large-scale hierarchical image classification framework from harmonylab

紹介論文

CNN-RNN: a large-scale hierarchical image classification framework

Yanming Guo, Yu Liu, Erwin M. Bakker, Yuanhao Guo, Michael S. Lew
CNN-RNN: a large-scale hierarchical image classification framework

従来のCNNの構造にわずかな修正を加えることにより、階層的な構造を持つラベルを学習
単純な分類タスクにおける正解率も増加

2018/8月

PredCNN: Predictive Learning with Cascade Convolutions from harmonylab

紹介論文

PredCNN: Predictive Learning with Cascade Convolutions(IJCAI 2018)

Ziru Xu†, Yunbo Wang†, Mingsheng Long∗, and Jianmin Wang
PredCNN: Predictive Learning with Cascade Convolutions

将来のビデオ予測手法PredCNN構造を提案
従来手法と比較し、最新の研究成果よりも高精度、低計算コスト、省メモリ化を実現している。

Predictron from harmonylab

紹介論文

The Predctron: End-To-End Learning and Planning(ICML2017)

David Silver · Hado van Hasselt · Matteo Hessel · Tom Schaul · Arthur Guez · Tim Harley · Gabriel Dulac-Arnold · David Reichert · Neil Rabinowitz · Andre Barreto · Thomas Degris
The Predctron: End-To-End Learning and Planning

end-to-endなモデルベース強化学習のアーキテクチャであるpredictronを提案
迷路とビリヤードに適用した際に通常のDNNよりも正確な予測を達成

2018/7月

A PID Controller Approach for Stochastic Optimization of Deep Networks from harmonylab

紹介論文

A PID Controller Approach for Stochastic Optimization of Deep Networks

Wangpeng An, Haoqian Wang, Qingyun Sun, Jun Xu, Qionghai Dai, Lei Zhang
A PID Controller Approach for Stochastic Optimization of Deep Networks

PID制御に基づいたNN最適化手法を提案した論文。
SGD-Momentumよりも早く高い精度に収束することを実験で示した。

Context_Embedding_Network from harmonylab

紹介論文

Context Embedding Network

Kun Ho Kim Oisin Mac Aodha Pietro Perona (California Institute of Technology)

Context Embedding Networks

特徴量を得るためにクラウドソーシングを利用する上で、
依頼者の個人差を考慮した特徴量抽出手法の提案を行っている。

Rainbow from harmonylab

紹介論文

Rainbow: Combining Improvements in Deep Reinforcement Learning

Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski,
Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver
AutoAugment:Learning AUgmentation Policies from Data

RainbowというDQNの改良手法を提案。
従来手法に比べスコアが大幅に更新された。

2018 07 02_dense_pose from harmonylab

紹介論文

Dense Pose: Dense Human Pose Estimation In The Wild

Riza Alp Guler, Natalia Neverova, Iasonas Kokkinos
(Facebook AI Research)
Dense Pose: Dense Human Pose Estimation In The Wild

一般的なRGB画像から人物領域のUV座標(テクスチャ座標)を出力．
物体領域抽出の手法であるMask-RCNNとDenseRegを組み合せたCross-cascading architecture
やRegion Proposal Networkをend to end で学習することで，複数の人物に対するUV座標を高速かつ高精度で算出することを可能にした．

2018/6月

AutoAugment:Learning AUgmentation Policies from Data from harmonylab

紹介論文

AutoAugment:Learning AUgmentation Policies from Data

Ekin D. Cubuk, Barret Zoph , Dandelion Mané, Vijay Vasudevan, Quoc V. Le
AutoAugment:Learning AUgmentation Policies from Data

強化学習に寄ってデータの水増し方法を学習する。
CIFAR-10,CIFAR-100,SVHN,ImagenetでSoTA(2018/5)

On the Convergence of Adam and Beyond from harmonylab

紹介論文

On the Convergence of Adam and Beyond

Reddi S. J., Kale S., Kumar S.

Adamの問題点を改良したAMSGradを提案。
Adamが最適解に収束しない例の一部を定式化し、そのような例に対しても最適解に収束するようにアルゴリズムを修正。
一般的な画像認識タスクにおいてもAdamより早い収束を達成した。

World model from harmonylab

紹介論文

World Models

David Ha, Jürgen Schmidhuber

人間の思考と同じように環境をとらえる内部モデルを作成し、エージェントの学習を行う。
RNNの学習が完了している状態であれば、実際の環境でエージェントに行動させなくとも学習させることが可能。
ビデオゲームにて性能を検証し、スコアが既存手法より良くなった。

2018/5月

Automatic Understanding of Image and Video Advertisements from harmonylab

紹介論文

Automatic Understanding of Image and Video Advertisements

Zaeem Hussain, Mingda Zhang, Xiaozhong Zhang, Keren Ye, Christopher Thomas, Zuha Agha, Nathan Ong, Adriana Kovashka
Automatic Understanding of Image and Video Advertisements

広告画像から受ける印象やメッセージを理解する。

Enriching Word Vectors with Subword Information from harmonylab

紹介論文

Enriching Word Vectors with Subword Information

P. Bojanowski, E. Grave, A. Joulin, T. Mikolov

Word2Vecの改良系の論文.
字面が近い単語のベクトルが近くなるようにWord2Vecを学習させるようにした.
fasttext(https://fasttext.cc/)でライブラリとして簡単に利用可能.

SmoothGrad: removing noise by adding noise from harmonylab

紹介論文

SmoothGrad: removing noise by adding noise

Daniel Smilkov, Nikhil Thorat, Been Kim, Fernanda Vie ́gas Martin Wattenberg

CNNが画像のどこに注目しているかを可視化し、判断根拠を示す手法”SmoothGrad”について紹介する。本手法によって、従来手法で課題だったノイズの軽減を行なっている。

2018/1月

Dynamic Routing Between Capsules from harmonylab

紹介論文

Dynamic Routing Between Capsules

Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton

CNNをベースとしたCaspNetを提案しています。
従来のCNN構造の問題点であるpooling層を用いず、カプセル構造をもたせることで位置関係情報を持たせています。

2017/11月

Mastering the game of Go with deep neural networks and tree search from harmonylab

紹介論文

Mastering the game of Go with deep neural networks and tree search

Silver, David, et al

Mastering the game of Go with deep neural networks and tree search
http://web.iitd.ac.in/~sumeet/Silver16.pdf

アルファ碁の開発論文

Mobilenet from harmonylab

紹介論文

Self-Paced Learning with Diversity

Lu Jiang, Deyu Meng, Shoou-I Yu, Zhenzhong Lan, Shiguang Shan, Alexander Hauptmann

Self-Paced Learning with Diversity(NIPS2014)

カリキュラム学習の手法であるSPLDの提案

Mobilenet from harmonylab

紹介論文

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

Andrew G. Howard 　Menglong Zhu 　Bo Chen Dmitry Kalenichenko 　Weijun Wang Tobias Weyand 　Marco Andreetto 　Hartwig Adam
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

モバイル端末向けのネットワーク

Generating Videos with Scene Dynamics from harmonylab

紹介論文

タイトル

Generating Videos with Scene Dynamics

著者

Carl Vondrick, Hamed Pirsiavash, Antonio Torralba

参考URL

研究紹介ページ
 研究トレーラー

概要

3D GANを用いて動画を学習する研究です。

10月

Deep Forest: Towards An Alternative to Deep Neural Networks from harmonylab

紹介論文

Deep Forest: Towards An Alternative to Deep Neural Networks

Zhi-Hua Zhou, Ji Feng
Deep Forest: Towards An Alternative to Deep Neural Networks

決定木アンサンブルアプローチDeepForest(gcForest)の提案

9月

Densely Connected Convolutional Networks from harmonylab

紹介論文

Densely Connected Convolutional Networks

Gao Huang, Zhuang Liu, Kilian Q. Weinbeger, Laurens van der Maaten
Densely Connected Convolutional Networks

8月

Globally and Locally Consistent Image Completion from harmonylab

紹介論文

Globally and Locally Consistent Image Completion

Satoshi Iizuka Edgar Simo-Serra Hiroshi Ishikawa
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations

ディープネットワークによる
シーンの大域的かつ局所的な整合性を考慮した画像補完

7月

7月10日(月)dl from harmonylab

紹介論文

DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations

Kruthiventi, Srinivas SS, Kumar Ayush, and Radhakrishnan Venkatesh Babu
DeepFix: A Fully Convolutional Neural Network for Predicting Human Eye Fixations

画像を見たときに人間が無意識に目線を固定する位置を推定

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network from harmonylab

紹介論文

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network

Jun-Yan Zhu∗ Taesung Park∗ Phillip Isola Alexei A. Efros
Berkeley AI Research (BAIR) laboratory, UC Berkeley
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network

対訳(pire)なしにCycleGANという「画像翻訳」(Image-to-Image Translation)モデルを作った話。

A simple neural network mnodule for relation reasoning from harmonylab

紹介論文

A simple neural network mnodule for relation reasoning

Adam Santoro , David Raposo , David G.T. Barrett, Mateusz Malinowski,　Razvan Pascanu, Peter Battaglia, Timothy Lillicrap
DeepMind
London, United Kingdom
A simple neural network mnodule for relation reasoning

ニューラルネットワークが学習するのが困難な関係推論問題に対してRelation Networks (RN)と呼ばれるモジュールを使⽤してこの問題を解決する⼿法を提案している。

6月

Deeply-Recursive Convolutional Network for Image Super-Resolution from harmonylab

Deeply-Recursive Convolutional Network for Image Super-Resolution

Jiwon Kim, Jung Kwon Lee, Kyoung Mu Lee
Deeply-Recursive Convolutional Network for Image Super-Resolution

超解像技術（SR）を畳込み層を再帰的に用いるDeeply-Recursive Convolutional Network（DRCN）を用いた手法で、state-of-the-artな性能を発揮した論文。

Colorful image colorization from harmonylab

紹介論文

Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih，Adrià Puigdomènech Badia，Mehdi Mirza，et al．
Asynchronous Methods for Deep Reinforcement Learning

DQNの開発者による非同期並列な強化学習アルゴリズムの紹介

Colorful image colorization from harmonylab

紹介論文

Colorful Image colorization

RICHARD ZHANG, PHILLIP ISOLA, ALEXEI A. EFROS
Colorful Image colorization

クラスリバランスと新しい損失関数を用いた、グレー画像のカラー化

DeepLoco from harmonylab

紹介論文

DeepLoco : Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning

XUE BIN PENG and GLEN BERSETH, University of British Columbia
KANGKANG YIN, National University of Singapore
MICHIEL VAN DE PANNE, University of British Columbia
DeepLoco

深層強化学習によって二足歩行技術を学習する。
２レベルの階層的制御フレームワークの採用により再利用可能な、堅牢なコントローラを生成する。

5月

Deep voice from harmonylab

紹介論文

Deep Voice: Real-time Neural Text-to-Speech

Sercan O. Arik, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, Mohammad Shoeybihttps://arxiv.org/abs/1702.07825

完全にディープニューラルネットワークで構成された製品レベルの text-to-speech(TTS)システムであるDeep Voiceを提案している。
既存のTTSシステムよりもシンプル・柔軟となっている。

DLゼミ20170522 from harmonylab

Evolving Deep Neural Networks

Risto Miikkulainen, Jason Liang, Elliot Meyerson, Aditya Rawal, Dan Fink, Olivier Francon, Bala Raju, Hormoz Shahrzad, Arshak Navruzyan, Nigel Duffy, Babak Hodjat https://arxiv.org/abs/1703.00548

GAを用いてDNNのパラメータと構造を学習する。
人手で作られた最先端のものと遜色のないものが生成された。

DLゼミ20170515 from harmonylab

紹介論文

Learning to Skim Text, Adams Wei Yu Hongrae Lee Quoc V. Le
https://arxiv.org/abs/1704.06877v2

スキミングというテクニックは文章の斜め読みを行い、
素早く文章の大意を掴むことができる。
LSTMをベースとした「LSTM-Jump」モデルを提案し、従来の手法よりもより高速に処理を行う。

4月

紹介論文

DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.,
http://personal.ie.cuhk.edu.hk/~lz013/projects/DeepFashion.html

服飾画像の属性認識を服の位置情報を組み合わせて学習を行うことで、既存の研究よりも高い精度で認識が可能になった。本実験で使用されたデータセットは、他の研究者も使用できるように公開されている。

Deep Q-Network from harmonylab

紹介論文

Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al., Nature 518, 529-533, 2015.,
http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

Deep Q-Networkという学習方式を用いて、Atari2600のビデオゲームの画面を入力としてプレイを学習する。49種類のビデオゲームを学習させた結果、AIが人間の上級者のスコアの75%以上のスコアを記録したゲームは29種類にのぼった。

3月

勉強会用スライド from harmonylab

紹介論文

Unsupervised representation learning with deep convolutional generative adversarial networks, Alec Radford, Luke Metz, Soumith Chintala, ICLR 2016,
https://arxiv.org/abs/1511.06434

あるテーマに沿った画像のデータセットを用意し、GeneratorとDiscriminatorの2つの対立するネットワークをお互いに学習させていくことによって、データセットにそっくりな画像を生成することのできるGeneratorを獲得することができる。

Ai勉強会20170127 from harmonylab

紹介論文

On-line deep learning method for action recognition, Charalampous, Konstantinos, and Antonios Gasteratos, Pattern Analysis and Applications 19.2 (2016): pp. 337-354.

オンライン学習によって、動画の中の人物がどのような動きをしているのかを分類するための方法。ノイズが多い現実のデータでも高い精度での特徴抽出が可能であり、事前学習の必要もないので未知のデータに対しても適用可能である。

論文リスト

・Deep Q Network
Human-level control through deep reinforcement learning, Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Nature 518, 529?533 (26 February 2015)

・深層強化学習を並行して非同期に行う手法
Asynchronous Methods for Deep Reinforcement Learning, Volodymyr Mnih, Adrià Puigdom ènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silve r, Koray Kavukcuoglu,
https://arxiv.org/abs/1602.01783

・深層教科学習による複数エージェント間の通信プロトコルの獲得
Learning to Communicate with Deep Multi-Agent Reinforcement Learning, Jakob N. Foerster, Yannis M. Assael, Nando de Freitas, Shimon Whiteson,
https://arxiv.org/abs/1605.06676

・着衣画像の認識
DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations, Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, Xiaoou Tang. Computer Vision and Pattern Recognition (CVPR), 2016

・GANによるキャプションからの画像生成の学習
Generative Adversarial Text to Image Synthesis, Scott E. Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele,
https://arxiv.org/abs/1605.05396

論文リスト(公開済)

・人の動作を写した動画の教師なしオンライン学習
On-line deep learning method for action recognition, Charalampous, Konstantinos, and Antonios Gasteratos, Pattern Analysis and Applications 19.2 (2016): pp. 337-354.

・DCGANによる画像生成モデルの学習
Unsupervised representation learning with deep convolutional generative adversarial networks, Alec Radford, Luke Metz, Soumith Chintala, ICLR 2016,
https://arxiv.org/abs/1511.06434

・GANを用いた画像から画像への変換の学習
Image-to-Image Translation with Conditional Adversarial Networks, Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros,
https://arxiv.org/abs/1611.07004