You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
We hypothesize that increasing the number of channels in the latent space would reduce any patch artifacting and hope to obtain computing resources to evaluate this in the future.
Comment
date
May 31th, 2021
The text was updated successfully, but these errors were encountered:
INFO
author
George Cazenavette, Manuel Ladron De Guevara
affiliation
Robotics Institute Carnegie Mellon University, School of Architecture Carnegie Mellon University
conference or year
2021
link
arXiv
実装
概要
attention-basedなtransformer networkはほぼ全ての言語タスクにおいて比類のない成功を収めているが, トークンの数が大きく, activation memoryの使用量が2次関数的であるため, visionタスクには適していない. それゆえ, I2IにおいてCNNが事実上の(デファクトな)solutionになっている. 最近提案されたMLP-Mixerアーキテクチャは、transformerモデルの特徴であるlong-rangeなconnectionを維持しつつ、attention-basedなネットワークが抱える速度やメモリの問題を軽減してる. self-attentionに代わるこの効率的な手法を利用して, 本研究でははMixerGANと呼ばれる新しいunpaired I2Iモデルを提案. これは, より単純なMLPベースのアーキテクチャで, extensiveなattentionを必要とせずにピクセル間のlong-rangeな関係性を考慮するものである. 定量的および定性的な分析により, MixerGANは従来のCNNベースの手法と比較して, 競争力のある結果を得ることができた.
提案手法
オリジナルのCycleGANと同様に, mixer-based Generatorは、単層の畳み込みstemに続いて, 学習されたダウンサンプリングのための2つのストライドCNNで構成.Generatorのtransforming partは, 9つのisotropic(等方向性)mixer blockで構成される. 最後に, transformative sectionは, 2つのTranspose Convと, 表現をソースの次元に再マッピングするための畳み込みで構成される. 識別器には, 従来のPatchGAN pix2pixと, mixerを用いたネットワークの両方を使用.
mixer blocksはMLP-Mixer paperに準拠.
検証
新規性
最近, Vision taskのためのMLP-Mixerモデルが提案されたことで, MLPが深層学習の現代においてもvision分類タスクに有効であることが示された.本研究では, MLP-Mixerが生成モデル, 具体的にはUI2Iにも有効なアーキテクチャであることを示した.
議論,展望
We hypothesize that increasing the number of channels in the latent space would reduce any patch artifacting and hope to obtain computing resources to evaluate this in the future.
Comment
date
May 31th, 2021
The text was updated successfully, but these errors were encountered: