論文筆記 Attention is All You Need
論文出處:Attention Is All You Need Model Architecture Scaled Dot-Product Attention \[\mathrm {Attention}(Q, K, V) = \mathrm {softmax}(\frac {QK^T}{\sqrt {d_k}})V\] 參考連結...
論文筆記 StarGAN-Unified Generative Adversarial Net...
論文出處:StarGAN-Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation Introduction 在不同domain間的風格轉換,已有許多成功的發表,像是Conditional GAN, 或是解決unpaired dataset之間轉換的 Cycle GAN等等。然而前述方法都只能在1對1的domain中轉換,換句話說,若是要在N個domain之間可以自由轉換,理論上至少要訓練$\frac {(N-1)^2}{2}$個模型,非常沒有效率。 上圖左側為傳統1對1 domain的轉換,右側為本文propose的架構:StarGAN。 Star Generative...
論文筆記 Unpaired Image-to-Image Translation using ...
論文出處:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 關於圖片風格的轉換或是基於特定條件的圖片生成,其實在這之前已經有許多研究。在這之前的生成,主要是利用單個方向且對應於ground turth的GAN生成,像是2016年 Image-to-Image Translation with Conditional Adversarial Networks 當中提到的,原理大概解釋一下就是: $X, Y$分別為兩個domain的data Input $x$,先讓生成器...
筆記 Proximal Policy Optimization Algorithms
論文出處 Proximal Policy Optimization Algorithms 基礎 Policy Gradient \[\mathbb E_{(s_t, a_t) \sim \pi_{\theta}}[A^{\theta}(s_t, a_t)\nabla \log p_{\theta}(a_t^n|s_t^n)]\] Important Sampling \[\mathbb E_{x...
論文筆記 SeqGAN-Sequence Generative Adversarial Net...
論文出處:SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 在這幾年,使用DL技術解決文字生成的應用非常多,包括NMT或是chatbot,或是文章的自動摘要等等。傳統上會使用一個Seq2seq模型,利用 Mamximize 每個 time step token 和 groundtruth token 的 Likelihood。而這會有許多問題。比方說,因為機制是依照上一個時間點的token,選取這個時間點機率最大的token,但是在testing的時候遇到的狀況可能在training時根本沒看過,這會導致訓練困難,也就是所謂 explosure...
論文筆記 Bidirectional Attention Flow for Machine C...
論文出處 Bidirectional Attention Flow for Machine Comprehension Introduction SQuAD dataset The Stanford Question Answering Dataset Stanford Question Answering Dataset (SQuAD)...
論文筆記 Google’s Neural Machine Translation System...
論文出處 : Google’s Neural Machine Translation System - Bridging the Gap between Human and Machine Translation 會決定以整理這篇論文為這個網站的開頭,是因為這篇是我一年前進入李宏毅老師的實驗室做專題研究時看的第一篇論文。在這篇論文也用到的幾個經典的基本DL常用在NLP領域的架構,像是Seq2seq的模型、attention mechanism以及multi-layer LSTM,個人認為非常適合初學者學習。在這邊我主要紀錄幾個重要的部分幫助快速理解,如果有其他部分有問題也歡迎討論。 閱讀這篇前需要的背景知識:...
論文筆記 Convolutional Sequence to Sequence Learning
一般來說提到Seq2seq架構,會以LSTM或是GRU等等RNN架構,並且加入Attention Mechanism加強機器語意理解能力。而這篇Facebook AI Research在ICML2017年中發表的論文,卻是用Convolution架構實現,並且也加入了適用於Convolutional Seq2seq架構的多層Attention機制,並在多個項目上達到state of the art。CNN架構在訓練時平行效率優於LSTM架構,這在處理一些更大的dataset的任務上有一定參考價值。