阿簡生物筆記: Gemini的圖像生成測試經驗

2025年9月19日

Gemini的圖像生成測試經驗

Gemini的圖像生成模型nano banana廣受注目，我也測試了一些使用情境。透過圖像理解轉換上，可以做出非常強的應用。

我做了很多圖片生成的測試，對於那些古籍插畫，像是天工開物或是番社采風圖的圖片，如果想要產生立體的渲染圖片，但沒有辦法直接做出的話，我會繞點路來完成。

以下建議不是必要，但可以試試。

先增加圖片的脈絡，就是那張圖到底是畫什麼，你可以先試試讓AI讀圖解釋再來修正，或是自己就先輸入詳細說明。

增加描述之後如果還是不行，就再做去脈絡的事，就是生成黑白線稿，如果是建築就是平面設計圖，如果是立體物件就是wireframe 。

在前幾天的分享圖片中，我都會經過中間這個圖。

如果成功產生線稿之後，就可以做各種轉型，像是填色上色、3D渲染或render，真實場景...等具體描述。

剩下就是角度或方向描述而已，像是side view, bird's eye view, worm's eye view, wide angle....

以下就是大量圖片，目前提供的prompt都非常簡單，像是：

說明這張圖的細節
轉黑白線稿
轉三視圖
做3
3D渲染
移除導引線
移除標記文字
...