2025年9月19日

Gemini的圖像生成測試經驗

Gemini的圖像生成模型nano banana廣受注目,我也測試了一些使用情境。透過圖像理解轉換上,可以做出非常強的應用。

我做了很多圖片生成的測試,對於那些古籍插畫,像是天工開物或是番社采風圖的圖片,如果想要產生立體的渲染圖片,但沒有辦法直接做出的話,我會繞點路來完成。

以下建議不是必要,但可以試試。

先增加圖片的脈絡,就是那張圖到底是畫什麼,你可以先試試讓AI讀圖解釋再來修正,或是自己就先輸入詳細說明。

增加描述之後如果還是不行,就再做去脈絡的事,就是生成黑白線稿,如果是建築就是平面設計圖,如果是立體物件就是wireframe 。

在前幾天的分享圖片中,我都會經過中間這個圖。

如果成功產生線稿之後,就可以做各種轉型,像是填色上色、3D渲染或render,真實場景...等具體描述。

剩下就是角度或方向描述而已,像是side view, bird's eye view, worm's eye view, wide angle....

以下就是大量圖片,目前提供的prompt都非常簡單,像是:

  • 說明這張圖的細節
  • 轉黑白線稿
  • 轉三視圖
  • 做3
  • 3D渲染
  • 移除導引線
  • 移除標記文字
  • ...