Duncan 新價值投資 | AI 生成圖像,詠唱師咒語
上次寫相關主題是2023/3月,已經是一年之前。一年之間,AI 主题股票升了多少?AI 科技進展了多少?(參考:哲學與投資 (17) 從學習語言,到認知世界 (2) AI 時代,英文是最強大的 PROGRAMMING LANGUAGE ?)
首先聲明,本人不是專業 AI 創作者,只是一個業餘愛好者,有興趣去玩玩研究,在此分享一下,歡迎大家留言。
我研究的動機,有一個實際應用,在寫blog時可以作為插圖,不用再去網上偷圖,而且希望可以tailor made更加配合文章。如何可以達到自己想要的效果,我從這方向考慮以下各點:
Image Type / Quality 影像種類/質素
這個是最high level影響整個印象的觀感。很多時候用似不似真實作為衡量標準,相信第一個角度因為可以取代現在慣常利用不少金錢成本去做到的攝影效果。不過似真實是其中一個考慮標準,而不是唯一的標準。因為創作或者攝影最終為表達創作者的意念,意念是什麼只有你才知道。
而且你想要的可能正是一個虛幻而不真實的效果,例如:好似漫畫、CG等。
Image View 視角
影像的視角和角度很大程度影響最終的效果,如果有攝攝影的朋友會明白,同一個景點利用wide angle、standard,tele可以拍出不同的效果。
Subject 主體
主體是整個影像的靈魂,如果可以達到想要的效果,很視乎你的想像力和使用文字的能力,英文是AI 生成mother language,學好英文必定有幫助。
例如主體是人,涉及大量的考慮,包括:面部、表情、眼神、頭髮、衣著、動作等。處身的環境和背景,光線,還有是氣氛的描越是更加抽像。
以上是主體的整體效果,需要你的美學和想像力的能力,加上運用英文的能力。參考(抄考)和使用得多,都會有助提升英文的能力。
Prompt Keywords 例子
Image Type / Quality 影像種類/質素
image capturingclose-up photoproduct shotphotorealisticHyper realisticHyperdetailedUltra realismHD quality image4K image qualityBlur zoom with long period of exposureDouble exposureStreet photography styleMasterpieceSuperia 400 filmPortra 400 film3D game isometric scenefilm photo capture1960’s sepia tone photooil paintingrenaissance painting style3D Lego artpixel artsticker artpencil artBlack charcoal drawing
Image View 視角
side viewa drone viewperspective viewoverhead view, flat laymacro viewGoPro top angle view looking downNikon 50mm F/1.4 lens
AI 生成例子
pixel art, robot carrying Nvidia GPU
不是要求真實,都可以有趣味。
overhead view flat lay, Nvidia GPU chip in middle, interior design magazine. bottled orange juice, vintage camera, product shot
真實的物件質感,可以作為Nvidia文章的插圖。
Asian girl eating ice-cream
用少量的文字,AI要猜想你的要求,是否你的要求?quality是可以,但比較標準,未必有特別風格。
Asian girl eating ice-cream, sit in cosy cafe near window, soft lighting from outside, window glass reflection of street, HD quality image, photorealistic
可以想想如何加入更多文字,去描述更多細節,就是你的想像力和運用文字能力。
Image of a African young woman with white shirt and white trousers
非洲人臉的光澤,可能正配合AI 生成的質感。
Asian girl, standing on 1960’s Taiwan street, cosy feeling, black and white grainy film photo
可以把不同keywords組合,AI的影像就是太完美或者太膠面,令到更加真實感,需要多些不完美。
film photo capture, Asian girl 20 years old, serene facial expression, afternoon warm atmosphere, soft lighting, hot, wet
使用多些關乎感覺和氣氛的keywords,似乎有不錯的效果。
image of a nighttime trail camera grainy black and white photo of man wearing spacesuit in the woods
真實的感覺和氣氛,都可以來自光線和環境,主體和環境是不太合邏輯的組合。
Sci-Fi movie image, asian young man face with body as half machine half human, wearing futuristic armoured suit in white colour, carry heavy machine gun, background is abandoned factory in fire, 4k quality, hyperrealistic image
動作有點生硬,可能是電影海報感覺出事,面有點膠,喜歡悬身上的裝備的未來感。
sci-fi movie scene, inside a public washing room, a giant monster, monster with long tentacles flow out fluid, monster in red and pink colour, water on the floor with reflection
完全虛構,有時有驚喜。
realistic portrait, Italian man 70 years old, serene facial expression, very little freckles, white shirt, city street background, early morning vibe, low light, backlight, 35mm lens, film snapshot style
盡力用多些描述形容詞。
realistic portrait, alien 80 years old, red colour space suit, city street background, early morning vibe, studio lighting, 35mm lens, film snapshot style
Prompt改動少少,膠面表現Alien不錯。
view from drone, Wall Street in the early morning vibe, after raining, floor with reflection, only little people on street, cosy feeling, HD high quality, ultra realistic
第二張較有氣氛。
image capturing Hong Kong street on 1940’s, victoria colonial style buildings, grainy black and white photo
模擬歴史圖片,可以接受,街上路人細節不錯。
軟件
去年最初試用Midjourney和Stable Diffusion,但是由於server side的算力,gen圖像有限制,否則要乖乖付費。然後試用GitHUB去download Stable Diffusion去我的Macbook Pro (M1 2020 Oct model),要command line去install搞一輪,對於一般人有不低技術門檻,好處是自己算力自己付電費,壞處gen圖好慢,一幅需要幾分鐘。然後試用Microsoft Designer至今,好處無需install又沒收費,電腦或者手機browser去website就用到:
由於是可以免費使用,背後server side的算力是可想而知,Microsoft是十分仁慈。可以想想Windows和Office365的Copilot和Bing,這多少解釋了Microsoft加上Meta是Nvidia GPzu的Top Buyer。
Microsoft Designer還有Graphic Design功能,方便你製作文件時,AI生成圖像可以加入文字和圖案,感覺專業,如下圖:(參考:NVIDIA 和 CEO JENSEN HUANG 成為爭論焦點)
有說Microsoft Designer和Bing的Image Creator,背後是一樣的。我試過由Bing去使用Image Creator,得到message是此地區暫時不能使用。
又有說Microsoft Designer和Open AI的DALL-E其實是一樣,不過使用DALL-E只需簡單的Prompt就可以得複雜的影像效果。相信DALL-E把輸入的Prompt做了優化,加鹽加醋,對於技巧不高的初學者是好處,不過每個創作者的要求可以不同,創作者一定要學好使用Prompt的技巧。
另外見到一個叫Krita的AI 生成圖像工具,人像效果超級真實,大家有興趣可以硏究。
Facebook有不少資源,值得好好學習:
Bing DALL-E 3 and ALL AI 生成式藝術小小詠唱師
思考
本文花了不少篇幅介紹Prompt嘅用法,歡迎大家copy及改動去試試,多些使用,你會明白更多AI工具及應用背後,會有第一身及更加埋身的理解,不是單純靠參考大行的報告,你會對投資AI相關主題有更多的認知。
我在試玩的過程中,更加驚奇是AI training data的數量,如何令到AI幾乎明白所有影像及所有時代的風格,如何建立AI model去記錄所得,例如:40年代的行人衣著及動態和其他時代略有不同,AI model的複雜性化為算力需求,是在Nvidia、TSM、ASML等背後推動的AI 科技發展之實在呈現。
更多有關於Nvidia、半導體、AI產業分析,可以參考我的新書:
《AI 投資時代.真的值得參與嗎?》
《科技戰國.尋找科技價值投資的故事》
Facebook
https://facebook.com/duncaninvest
Instagram
https://instagram.com/duncannewinvest
Telegram
https://t.me/duncaninvest
謝謝支持!
參考文章
哲學與投資 (17) 從學習語言,到認知世界 (2) AI 時代,英文是最強大的 PROGRAMMING LANGUAGE ?
咁係因為你悲觀,AI 有無清楚的 BUSINESS MODEL?
NVIDIA GTC (2024/3月),CAUSAL TALK
NVIDIA 2023 Q4 業績,渡過了充滿質疑的 2023 年
分餅仔,半導體公司 ASML / TSM / AMD / INTEL (2022/Q4)
ARM 可能不授權阿里巴巴使用 NEOVERSE V 晶片設計,NEOVERSE 有何重要性?
ASML INVESTOR DAY 2022,未來半導體行業是危?是機?
當 AI 遇上雲計算,NVIDIA 和 MICROSOFT / ORACLE 合作的 DEAL
NVIDIA GTC (2022/9月) ,NVIDIA 仍然是 NVIDIA,只是做回自己
看台績電業績,高性能計算 HPC (HIGH PERFORMANCE COMPUTING)