書評『With AI-AIと創るクリエイティブ超制作術』

自己紹介

東京国際工科専門職大学(IPUT)で助手をしている山口直彦と申します。普段はプログラミングや電子回路、産業用ロボットなどの教育に従事しつつ、音楽情報科学やその周辺分野の研究をしています。また個人事業として文筆業や合成音声サービスの代理店と言う仕事もしており、その関係で文化研究の方面にも関わっています。

IGDA日本では以前『UnityではじめるROS人工知能ロボットプログラミング実践入門』の書評を書きましたが、今回久しぶりにまた書評の機会を頂きました。今回ご紹介する本は『With AI-AIと創るクリエイティブ超制作術』(以下『With AI』と表記)です。

私自身はAIが専門というわけではありませんが、人工知能の授業を担当した事もありますし、基礎的な技術知識・トレンドは把握しています。最新の生成AIをデザイナーがどのように活用し使いこなそうとしているのかに興味があったため、楽しく読ませていただきました。

AIと共に創造する新たなデザインの未来

「近年、生成AIの進化が目覚ましく、その波はクリエイティブな領域にも大きな影響を及ぼしています。特にデザインの世界では、AIが持つ無限の可能性が注目されており、従来の枠を超えた新たな表現が生まれつつあります。

AIは、膨大なデータを処理し、独自のスタイルやアイデアを生み出す能力を持っています。そのため、デザイナーは従来の手法に加えて、AIをパートナーとして活用することで、より多様で革新的な作品を創造することが可能になります。例えば、AIが提示する色の組み合わせや形状の提案は、デザイナーにとって新たなインスピレーションの源となり、創作の幅を広げてくれるのです。

また、AIは反復作業の効率化にも寄与します。デザインの初期段階でのアイデア出しやプロトタイピングを迅速に行うことで、デザイナーはより多くの時間をクリエイティブな思考に費やすことができるようになります。これにより、クオリティの高い作品を短期間で生み出すことが可能となり、ビジネスの現場でもその効果が実感されています。

もちろん、AIが全てを解決するわけではありません。人間の感性や創造力といった要素は、依然として重要です。しかし、AIとの協働によって、私たちは新たな表現の可能性を切り拓くことができるのです。このように、AIは私たちのクリエイティブな旅を豊かにするパートナーとして、今後ますます重要な存在となるでしょう」

ネタばらし

前項「AIと共に創造する新たなデザインの未来」は、私が書いた文章ではありません。タイトルも含めリートンと言うサービスを通じてChatGPT-4oに執筆してもらいました。出力した文章だけでなく、執筆にあたって参考にしたWeb情報も同時に表示されており、『With AI』の出版社Webサイト・Amazon販売ページ、出版社によりXに投稿されたポストを参考に(AIが)執筆したということがわかります。

上記「AIと共に創造する新たなデザインの未来」を執筆するためにAIへ与えた指示は次のような文章です。

「あなたは人工知能やプロダクトデザインに精通した専門家として、『With AI AIと創るクリエイティブ超制作術』という本の書評を依頼されています。『昨今生成AIの進化に世間の注目が集まっており、デザインをはじめとするクリエイティブな仕事にも活用できる可能性が高い』ということを解説する文章を、雑誌記事風にキャッチーかつ読みやすい文体で書いてください。ただしあまり宣伝っぽくしたくはないです。文字数は400字程度にしてください」

このように、ChatGPTをはじめとする生成AIに人間が与える指示文章のことを「プロンプト」といいます。生成AIの世界は日進月歩どころか分進日歩、あるいは秒進時歩の勢いで改良が進んでいますが。無から有を産み出すことはできません。発想のタネとなるプロンプトを人間が与える必要があり、プロンプトの良し悪しが成果物の良し悪しを決めます。

「生成AIはクリエイターの仕事を脅かす敵である」という人もいますが、生成AIが人間の指示でしか動けない以上、少なくとも2024年10月の時点では、主導権を持っているのは人間です。クリエイターは生成AIを敵視するのではなく、むしろ全く新しい道具(画家にとっての画材、音楽家にとっての楽器)として向き合う事で、これまでにない新しいクリエイティビティを発揮できる可能性があります。この本『With AI』はまさに、クリエイターが真のクリエイティビティを発揮するために生成AIを使いこなすノウハウと実践例をまとめ上げた本です。

この本から学べる事

 本書の内容は大きく分けて以下の4つです。

  1. 生成AIを使用した作品や制作方法の実例例示
  2.  生成AIの使用方法(環境構築)や望みの出力を得るためのノウハウ
  3.  生成AIとクリエイト業界の関係性
  4.  生成AIそのものの歴史や応用の解説

各種生成AIサービスの基本的な操作方法、そして生成AIにどのようなプロンプトを与えれば良い結果が得られるのか(いわゆる「プロンプトエンジニアリング」)といったノウハウが記されています。最後のChapter10では、著者の専門分野であるプロダクトデザインの領域において生成AIをどのように活用できるのかという実例が細かに記されています。本書は全ページフルカラーという豪華な装丁ですから、生成AIが出力した美しい画像も全てフルカラーで見ることができます、つい数年前まで、生成AIが出力する絵というのはかなり拙く、人間を描かせると手の指が3本だったり6本だったりという事も日常茶飯事でしたが、現在の生成AIではそのような盛大な間違いはめったに起こりません。ここまで緻密な絵を出力できるようになったのかという新鮮な驚きが得られます。

少し残念であった事

私が本書を読んで残念に思ったポイントというか、本書を読むうえで気を付けて頂きたい点も2つ指摘しておきます。

一つ目は、前述した内容のうち「(4)生成AIそのものの原理・歴史・応用の解説」の分量がかなり少ないことです。分量が少ないだけなら良いのですが、生成AIという大きなテーマを短い紙幅でまとめようとしたせいか、説明がかなり雑になってしまっている印象を持ちました。特にChapter2では「ネイティブマルチモーダル」というキーワードを中心に話をしていますが、そこで説明されている事例は決して「ネイティブマルチモーダル」だから実現できる事例というわけではありません。そもそも「マルチモーダル」という言葉は以前から存在する重要な技術用語・概念ですが、「ネイティブマルチモーダル」は2023年末にGoogleから発表されたAIモデルGeminiの宣伝用に作られた宣伝用のキャッチフレーズのようなもので、ことさらに「マルチモーダル」との違いを強調して議論する必要は、少なくとも現時点ではないように思います。

二つ目は、書籍全体を通じたストーリー(流れ)が見えにくいところです。通常書籍は(辞書やハンドブックのような特殊例を除いて)先頭から終わりに向かって順に読んでいくと理解が深まっていくように書籍全体のストーリー(流れ)を作っていくものですが、本書に関してはブログの記事をそのまま引っ張って来てまとめたような印象で、話題が頻繁に切り替わります。そのため先頭から通読しようとしても、理解が深まらず混乱してしまいました。生成AIの使用方法やプロンプトの作り方といった個々の内容は丁寧に記述されているので、先頭から通読するよりも,目次をみて興味のあるところから拾い読みしていく方法をお勧めします。

画像を生成してみた

最後に、本書の内容を参考にして新しいプロダクトのイメージ画像を作らせてみたいと思います。ちょうど先日、Makers Faire Tokyo 2024というイベントに知人が出展し,歴史的な電子楽器「オンド・マルトノ」をモチーフとした創作電子楽器を作製していましたので、これを製品化するという想定でイメージ画像をChatGPT-4o + Dall-E3を使ってみようと思います。

ChatGPT-4o + Dall-E3を用いた画像生成はChatGPTの有料版(ChatGPT Plus)に入る必要があります。次のようなプロンプトを渡してみました。

「あなたはプロダクトデザイナーとして、次のような製品のコンセプト画像を生成して下さい。この製品は歴史的な電子楽器「オンド・マルトノ」をモチーフとした創作楽器です。ピアノと同じような鍵盤と、その手前にリボンコントローラが付いていることが大きな特徴です。机の上に置いて使用します。鍵盤以外のボタンは少なめにして、シンプルな操作系にしてください。20代から30代くらいの女性が好むようなカラーリングでデザインしてください」

するとChatGPTは次のような返信を返してきました。

Here is the concept image of the modern electronic instrument inspired by the Ondes Martenot, featuring the piano-like keys, ribbon controller, and a sleek design with a pastel color scheme. Let me know if you’d like any adjustments or further details!(参考訳:こちらは、オンド マルトノにインスピレーションを得たモダンな電子楽器のコンセプトイメージです。ピアノのような鍵盤、リボンコントローラー、パステルカラーの洗練されたデザインが特徴です。調整や詳細をご希望の場合はお知らせください)

生成に使用された(つまりChatGPTがDALL-Eに渡した)プロンプトは以下の通りです。ほぼ元の(私が記入した)プロンプトと同じですが、私が示した「20代から30代くらいの女性が好むようなカラーリング」についてはChatGPTが「with pastel tones like blush pink, soft mint, or lavender accents(参考訳:ブラッシュピンクやソフトミント、ラベンダーなどのパステルトーンをアクセントに)」と具体化してくれています。

A concept image of a modern electronic instrument inspired by the historic Ondes Martenot. The instrument features piano-like keys and a ribbon controller positioned in front of the keyboard. It has a simple control interface with minimal buttons. The design is sleek and intended to be used on a desk. The color scheme is modern, soft, and appealing to women in their 20s to 30s, with pastel tones like blush pink, soft mint, or lavender accents.

画像生成AIがピアノの鍵盤をうまく描けない(黒鍵の配置がおかしい)のは以前から言われている弱点で、今回の生成結果でも努力の(?)跡は見受けられますがまだ克服できていません。またリボンコントローラについてはどのようなものか理解できなかったようで、リボンケーブルらしきものでミニキーボードを接続してみたり、スライド操作パネルのようなものを置いて見たりという苦肉の策をとっています.

そこで、Wikipediaの記載を参考にしてリボンの説明を追加してみました。

「あなたはプロダクトデザイナーとして、次のような製品のコンセプト画像を生成して下さい。この製品は歴史的な電子楽器「オンド・マルトノ」をモチーフとした創作楽器です。ピアノと同じような鍵盤と、その手前にリボンコントローラが付いていることが大きな特徴です。リボンとはワイヤーのついた指輪の事を指します。リボンの指輪部分は右手の人差し指に嵌めて左右に動かします。リボンは鍵盤の手前に平行についており、その下に音高の位置を示す凹凸がついています。鍵盤の白鍵にあたる部分はくぼみ、黒鍵の部分は突起がついており、手元を見なくても指の感覚ですぐに音高を察知できます。この楽器は机の上に置いて使用します。鍵盤以外のボタンは少なめにして、シンプルな操作系にしてください。20代から30代くらいの女性が好むようなカラーリングでデザインしてください」

こうすることで、先ほどより少し実態に近づいた画像を生成することができました。リボンを完全に理解できているわけではありませんが、上側の画像はオンド・マルトノの操作に近づいています。一方下側の絵はずいぶん前衛的なデザインになり、オンド・マルトノというよりは微分音用鍵盤を上に積み重ねたようなデザインになりました。突如現れるピンクのアーチや鍵盤の下から這い出すカールコードの意味が気になるところです。

少なくとも現時点においては、生成AIに「根拠のある答え」を期待してはいけません。また真の意味の創造性(無から何かを作り出す)も期待できません。生成AIを創作にうまく使うポイントは、人間が考えたアイデアの種を、生成AIと壁打ちディスカッションをしながら育てていくことです。プロンプトを直しては出力を見て、それに刺激を受けてアイデアトを直し……を繰り返せば、自分のアイデアが整理されたり、思わぬ視点に気づかせてくれたりという効果が見込めます。

生成AI未経験の方は、この本をガイドブックに生成AIと仲良くなってみてはいかがでしょうか.

カテゴリー: book