top of page
  • David Peterman

Issue 178 - 画像生成AIの台頭

今回のSeattle Watchでは、画像生成AIについて見ていきます。最近話題に上るMidjourneyやDALL-E 2といったAIツールによって、テキストを入力するだけで高品質な画像を生成できるようになってきていますが、今後人間自身が持つべき芸術性や創造性はどこに向かっていくのでしょうか?

 

ある重要な資料の締めのスライドにアイザック・ニュートンがアイスクリームを持っている画像がどうしても必要だとします。しかし、その画像をインターネット上で探してみても、なかなか見つかりません。そのような場合には、ニュートンに似たモデルを雇って写真を撮るか、デジタルアーティストに依頼してゼロから画像を作ってもらうといった方法が考えられますが、かなりの時間やコストがかかってしまいます。しかし、画像生成AIであるMidjourneyに、「アイザック・ニュートンがアイスクリーム・コーンを持っているリアルな画像、緑色の背景」といったようなテキストを打ち込むだけで、あっという間に、プレゼンに最適な画像が手に入るところまで来ています。


筆者がMidjourneyで生成したアイザック・ニュートンの画像



前回のSeattle Watchでは、ChatGPTのような文章ベースの生成(ジェネレーション)AIを紹介しましたが、テキスト入力に基づいて画像を生成できる生成AIも数多く登場しています。画像生成AIでは、必要な情報(テキストや参照画像)を入力すると、その情報をもとにした画像を生成してくれます。そして、生成された画像をさらに洗練されたものにするために、さまざまな微調整を施すことで、イメージ通りの高解像度の画像を得ることができます。私はMidjourneyを始めて使ったとき本当に驚きました。実際、ビル・ゲイツも同じようにこのテクノロジーに興奮しており、「グラフィカル・ユーザー・インターフェース以来の、テクノロジーにおける最も重要な進歩を目撃した。」と述べています。 https://www.geekwire.com/2023/bill-gates-calls-recent-ai-breakthroughs-the-biggest-tech-advance-since-the-graphical-user-interface/


画像生成AIの性能が大幅に向上したのはつい最近ですが、この技術のルーツは50年前にさかのぼります。1973年にハロルド・コーエンというアーティストが、自分が設計した厳格なルールに基づいて絵を描くことができるAARONというプログラムを開発しています。AARONは、現在のテクノロジーから見ると粗末なものですが、現代の画像生成AIに至るまでの重要なマイルストーンになっています。 https://www.americanscientist.org/article/ai-is-blurring-the-definition-of-artist


画像生成AIは非常に複雑な仕組みで構成されていますが、その核となるのは 生成合成 (generation synthesis)と呼ばれるプロセスです。これは基本的に、ユーザーが提供したテキスト入力に基づいて、一連のアルゴリズムを使用して新しい画像を生成することを意味します。しかし、その前に膨大なデータセットを使ってAIを学習させなければなりません。例えば、ボート、犬、アイザック・ニュートン、アイスクリーム・コーンといった物体や人物の名称とそのイメージを紐づけて学習させたり、照明、テクスチャー、色、芸術的スタイルなど、画像を構成するためのさまざまな要素を学ばせたりする必要があります。さらに、ある物体が他の物体とどう相互作用するかを理解するために、物理学も意識しなければいけません。AI開発企業のOpenAIでは、画像生成AIであるDALL-E 2を開発する際には、インターネットから入手した数億枚のキャプション付き画像で学習させたと述べています。 https://madhansart.com/art/art-types/ai-art/how-does-ai-art-work/


この画像生成AIで有名なのはMidjourneyやDALL-E 2ですが、それには理由があります。DALL-E 2はChatGPTと同じ開発元であるOpenAIが提供しており、同社のAIに関する豊富な研究や知見が活用されています。Midjourneyは、Leap Motion(現Ultraleap)の共同設立者であるデビッド・ホルツ氏が率いており、アプリの使い方を少し学ぶ必要がありますが、非常に高品質な画像を出力してくれます。また、WOMBO's Dreamのようにスマホでの使用に最適化されたアプリや、特定の種類のアート生成に特化したアプリもあります。例えば、MyHeritageのAI Time Machineは、ユーザーが提供した一連の自撮り写真を取り込むことで、1950年代のスタイルなど、異なる時代にその人物がタイムスリップした場合のリアルな画像を生成してくれます。 https://www.zdnet.com/article/best-ai-art-generator/


当然のことながら、この新しいテクノロジーの台頭はさまざまな法的な問題を生み出しています。「AIが他のアーティストの作品を学習材料として使用することは公正なのか?」や「機械が生成した画像に著作権は発生するのか?」などが争点となっています。法律や規制は常にテクノロジーよりもゆっくりと動くものですが、2023年3月に米国著作権局は、AIが生成した画像は米国で著作権を取得できないとの判決を下しています。同局は「AIが人間からのプロンプト(テキストによる指示)を受け取り、それに応じて複雑な文章、視覚、または音楽作品を生成した場合、著作権の伝統的な要素は、人間のユーザーではなく、技術によって決定され実行される。」と述べています。つまり、私がMidjourneyを使って先ほどのアイザック・ニュートンの画像を生成したとしても、私もMidjourney社も生成された画像に対して著作権を主張することはできません。 https://www.engadget.com/ai-generated-images-from-text-cant-be-copyrighted-us-government-rules-174243933.html


しかし、ここで最も重要な疑問があります。それは、アートとアーティストの未来にとって画像生成AIが何を意味するのかです。AIに指示するだけで、自分のイメージにあった高品質な絵を生成することができるようになったとき、人間のアーティストは今後の社会でどんな役割を目指していくべきなのでしょうか?1800年代初頭に写真が登場して、それが写実的な絵画を描く芸術家に対する脅威と見なされた時同じような変節点に私たちはいると思われます。1901年、画家のヘンリエッタ・クロパスは、「写真がやがて絵画芸術に完全に取って代わるのではないかという恐れが言及されている。写真をカラーで撮影するプロセスが完成し、十分に一般的になれば、写実画家はもう何もすることがなくなると考えている人もいるようである。」と述べています。


しかし、写真が独自の芸術として台頭すると、画家たちは写真では表現できないものを生み出すために創造性を広げていきました。現代のアーティストも同じではないかと思います。素人に新しい力をもたらす新しい道具があっても、本当にクリエイティブな人の居場所は必ず存在するはずです。彼らは新しい環境に適応しながら、AIには到達し得ない新しいレベルに芸術の領域を押し上げるでしょう。



Recent Posts

See All

SW 206 - Paris Summer Olympics and Sport Tech

今回のSeattle Watchでは、7月末に開幕するパリ五輪でのAI活用や、アスリートのパフォーマンスやファンの観戦体験を高めるテクノロジーについて見ていきたいと思います。 2021年の東京五輪の記憶がまだ残っていますが、パリ五輪が今年の7月26日から開幕します。今年のオリンピックのスローガンは、Games Wide Open(広く開かれた大会)であり、パリ五輪組織委員長のTony Estang

SW 205 - Freight Tech and Reverse Logistics

今回のSeattle Watchでは、貨物不況の中でも活躍を見せているFreight Tech(フレイトテック)と、Reverse Logistics(リバース・ロジスティクス)について見ていきたいと思います。日本では、物流・運送業界の2024年問題が盛んに議論されていますが、米国では、物流業界の非効率や透明性を高めるような技術、そして返品文化の影響もあって発達しているリバース・ロジスティクスを支

SW 204 - Startup Scene in Seattle and Spokane

今回のSeattle Watchでは、最近のシアトルの資金調達の実情やスタートアップ動向に加えて、同じワシントン州の第二の都市であるスポケーンのテック関連の動向について紹介をしていきたいと思います。 Webrainは25年以上にわたってシアトルを本拠地としています。これまで何度かお伝えしてきているように、シアトルは、豊かな自然と活気ある文化に加え、世界有数のテクノロジーハブとして知られおり、Boe

Comments


bottom of page