画像の理解と画像生成|コンピュータービジョンとgpt-image-1【AI-901】

画像を理解する(コンピュータービジョン)と作る(画像生成)|Azure資格の森(AI-901対策) AI-901 Azure AI Fundamentals
無料公式シラバス(AI-901)準拠|ドメイン2「Foundryで実装する」。画像を「理解する」「作る」——2つの方向を、未経験から図解で。

画像を扱うAIには、大きく2つの方向があります。すでにある画像を“理解する”(何が写っているか・文字・顔)と、新しい画像を“作る”(画像生成)です。AI-901シラバスの「視覚的な入力を解釈する」「生成モデルでビジュアル出力を作成する」「ビジョン機能を含むアプリを構築する」に対応します。

ロボットが、虫眼鏡で写真の中身を理解しつつ、キャンバスに新しい画像を生成しているイメージ図

画像を「理解する」と「作る」

画像を理解する(中身を読み取る:何が写っているか・文字・顔)と、作る(文章から新しい画像を生成:gpt-image-1)の違いの図
  • 理解する:画像の中身を読み取る。「何が写っているか」「文字」「顔」などを認識します。
  • 作る(画像生成):文章(プロンプト)から新しい画像を生成します。

画像を理解する(コンピュータービジョン)

画像の中身を読み取るのがコンピュータービジョン(Azure AI Vision)。代表的な機能は次の4つです。

コンピュータービジョンでできること:画像分類・物体検出・文字の読み取り(OCR)・顔検出
  • 画像分類:何が写っているかを判定(例:犬か猫か)
  • 物体検出:どこに何があるかを検出(位置つき)
  • 文字の読み取り(OCR):画像の中の文字を読む
  • 顔検出:顔を見つけて分析する
マルチモーダルモデルで「視覚入力を解釈」:GPT系のマルチモーダルモデル(文章だけでなく画像も扱えるモデル)に画像を渡すと、「この写真には何が写っている?」のように、自由な言葉で説明・質問応答ができます。決まったタスク中心のコンピュータービジョンに対し、こちらは柔軟な理解が得意です。

画像を作る(画像生成)

文章から新しい画像を作るのが画像生成。Foundryのモデルカタログから画像生成モデルを選んでデプロイし、プロンプトを渡すと画像が返ります。

⚠️ モデル名に注意:以前のDALL-E 3 は2026年3月に廃止されました。現在の画像生成はgpt-image-1系を使います(古い情報のままだと動きません)。最新のモデル名はモデルカタログで確認しましょう。

使い方は、デプロイ(前のFoundry入門と同じ流れ)→ プロンプトで画像を生成、です。コードなしでもポータルで試せます。

📝 AI-901 試験のポイント

  • 理解する=コンピュータービジョン(Azure AI Vision):画像分類・物体検出・OCR・顔検出
  • 柔軟に理解=マルチモーダルモデルに画像を渡して説明させる(視覚入力の解釈)
  • 作る=画像生成。現行モデルはgpt-image-1(DALL-E 3は2026年3月廃止)

確認クイズ

Q1. 写真に写っているのが「犬」か「猫」かを判定したい。どの機能?

A. 画像分類(コンピュータービジョン)
B. 画像生成
C. 音声合成
D. 要約

Q2. 「夕焼けの富士山」という文章から新しい画像を作りたい。どれ?

A. OCR
B. 画像生成(gpt-image-1 など)
C. 物体検出
D. 顔検出

Q3. スキャンした書類の画像から「文字」を読み取りたい。どの機能?

A. OCR(文字の読み取り)
B. 画像生成
C. 音声認識
D. センチメント分析

Q4. 写真を渡して「この画像を説明して」と自由に質問できるのは?

A. マルチモーダルモデル(視覚入力の解釈)
B. 音声合成
C. 画像生成
D. キーワード抽出

よくある質問(FAQ)

Q. 画像生成のモデルは何を使いますか?

A. 現在はgpt-image-1系です。以前のDALL-E 3 は2026年3月に廃止されました。最新はモデルカタログで確認してください。

Q. コンピュータービジョンとマルチモーダルモデルの違いは?

A. コンピュータービジョンは分類・OCR・顔検出など決まったタスクが得意。マルチモーダルモデルは画像を見て自由に説明・質問応答できます。

Q. どのサービスを使いますか?

A. 画像理解の定型タスクはAzure AI Vision、柔軟な理解や画像生成はモデルカタログのモデル(マルチモーダル/画像生成)を使います。

まとめ

  • 画像は「理解する」「作る」の2方向
  • 理解=コンピュータービジョン(分類・物体検出・OCR・顔検出)マルチモーダルモデル(自由な解釈)
  • 作る=画像生成(gpt-image-1。DALL-E 3は2026年3月廃止)
🎯 次のステップ

※本記事はMicrosoft公式ドキュメント(Azure AI Vision/画像生成モデル)に基づき、エンジニアKが作成しています。モデルは更新・廃止されるため、最新は Microsoft公式 をご確認ください。

コメント

タイトルとURLをコピーしました