Azureで画像を生成・分析する方法｜コンピュータービジョンとgpt-image-1の使い方【AI-901対応】

🎁 先着30名・無料クーポン配布中（なくなり次第終了）

問題集講座（演習280問）

Azure AI-901 問題集（全280問）

基礎ドリル100問＋本番形式模試3回分。全問日本語の根拠解説＋図解付き。新試験のMicrosoft Foundry実装（配点55〜60%）まで対策できます。

クーポンコード AI90107（先着30名様限定・上限到達で終了）

※本講座はMicrosoft社の公式コンテンツではありません。Microsoft／Azure等は同社の商標です。

Azureで画像を「分析する・生成する」方法を、未経験から図解で解説します。画像を扱うAIには大きく2つの方向があり、すでにある画像を“理解する”（何が写っているか・文字・顔＝コンピュータービジョン）と、新しい画像を“作る”（画像生成）に分かれます。AI-901シラバスの「視覚的な入力を解釈する」「生成モデルでビジュアル出力を作成する」「ビジョン機能を含むアプリを構築する」に対応します。

ロボットが、虫眼鏡で写真の中身を理解しつつ、キャンバスに新しい画像を生成しているイメージ図

画像を「理解する」と「作る」
画像を理解する（コンピュータービジョン）
画像を作る（画像生成）
コードで見る（読めればOK）
確認クイズ
よくある質問（FAQ）
まとめ

画像を「理解する」と「作る」

画像を理解する（中身を読み取る：何が写っているか・文字・顔）と、作る（文章から新しい画像を生成：gpt-image-1）の違いの図

理解する：画像の中身を読み取る。「何が写っているか」「文字」「顔」などを認識します。
作る（画像生成）：文章（プロンプト）から新しい画像を生成します。

🎁 動画講義講座無料クーポン配布中（数量限定・なくなり次第終了）

Azure AI-901 動画講義（スライド＋ナレーション講座）

図解スライドと音声ナレーションで、AI-901の出題範囲を体系的に解説。配点55〜60%を占める新試験のMicrosoft Foundry 実装も、図解で要点を整理。記事で読んだ内容を、動画で一気に総復習できます。

クーポンコード AI901FREE（数量限定・上限到達／期限で終了）

▷ Udemyで無料受講する

※本講座はMicrosoft社の公式コンテンツではありません。Microsoft／Azure等は同社の商標です。

画像を理解する（コンピュータービジョン）

画像の中身を読み取るのがコンピュータービジョン（Azure AI Vision）。代表的な機能は次の4つです。

コンピュータービジョンでできること：画像分類・物体検出・文字の読み取り（OCR）・顔検出

画像分類：何が写っているかを判定（例：犬か猫か）
物体検出：どこに何があるかを検出（位置つき）
文字の読み取り（OCR）：画像の中の文字を読む
顔検出：顔を見つけて分析する

マルチモーダルモデルで「視覚入力を解釈」：GPT系のマルチモーダルモデル（文章だけでなく画像も扱えるモデル）に画像を渡すと、「この写真には何が写っている？」のように、自由な言葉で説明・質問応答ができます。決まったタスク中心のコンピュータービジョンに対し、こちらは柔軟な理解が得意です。

画像を作る（画像生成）

文章から新しい画像を作るのが画像生成。Foundryのモデルカタログから画像生成モデルを選んでデプロイし、プロンプトを渡すと画像が返ります。

⚠️ モデル名に注意：以前のDALL-E 3 は2026年3月に廃止されました。現在の画像生成はgpt-image-1系を使います（古い情報のままだと動きません）。最新のモデル名はモデルカタログで確認しましょう。

使い方は、デプロイ（前のFoundry入門と同じ流れ）→ プロンプトで画像を生成、です。コードなしでもポータルで試せます。

コードで見る（読めればOK）

AI-901は選択式の試験で、コードを自分で書く必要はありません。ただし「理解する（input_image）」と「作る（image_generation）」でコードのどこが違うかを読んで分かることは問われます。どちらも Foundry入門と同じ openai の responses.create を使います。

① 画像を「理解する」　マルチモーダルモデルに画像を渡すときは、入力に {"type":"input_image"} を含めます（画像はURLやbase64で渡せます）。

# 画像を渡して「何が写っている？」と尋ねる（視覚入力の解釈）
response = openai.responses.create(
    model="gpt-4o",                         # 画像も扱えるマルチモーダルモデル
    input=[{
        "role": "user",
        "content": [
            {"type": "input_text",  "text": "この画像に何が写っていますか？"},
            {"type": "input_image", "image_url": "https://example.com/photo.jpg"},
        ],
    }],
)
print(response.output_text)                  # 画像の説明が返る

② 画像を「作る」　新しい画像を生成するときは、tools=[{"type":"image_generation"}] で画像生成ツールを有効にします。生成画像は base64 で返るので、デコードしてファイルに保存できます。

# 文章から新しい画像を作る（画像生成）
response = openai.responses.create(
    model="gpt-image-1",                          # 現行の画像生成モデル
    input="夕焼けの富士山を描いて",
    tools=[{"type": "image_generation"}],         # 画像生成ツールを使う
)
# 生成画像は base64 で返るので、デコードして .png に保存する

※もう一つの呼び方として、会話を介さず直接作るなら Images API の openai.images.generate(model="gpt-image-1", prompt=...) も使えます。どちらも正式なやり方で、画像はbase64で返ります（会話・エージェントの中で作る＝image_generationツール／単発で作る＝images.generate）。

⚠️ 向きを取り違えない：input_image は画像を入力（読む）、image_generation は画像を出力（作る）。名前が似ていて逆向きなので、コード問題で狙われます。画像生成に azure-cognitiveservices-speech（音声用）は使いません。

確認クイズ

Q1. 写真に写っているのが「犬」か「猫」かを判定したい。どの機能？

A. 画像分類（コンピュータービジョン）

B. 画像生成

C. 音声合成

D. 要約

Q2. 「夕焼けの富士山」という文章から新しい画像を作りたい。どれ？

A. OCR

B. 画像生成（gpt-image-1 など）

C. 物体検出

D. 顔検出

Q3. スキャンした書類の画像から「文字」を読み取りたい。どの機能？

A. OCR（文字の読み取り）

B. 画像生成

C. 音声認識

D. センチメント分析

Q4. 写真を渡して「この画像を説明して」と自由に質問できるのは？

A. マルチモーダルモデル（視覚入力の解釈）

B. 音声合成

C. 画像生成

D. キーワード抽出

よくある質問（FAQ）

Q. 画像生成のモデルは何を使いますか？

A. 現在はgpt-image-1系です。以前のDALL-E 3 は2026年3月に廃止されました。最新はモデルカタログで確認してください。

Q. コンピュータービジョンとマルチモーダルモデルの違いは？

A. コンピュータービジョンは分類・OCR・顔検出など決まったタスクが得意。マルチモーダルモデルは画像を見て自由に説明・質問応答できます。

Q. どのサービスを使いますか？

A. 画像理解の定型タスクはAzure AI Vision、柔軟な理解や画像生成はモデルカタログのモデル（マルチモーダル／画像生成）を使います。

まとめ

画像は「理解する」と「作る」の2方向
理解＝コンピュータービジョン（分類・物体検出・OCR・顔検出）＋マルチモーダルモデル（自由な解釈）
作る＝画像生成（gpt-image-1。DALL-E 3は2026年3月廃止）

📘 勉強の進め方（全体像）
この記事はAI-901の学習範囲の一部です。どの順番で・何時間くらい勉強すればよいかは、AI-901の勉強方法・独学ロードマップで全体像を解説しています。迷ったらここから確認するのがおすすめです。

🎯 次のステップ

➡ 前の記事：テキスト分析と音声アプリ
➡ つぎは「Content Understandingで情報抽出」（準備中・ドメイン2の最後）
➡ AI-901対策トップ／試験概要・受験ガイド

※本記事はMicrosoft公式ドキュメント（Azure AI Vision／画像生成モデル）に基づき、エンジニアKが作成しています。モデルは更新・廃止されるため、最新は Microsoft公式をご確認ください。

🎁 動画講義講座無料クーポン配布中（数量限定・なくなり次第終了）

Azure AI-901 動画講義（スライド＋ナレーション講座）

クーポンコード AI901FREE（数量限定・上限到達／期限で終了）

▷ Udemyで無料受講する

※本講座はMicrosoft社の公式コンテンツではありません。Microsoft／Azure等は同社の商標です。