画像を扱うAIには、大きく2つの方向があります。すでにある画像を“理解する”(何が写っているか・文字・顔)と、新しい画像を“作る”(画像生成)です。AI-901シラバスの「視覚的な入力を解釈する」「生成モデルでビジュアル出力を作成する」「ビジョン機能を含むアプリを構築する」に対応します。

画像を「理解する」と「作る」

- 理解する:画像の中身を読み取る。「何が写っているか」「文字」「顔」などを認識します。
- 作る(画像生成):文章(プロンプト)から新しい画像を生成します。
画像を理解する(コンピュータービジョン)
画像の中身を読み取るのがコンピュータービジョン(Azure AI Vision)。代表的な機能は次の4つです。

- 画像分類:何が写っているかを判定(例:犬か猫か)
- 物体検出:どこに何があるかを検出(位置つき)
- 文字の読み取り(OCR):画像の中の文字を読む
- 顔検出:顔を見つけて分析する
画像を作る(画像生成)
文章から新しい画像を作るのが画像生成。Foundryのモデルカタログから画像生成モデルを選んでデプロイし、プロンプトを渡すと画像が返ります。
使い方は、デプロイ(前のFoundry入門と同じ流れ)→ プロンプトで画像を生成、です。コードなしでもポータルで試せます。
確認クイズ
Q1. 写真に写っているのが「犬」か「猫」かを判定したい。どの機能?
Q2. 「夕焼けの富士山」という文章から新しい画像を作りたい。どれ?
Q3. スキャンした書類の画像から「文字」を読み取りたい。どの機能?
Q4. 写真を渡して「この画像を説明して」と自由に質問できるのは?
よくある質問(FAQ)
Q. 画像生成のモデルは何を使いますか?
A. 現在はgpt-image-1系です。以前のDALL-E 3 は2026年3月に廃止されました。最新はモデルカタログで確認してください。
Q. コンピュータービジョンとマルチモーダルモデルの違いは?
A. コンピュータービジョンは分類・OCR・顔検出など決まったタスクが得意。マルチモーダルモデルは画像を見て自由に説明・質問応答できます。
Q. どのサービスを使いますか?
A. 画像理解の定型タスクはAzure AI Vision、柔軟な理解や画像生成はモデルカタログのモデル(マルチモーダル/画像生成)を使います。
まとめ
- 画像は「理解する」と「作る」の2方向
- 理解=コンピュータービジョン(分類・物体検出・OCR・顔検出)+マルチモーダルモデル(自由な解釈)
- 作る=画像生成(gpt-image-1。DALL-E 3は2026年3月廃止)
- ➡ 前の記事:テキスト分析と音声アプリ
- ➡ つぎは「Content Understandingで情報抽出」(準備中・ドメイン2の最後)
- ➡ AI-901対策トップ / 試験概要・受験ガイド
※本記事はMicrosoft公式ドキュメント(Azure AI Vision/画像生成モデル)に基づき、エンジニアKが作成しています。モデルは更新・廃止されるため、最新は Microsoft公式 をご確認ください。


コメント