生成AI

AIエージェント
生成AI
ChatGPT連携サービス
AI受託開発
対話型AI -Conversational AI-
ボイスボット
バーチャルヒューマン
教師データ作成
AI研究開発
通訳・翻訳
声紋認証
機密情報共有・管理
契約書管理システム
ワークステーション
FAQシステム
AIカメラ
生体認証
インボイス制度対応システム
データセットの収集・購入
コールセンター
人事・総務向け
インバウンド対策
コンバージョンアップ
KYT・危険予知で労働災害防止
無料AI活用
顧客リスト自動生成
ロボットで自動化
LINE連携
セキュリティー強化
テレワーク導入
AI学習データ作成
配送ルート最適化
非接触AI
受付をAIで自動化、効率化
AIリテラシーの向上サービス
日本語の手書き文字対応AI-OCR
Windows作業の自動化RPAツール
リスク分析AIで与信管理
紙帳票仕分けAI-OCRサービス
サプライチェーン
AIコンサルティング
最終更新日:2024/06/05
マイクロソフト Phi-3-visionを発表
Microsoftは、「Phi-3」ファミリーに言語と視覚機能を備えた42億パラメータのマルチモーダルな小規模言語モデル 「Phi-3-vision」を追加しました。画像とテキストの両方から推論する必要があるタスクに最適です。
このAIニュースのポイント
Microsoftは、2024年5月21日に小規模言語モデル(SLM)「Phi-3」ファミリーに新しいモデル「Phi-3-vision」を追加したと発表しました。画像とテキストの両方から推論する必要があるタスクに最適なモデルです。以前発表されたPhi-3-smallとPhi-3-mediumに加えて、Microsoft Azureで利用ができます。
「Phi-3-vision」はPhi-3ファミリーで初の画像を解析するマルチモーダルなSLMです。様々な言語、推論、コーディング、数学のベンチマークで、同じサイズのモデルよりも優れたパフォーマンスを発揮します。描画機能はありませんが、チャート、図、表などの画像から抽出したテキストからの推論や、Q&AなどのOCRタスクなど、画像とテキストの両方から推論する必要があるタスクに最適です。

また、「Phi-3-vision」Phi-3-miniの言語機能に基づいて構築されており、言語と視覚機能を備えた42億パラメータのマルチモーダルモデルで、小型モデルに強力な言語と画像推論の品質を詰め込んでいます。多様なハードウェアで実行できるように最適化していて、リソースが限られる環境や、ローカルなアプリに適しています。モバイル端末やWebを含む幅広いデバイスとプラットフォームで利用できます。

Phi-3モデルはこれまで、mini(38億パラメータ)small(70億パラメータ)、medium(140億パラメータ)の3サイズでしたが、今回「Phi-3-vision」が追加されたことで、4つのモデルから選択可能です。
どのモデルを利用するかは、タスクの複雑さと利用可能な計算リソースによって異なり、コンテンツ作成、要約、質問応答、感情分析など、さまざまな言語理解および生成タスクで使用できます。Phi-3-mini、Phi-3-small、Phi-3-mediumの3つのモデルは、従来の言語タスクを超えて強力な推論および論理機能を備えているため、分析タスクに適しています。
各モデルはMicrosoftの安全性、セキュリティ標準に従って調整・開発されており、Phi-3モデルを使用する開発者は、Azure AIで一連のツールを活用して、より安全で信頼性の高いアプリケーションを構築可能です。
出典:Microsoft
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら