• 株式会社ずんだもん技術室AI放送局 podcast 20241119

  • 2024/11/18
  • 再生時間: 1分未満
  • ポッドキャスト

株式会社ずんだもん技術室AI放送局 podcast 20241119

  • サマリー

  • 関連リンク Microsoft Seeks to Sort & Simplify its Agentic AI Dev Story – Visual Studio Magazine マイクロソフトは、次世代AI分野で注目を集める「エイジェンティックAI」開発ツールの整理・統合を進めています。エイジェンティックAIとは、単純な質問応答型チャットボットを超え、ユーザーに代わって行動する、より高度で自律的なAIエージェント(パーソナルアシスタント、カスタマーサービス担当者など)を指します。 現在、マイクロソフトは2つの主要なフレームワークを保有しています。一つは研究目的のオープンソースプロジェクトであるAutoGenで、複数エージェントのランタイム技術(autogen-core)を提供します。もう一つは、本番環境向けに設計されたオープンソースの軽量SDKであるSemantic Kernelです。 マイクロソフトは、これらのフレームワークを統合し、開発者体験を向上させる計画です。具体的には、2025年初頭までにAutoGenのマルチエージェントランタイム技術をSemantic Kernelに統合します。これにより、AutoGenを利用している開発者は、企業レベルのサポートが受けられるSemantic Kernelへスムーズに移行できます。 統合後の開発者向け選択肢は以下の通りです。 複雑なエイジェンティックAIを開発する場合: AutoGenを使い続けます。コミュニティサポートのみとなりますが、Semantic Kernelにはない高度な機能を利用できます。企業レベルのサポートが必要な場合: Semantic Kernelを利用します。本番環境向けに設計されており、企業レベルのサポートが提供されます。 Semantic Kernelは、大規模言語モデル(LLM)やデータストアをアプリケーションに統合し、大規模な生成AIソリューションの構築を可能にします。C#、Python、Javaに対応しています。既にエージェントフレームワーク(プレビュー版)も提供しており、単一エージェントと複数エージェントの両方のソリューションを構築できます。 AutoGenは、イベント駆動型で分散型のエイジェンティックアプリケーションの作成とオーケストレーションを簡素化します。複数のLLM、SLM、ツール、高度なマルチエージェント設計パターンをサポートし、複数のエージェントが連携して複雑なタスクを自律的または人間の監視下で実行するシナリオに適しています。C#とPythonに対応しています。 マイクロソフトは、この統合により、開発者はエイジェンティックAIアプリケーション開発において、よりシンプルで効率的な開発環境を得られると期待しています。 新人エンジニアは、プロジェクトの規模や必要とするサポートレベルに応じて、AutoGenとSemantic Kernelのどちらを選択すべきか、注意深く検討する必要があります。 引用元: https://visualstudiomagazine.com/Articles/2024/11/18/Microsoft-Seeks-to-Sort-and-Simplify-its-Agentic-AI-Dev-Story.aspx OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! 本記事は、ulusage社のマルチモーダルAI「MPLUG-DOCOWL2」を紹介しています。これは、高解像度かつマルチページのドキュメントを、従来のOCR技術を用いることなく、効率的かつ高精度に解析する革新的な技術です。 従来のOCRベースのドキュメント解析は、処理速度が遅く、高解像度画像や多ページ文書への対応が困難、計算コストが高いという課題がありました。MPLUG-DOCOWL2はこれらの問題を解決するために開発されました。 MPLUG-DOCOWL2は、以下の3つの主要コンポーネントから構成されています。 高解像度ドキュメントコンプレッサー: クロスアテンションを用いて、高解像度画像を効率的に圧縮し、重要な情報を少ないトークン数(1ページあたり324トークン)で保持します。従来の数千トークンに比べ大幅な計算コスト削減を実現します。 形状適応型クロッピングモジュール: ドキュメントのレイアウトを解析し、重要な部分だけを抽出することで、無駄な情報を排除し、文書構造を維持したまま処理します。複雑なレイアウトの文書にも柔軟に対応可能です。 マルチイメージモデリング: 複数ページにわたる解析結果を統合し、文書全体の文脈を理解します。大規模言語モデル(LLM)を活用することで、質問応答や要約などの高度なタスクにも...
    続きを読む 一部表示

あらすじ・解説

関連リンク Microsoft Seeks to Sort & Simplify its Agentic AI Dev Story – Visual Studio Magazine マイクロソフトは、次世代AI分野で注目を集める「エイジェンティックAI」開発ツールの整理・統合を進めています。エイジェンティックAIとは、単純な質問応答型チャットボットを超え、ユーザーに代わって行動する、より高度で自律的なAIエージェント(パーソナルアシスタント、カスタマーサービス担当者など)を指します。 現在、マイクロソフトは2つの主要なフレームワークを保有しています。一つは研究目的のオープンソースプロジェクトであるAutoGenで、複数エージェントのランタイム技術(autogen-core)を提供します。もう一つは、本番環境向けに設計されたオープンソースの軽量SDKであるSemantic Kernelです。 マイクロソフトは、これらのフレームワークを統合し、開発者体験を向上させる計画です。具体的には、2025年初頭までにAutoGenのマルチエージェントランタイム技術をSemantic Kernelに統合します。これにより、AutoGenを利用している開発者は、企業レベルのサポートが受けられるSemantic Kernelへスムーズに移行できます。 統合後の開発者向け選択肢は以下の通りです。 複雑なエイジェンティックAIを開発する場合: AutoGenを使い続けます。コミュニティサポートのみとなりますが、Semantic Kernelにはない高度な機能を利用できます。企業レベルのサポートが必要な場合: Semantic Kernelを利用します。本番環境向けに設計されており、企業レベルのサポートが提供されます。 Semantic Kernelは、大規模言語モデル(LLM)やデータストアをアプリケーションに統合し、大規模な生成AIソリューションの構築を可能にします。C#、Python、Javaに対応しています。既にエージェントフレームワーク(プレビュー版)も提供しており、単一エージェントと複数エージェントの両方のソリューションを構築できます。 AutoGenは、イベント駆動型で分散型のエイジェンティックアプリケーションの作成とオーケストレーションを簡素化します。複数のLLM、SLM、ツール、高度なマルチエージェント設計パターンをサポートし、複数のエージェントが連携して複雑なタスクを自律的または人間の監視下で実行するシナリオに適しています。C#とPythonに対応しています。 マイクロソフトは、この統合により、開発者はエイジェンティックAIアプリケーション開発において、よりシンプルで効率的な開発環境を得られると期待しています。 新人エンジニアは、プロジェクトの規模や必要とするサポートレベルに応じて、AutoGenとSemantic Kernelのどちらを選択すべきか、注意深く検討する必要があります。 引用元: https://visualstudiomagazine.com/Articles/2024/11/18/Microsoft-Seeks-to-Sort-and-Simplify-its-Agentic-AI-Dev-Story.aspx OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! 本記事は、ulusage社のマルチモーダルAI「MPLUG-DOCOWL2」を紹介しています。これは、高解像度かつマルチページのドキュメントを、従来のOCR技術を用いることなく、効率的かつ高精度に解析する革新的な技術です。 従来のOCRベースのドキュメント解析は、処理速度が遅く、高解像度画像や多ページ文書への対応が困難、計算コストが高いという課題がありました。MPLUG-DOCOWL2はこれらの問題を解決するために開発されました。 MPLUG-DOCOWL2は、以下の3つの主要コンポーネントから構成されています。 高解像度ドキュメントコンプレッサー: クロスアテンションを用いて、高解像度画像を効率的に圧縮し、重要な情報を少ないトークン数(1ページあたり324トークン)で保持します。従来の数千トークンに比べ大幅な計算コスト削減を実現します。 形状適応型クロッピングモジュール: ドキュメントのレイアウトを解析し、重要な部分だけを抽出することで、無駄な情報を排除し、文書構造を維持したまま処理します。複雑なレイアウトの文書にも柔軟に対応可能です。 マルチイメージモデリング: 複数ページにわたる解析結果を統合し、文書全体の文脈を理解します。大規模言語モデル(LLM)を活用することで、質問応答や要約などの高度なタスクにも...

株式会社ずんだもん技術室AI放送局 podcast 20241119に寄せられたリスナーの声

カスタマーレビュー:以下のタブを選択することで、他のサイトのレビューをご覧になれます。