エピソード

  • 私立ずんだもん女学園放送部 podcast 20251219
    2025/12/18
    youtube版(スライド付き) 関連リンク
    • Self-driving infrastructure

    Vercelが提唱する「Self-driving infrastructure (SDI)」は、AIエージェントを活用し、インフラの運用を自動化する概念です。従来のインフラ運用では、開発者がインフラ設定に時間を費やす必要がありましたが、SDIではコードがインフラを定義し、Vercelが自動的にリソースをプロビジョニングします。

    さらに、Vercel Agentがアプリケーションの異常を検知・調査し、根本原因の分析やセキュリティ対策を自動で行います。これにより、運用チームはより高度な課題に集中できるようになります。

    SDIは、本番環境で得られた知見をコードに反映させる「production-to-code feedback loop」を確立し、継続的な改善を実現します。AI時代のアプリケーション運用において、信頼性とパフォーマンスを向上させるための重要なトレンドと言えるでしょう。

    引用元: https://vercel.com/blog/self-driving-infrastructure

    • Findy AI+の開発・運用を支えるMCP活用事例 ― AI Engineering Summit Tokyo 2025登壇レポート

    Findy AI+の開発・運用において、Model Context Protocol (MCP)を活用した事例を紹介。MVP開発時にはリモートMCPサーバーを利用し、画面実装の工数を削減。分析処理をLLM側に任せることで、2人体制で1ヶ月の開発を実現しました。ベータ版ではAdmin機能をローカルMCPサーバーとして実装し、画面UI開発の工数を大幅に削減(約1週間)。MCPにより、LLMや生成AIツールに依存しない柔軟な開発が可能になり、開発効率と保守性の向上に貢献しています。MCPはベンダーロックインを避け、長期的な安定性と互換性を担保する重要な技術として期待されています。

    引用元: https://tech.findy.co.jp/entry/2025/12/18/090000

    • Letta Code: A Memory-First Coding Agent Letta

    Letta Codeは、長期的な学習と記憶に焦点を当てた、モデルに依存しないOSSのコーディングエージェントです。従来のセッションベースではなく、エージェントが過去の経験を蓄積し、継続的に改善される仕組みが特徴です。

    主な機能として、以下の点が挙げられます。

    • Memory Initialization: プロジェクトのコードを解析し、学習を初期化。
    • Skill Learning: 繰り返し行うタスクやパターンを「スキル」として学習し、再利用可能に。
    • Persisted State: 過去の会話履歴を検索可能。

    TerminalBenchでの評価では、Claude CodeやGemini CLIといったモデルベンダー提供のツールと同等のパフォーマンスを示しています。npm install -g @letta-ai/letta-codeでインストールでき、Letta Developer Platformや自社サーバーでの利用が可能です。

    引用元: https://www.letta.com/blog/letta-code

    • Nintendo Switch™『QQQbeats!!!』待望のキャラパック第1弾「キャラクターパック ずんだもん」本日12月18日(木)発売!同日より、無料オンラインアップデートにて楽曲4曲追加!

    『QQQbeats!!!』に人気キャラ「ずんだもん」のDLCが本日発売! 同時アップデートで楽曲も4曲追加。さらに、ゲーム本体のホリデーセールも開催中です。バブルシューティングと音楽ゲームが融合した本作で、ずんだもんのスキルを楽しめます。

    引用元: https://prtimes.jp/main/html/rd/p/000000662.000041970.html

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251218
    2025/12/17
    youtube版(スライド付き) 関連リンク
    • Gemini 3 Flash: frontier intelligence built for speed

    Google DeepMindが、高速かつ低コストなAIモデル「Gemini 3 Flash」を発表しました。Gemini 3の性能を維持しつつ、推論速度と効率性を向上させたモデルで、API、Geminiアプリ、Google検索のAIモード、Vertex AI、Gemini Enterpriseなどで利用可能です。

    主な特徴は以下の通りです。

    • 高速性: 2.5 Proモデルと比較して3倍高速。
    • コスト効率: 推論コストを削減。
    • 高い性能: PhDレベルの推論能力を持ち、ベンチマークテストでGemini 3 Proと同等の性能を示す部分も。
    • 多様な利用: コーディング、複雑な分析、インタラクティブなアプリケーションなど、幅広い用途に対応。

    開発者向けには、Google AI Studio、Antigravity、Gemini CLI、Android Studioなどを通じて利用でき、企業向けにはVertex AIとGemini Enterpriseで提供されます。一般ユーザーはGeminiアプリとGoogle検索のAIモードで利用可能です。

    引用元: https://deepmind.google/blog/gemini-3-flash-frontier-intelligence-built-for-speed/

    • RAGの「リランキング」を10倍速くする「MixLM」

    RAGにおける「リランキング」の速度問題を解決する「MixLM」という手法を紹介する記事です。リランキングは精度は高いものの処理速度が遅く、実用上のボトルネックとなることがあります。MixLMは、文書ソースを事前に「リランキング用」にベクトル化し、質問時にそのベクトルと質問文をリランキングモデルに入力することで、従来の10倍以上の高速化を実現します。

    具体的には、通常RAGで使用するベクトルとは別に、Encoder LLMを用いて各チャンクのベクトルを作成・保存しておきます。質問時には、ベクトル検索で絞り込んだチャンクと、事前に作成したリランキング用ベクトルを組み合わせ、リランキングモデルに入力します。これにより、LLMが文章全体を処理する代わりに、圧縮されたベクトルを用いることで高速化を実現しています。

    LinkedInでの求人検索への実装では、Daily Active Usersが0.47%向上する成果が出ています。RAGシステムのパフォーマンス改善に関心のあるエンジニアにとって、MixLMは有効な選択肢となり得るでしょう。

    引用元: https://zenn.dev/knowledgesense/articles/4eb785fd0e9a2b

    • Accelerating Long-Context Inference with Skip Softmax in NVIDIA TensorRT-LLM

    NVIDIA TensorRT-LLMにおけるSkip Softmaxは、LLMの長文コンテキスト処理における計算コスト増大という課題を解決する、新しい疎なアテンション手法です。従来のモデルの再学習は不要で、既存のモデルに組み込むことが可能です。

    Skip Softmaxは、Softmax関数の特性を利用し、重要度の低いアテンションブロックを動的に削減します。具体的には、計算されたlogit値が事前に設定された閾値を超えないブロックの処理を省略することで、メモリ帯域幅と計算量の両方を削減します。

    性能評価では、Llama 3.3 70Bモデルにおいて、デコード時に最大1.36倍、プレフィル時に最大1.4倍の高速化が確認されています。特に、長いコンテキスト長において効果を発揮します。

    精度への影響は、50%程度の疎性化であればほとんど損失がないことが確認されています。TensorRT-LLMに統合されており、Hopper/Blackwell GPUで利用可能です。設定はAPIまたはYAMLファイルを通じて行えます。

    より詳細な情報や今後のアップデートについては、関連ドキュメントを参照ください。

    引用元: https://developer.nvidia.com/blog/accelerating-long-context-inference-with-skip-softmax-in-nvidia-tensorrt-llm/

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251217
    2025/12/16
    youtube版(スライド付き) 関連リンク
    • A Protocol for Agent-Driven Interfaces¶

    A2UIは、AIエージェントがWeb/モバイル/デスクトップで動作するリッチなUIを、コード実行なしに生成するためのプロトコルです。エージェントはUIの構造とデータを記述するA2UIメッセージを送信し、クライアント側はそれをネイティブウィジェットでレンダリングします。

    主な特徴:

    • 安全性: 実行可能なコードを含まず、定義済みのコンポーネントのみを使用するため、UIインジェクション攻撃を防ぎます。
    • LLMとの親和性: ストリーミングJSON形式で、LLMが段階的にUIを構築しやすい設計です。
    • フレームワーク非依存: Angular, Flutter, Reactなど、様々なフレームワークで同じUIを再現できます。
    • プログレッシブレンダリング: UIの更新を逐次的にストリーミングするため、ユーザーはリアルタイムにUI構築を確認できます。

    現在はv0.8のPublic Preview段階で、仕様や実装は進化中です。GitHubで公開されており、コントリビューションも歓迎されています。レストラン検索デモや、ランドスケープアーキテクトデモを通じてA2UIの動作を確認できます。

    引用元: https://a2ui.org/

    • 言語化が下手な人は5つのタイプに分けられる

    本記事は、言語化能力が低い原因を、読解、構造化、表現、整形、タイピングの5つのプロセスに分解し、それぞれの問題点と改善策を解説しています。新人エンジニアが陥りやすい「何を言いたいのか伝わらない」「ドキュメント作成に時間がかかる」といった課題に対し、具体的なチェック方法と改善策が提示されており、自己分析とスキルアップに役立ちます。特に、問題の根本原因を特定することの重要性、そしてトレーニングが有効なのは「伝わらない」という自覚がある場合に限る点が強調されています。組織としては、良いコミュニケーションを評価する文化を醸成し、個人としては、自己診断を通じてボトルネックを特定し、優先順位をつけて改善に取り組むことが推奨されています。LLMを活用する上でも重要なスキルである言語化能力の向上に役立つ内容です。

    引用元: https://note.com/suthio/n/n2555d51f8f1b

    • The new ChatGPT Images is here

    OpenAIがChatGPTの画像生成モデルをアップデートし、より意図通りの編集と高速化を実現しました。特に、画像の細部を保持しつつ、指示に忠実な編集が可能になり、写真の修正やスタイルの変更などが容易になりました。

    今回のアップデートは、ChatGPTの全ユーザーとAPIユーザーで利用可能。APIでは、GPT Image 1.5として提供され、画像入力・出力コストが20%削減されました。ロゴや重要な要素の一貫性を保ちながら編集できるため、マーケティングやECサイトでの利用に適しています。

    さらに、ChatGPTのサイドバーに新しい「Images」機能が追加され、プリセットフィルターやプロンプトを活用することで、より簡単に画像生成を楽しめるようになりました。

    引用元: https://openai.com/index/new-chatgpt-images-is-here

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251216
    2025/12/15
    youtube版(スライド付き) 関連リンク Nemotron 3 Nano - A new Standard for Efficient, Open, and Intelligent Agentic Models NVIDIAが、効率性と性能を両立した新しいAIエージェントモデル「Nemotron 3 Nano 30B A3B」を発表しました。このモデルは、1Mトークンという長文脈に対応し、Mamba-Transformer MoEアーキテクチャを採用することで、従来のモデルと比較して最大4倍の高速化を実現しています。 主な特徴として、31.6Bパラメータ、約3.6Bの活性パラメータ、推論速度の向上、高い精度、Reasoning ON/OFF機能、そしてオープンなデータスタックが挙げられます。 学習には、大規模な事前学習、教師ありファインチューニング、そしてRLVR/RLHFといった強化学習技術が用いられています。また、NVIDIAは、RL環境構築を容易にする「NeMo Gym」も公開しており、開発者がより簡単に強化学習を試せるようにしています。 Nemotron 3 Nanoは、エージェント、推論、ツール利用、チャットタスクに最適化されており、Hugging Faceやbuild.nvidia.comなどで利用可能です。モデルの重み、学習レシピ、データセットも公開されており、研究開発を促進します。 引用元: https://huggingface.co/blog/nvidia/nemotron-3-nano-efficient-open-intelligent-models AIエージェント/MCPサーバー実装ガイドを作成しました SIOS Tech Lab SIOS Tech Labが、AIエージェントとMCP(Model Context Protocol)を体系的に学べる実装ガイドを公開しました。このガイドは、AIエージェント開発の基礎から実践までを網羅しており、201ページの大ボリュームです。 対象読者は、AIエージェント/MCPを学ぶ開発者、および関連プロジェクトのPL/PM。基礎理論を図解で分かりやすく解説し、すぐに動くソースコードも提供することで、初心者でもスムーズに学習を進められます。 ガイドは以下の7つの章で構成されています。 AIエージェントの基本概念ReActによるAIエージェント実現Function Callingによる実装MCPの理論と構造シンプルなMCPサーバー実装MCPの認可機能MCP対応AIエージェント実装 このガイドと解説セミナーを活用することで、AIエージェント/MCPサーバー開発をスムーズに進められるでしょう。 引用元: https://tech-lab.sios.jp/archives/50769 ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃 ChatGPTのメモリシステムは、多くのエンジニアが予想していたRAGやベクトルデータベースを使用せず、シンプルな4層構造で高速性を実現しているという調査結果。各層は、セッションメタデータ、長期記憶(最大33個)、最近の会話サマリー、現在のセッションメッセージで構成されます。 RAGの課題(レイテンシ、精度、複雑性)を回避し、全ての記憶をコンテキストに注入する方式を選択。モデルのスケーリングとコンテキストウィンドウ拡大により、速度と効率性を両立しています。OpenAIの哲学は「強力なモデルに大量のコンテキストを渡せば、モデルが不要な情報をフィルタリングする」というもの。 他のAI(Claude, Gemini)と比較すると、ChatGPTは日常会話の記憶継続性に優れる一方、単一会話の情報量ではGeminiに劣ります。セキュリティ面では、悪意のあるコードを記憶に注入される「Memory Injection」攻撃のリスクがあり、対策が必要です。 この設計は、特に日常会話においては、速度と利便性を優先した結果と言えます。今後のAI開発においては、RAGだけでなく、シンプルなコンテキスト注入やSQLベースのメモリエンジンなど、タスクに応じた最適なアプローチを選択することが重要になるでしょう。 引用元: https://zenn.dev/tenormusica/articles/chatgpt-memory-no-rag-2025 【ずんだもん】ずんだもんのマスコットが登場!「もちぴこ」シリーズで顔文字のようなシュールな表情を造形【プライズ】 「ずんだもん」のマスコットが、オンラインクレーンゲームやアミューズメント施設に登場。表情豊かな「もちぴこ」シリーズで、ストラップ紐付きのぬいぐるみを入手できます。 引用元: https://game.boom-app.com/entry/onlinecranegame-news20251215-10 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織です)
    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251215
    2025/12/14
    関連リンク OpenAI are quietly adopting skills, now available in ChatGPT and Codex CLI OpenAIがAnthropicのSkills機構を取り入れ、ChatGPTのCode InterpreterとCodex CLIにスキルサポートを静かに導入しました。スキルはMarkdownファイルとリソースを含むフォルダで構成され、ファイルシステムへのアクセス能力を持つLLMツールであれば利用可能です。 ChatGPTでは/home/oai/skillsフォルダにアクセスし、PDFやdocxなどのファイルを処理できます。PDF処理では、レイアウトやグラフィック情報を維持するため、PDFをPNG画像に変換してGPTモデルに渡すアプローチを採用しています。 Codex CLIでは、~/.codex/skillsフォルダ内のスキルを認識し、--enable skillsオプションで利用できます。スキルを利用してDatasetteプラグインを自動生成する例も紹介されています。 これらの動きは、AIエージェントの機能拡張において、軽量なスキル定義が重要であることを示唆しており、Agentic AI Foundationによる正式なドキュメント化が期待されます。 引用元: https://simonwillison.net/2025/Dec/12/openai-skills/ 🐸 なぜ今、Agentic Workflowなのか - Graflowの設計思想 本稿は「現場で使えるAIエージェントワークフロー」を目指すオーケストレーションエンジンGraflowの設計思想を、既存フレームワークとの対比を交えて解説しています。著者はエージェント導入の現実課題(本番での挙動制御、並列処理・水平スケール、Human-in-the-Loop(HITL)、長時間処理の再開、グラフの可読性悪化)を挙げ、これらを解決するために「Type B:Agentic Workflow(構造化オーケストレーション+局所的自律性)」に特化する方針を示しています[7]。GraflowはSuperAgentの内部推論をワークフローで細かく表現せず、SuperAgentを「Fatノード」として外部専門フレームワーク(Google ADK、PydanticAI、SmolAgents等)に委譲する責務分離戦略を取る点を強調しています[7][4]。 設計上の特徴と主要機能は次の通りです。1) 実行時に動的タスク生成・分岐を行えるState Machine風の制御(context.next_task/next_iteration/goto)により、事前に全分岐を定義する必要を排し柔軟なループ・ファンアウトを実現する[7]。2) ユーザ制御のcheckpoint/resumeで長時間処理の途中再開が可能(checkpointはS3/ローカル/Redis等に保存)[7]。3) HITLとcheckpointの組合せで承認待ちを非同期に扱い、タイムアウト時に自動checkpointを作ることで人の回答後に再開できる仕組みを提供する[7][6]。4) Redisベースの分散ワーカーによる水平スケールと、ローカル→分散への切替が簡単な実行バックエンドを備える[7]。5) LLM呼び出しは用途に応じて二通りのインジェクションを提供—複雑な推論はinject_llm_agent(SuperAgentラップ)、単発呼び出しはinject_llm_client(軽量・マルチモデル)—でコストと複雑度を使い分けられる[7]。6) DAG的演算子DSL(»、)とタスク内での動的遷移を組み合わせた「DAG × State Machine」ハイブリッド設計により静的可読性と動的柔軟性を両立している[7]。さらに、Dockerハンドラー、TypedChannelによる型安全なタスク間データ共有、並列グループごとの細粒度エラーポリシー(Strict / Best-effort / At-least-N / Critical / カスタム)やLangFuse/OpenTelemetry統合によるトレーシングとランタイムグラフエクスポートなど、プロダクション運用で必要な機能が揃っています[7][8]。 比較として、LangGraphはSuperAgentもワークフローも自前実装するフルスタック路線で、グラフの事前コンパイルや急峻な学習曲線、APIの流動性が問題視されている点を指摘し、Graflowはワークフローに専念して「ベストツールを組み合わせる」アプローチを採るとしています[7][3]。実用例やOSS公開・協力募集(2026年1月公開予定)についても言及されています[7]。 新人エンジニア向けの要点整理: 目的:現場で制御できてスケールするAIワークフロー(Agentic Workflow)を実装するためのライブラリ設計。SuperAgentは外部に任せ、ワークフロー制御に専念する点がキモ[7][4]。使い分け指針:複雑なマルチターン/ツール呼び出しはSuperAgent(inject_llm_agent)、単発処理はLLMClient(inject_llm_client)を使う[7]。実装ポイント:静的に見やすいDAGを演算子で定義しつつ、タスク内部でnext_task等を呼んで動的に遷移することで柔軟性を...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20251212
    2025/12/11
    関連リンク たった5行で自分専用のClaude Codeを作れる ― Claude Agent SDK詳解 \nAnthropicが2025年9月に正式リリースしたClaude \ Agent SDKは、わずかなコードで本格的なAIエージェントを構築できる強力なフレームワークです。もともと「Claude Code SDK」と呼ばれていましたが、コーディングだけでなくさまざまなエージェント構築に対応できるため改名されました。SDKはAnthropicの本番環境で使われるagent \ harnessをベースにしており、高度な機能を開発者に提供します。\n\n主な特徴として、会話の自動コンテキスト管理(トークン制限を超えないよう圧縮)、豊富な組み込みツール(ファイル操作、コード実行、Web検索など)、そして独自ツールの簡単追加が挙げられます。PythonとTypeScript/JavaScriptで利用可能で、Pythonではpip\ \ install claude-agent-sdkで導入し、APIキーを環境変数に設定します。\n\nSDKの使い方はシンプルで、@toolデコレータにより加算、乗算、累乗、階乗といった数学計算ツールを簡単に定義できます。これらのツールはcreate_sdk_mcp_serverでまとめて登録し、ClaudeAgentOptionsで使用モデルや許可ツールを指定、ClaudeSDKClientで対話ループを実装します。対話は非同期ストリーミングで行われ、リアルタイムに応答が表示されます。\n \nまた、SDKはReActパターンを自然に実現しており、エージェントが「思考→行動→観察」を繰り返しながら複雑なタスクを分解・実行可能です。たとえば、複数の計算ツールを順に呼び出し、結果を組み合わせる処理も自動で行えます。さらに、エージェントは自分のツールの説明や使用例も示せるため、対話の柔軟性が高いです。\n \n本番環境向けには詳細なエラーハンドリングの実装や、権限管理の適切な設定が推奨されます。SDKは単一エージェントだけでなく、複数エージェント(subagents)を並列運用するマルチエージェント対応も可能で、大規模タスクの効率的処理が狙えます。\n \nただし、Claude Agent SDKはClaudeモデル向けに最適化されているため、他の大規模言語モデル(LLM)との互換性は限定的で、マルチモデル対応が必要ならOpenAI \ Agents SDKやLangChainなどの汎用フレームワークが適している場合もあります。\n\nまとめると、Claude Agent SDKは最小限のコードで高度なAIエージェント開発を実現し、ReActパターンや自動コンテキスト管理などの先進機能を備えた、AIエージェント開発の新基準となりうるツールです。新人エンジニアでも理解しやすく、実践的に使える設計であるため、AIエージェント開発を始める際の有力な選択肢となります。” 引用元: https://zenn.dev/acntechjp/articles/cb1be5aff11eca Introducing Polly: Your AI Agent Engineer LangChainのLangSmithに組み込まれたAIアシスタント「Polly(ベータ)」の紹介記事。Pollyはエージェント設計やデバッグを支援する「AIエージェントエンジニア」で、特に人手で解析しづらい長大なプロンプト、何百ステップにもなる実行トレース、数時間〜数日に及ぶマルチターンの会話に強みがある。主な機能は(1)個別トレース解析:失敗箇所や非効率な挙動の特定、(2)スレッド解析:複数回のやり取りを横断した要約や挙動変化の特定、(3)プロンプト設計支援:システムプロンプトの修正、出力スキーマ定義、ツール定義やfew-shot例の追加、長さ最適化など。Pollyの知見はLangSmithのトレーシング(runs/ traces/ threads)に蓄積されたデータに基づき、まずはトレース解析・会話デバッグ・プロンプト改善を提供し、将来的には実験解析やプロンプト最適化機能を拡張する予定。導入はLangSmithでトレーシングを有効化すれば利用可能。新人エンジニアは、複雑なエージェントの失敗原因特定とプロンプト設計の高速化に有用と理解してよい。’ 引用元: https://blog.langchain.com/introducing-polly-your-ai-agent-engineer/ 【アドベントカレンダー2025】AI Agentの「自律性」との向き合い方 データサイエンティスト閔氏による、AI Agentの自律性(Agency)とその設計・運用上の注意点の解説記事です。まずHugging Faceの指標を引用し、レベル0〜3で自律度を整理(レベル0:単なるLLM、レベル1:条件分岐、レベル2:Toolの自律利用、レベル3:複数AgentやTool自作)。自律度が高いほど...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251211
    2025/12/10
    youtube版(スライド付き) 関連リンク Agent Engineering: A New Discipline AIエージェントを開発している皆さん、自分のPCでは動いていたのに、いざ本番環境にデプロイすると予期せぬ挙動をして苦労した経験はありませんか?従来のソフトウェア開発では、入力と出力がある程度予測できましたが、AIエージェントはユーザーがどんな入力をしてくるか分からず、挙動も広範囲にわたるため、開発が非常に難しいのが現状です。 そこで、LangChainのチームは、AIエージェントを本番環境で信頼性高く運用するための新しい開発手法として、「エージェントエンジニアリング」という専門分野を提唱しています。これは、予測不可能な大規模言語モデル(LLM)ベースのシステムを、信頼できるプロダクトへと継続的に改善していくための反復的なプロセスです。そのサイクルは、「構築(Build)」「テスト(Test)」「リリース(Ship)」「観察(Observe)」「改善(Refine)」「繰り返し(Repeat)」が基本となります。ここで大切なのは、リリースがゴールではなく、新たな知見を得てエージェントを改善するための出発点である、という考え方です。 エージェントエンジニアリングを実践するには、主に3つのスキルセットが連携する必要があります。 プロダクト思考: エージェントが「何を解決すべきか」を定義し、ユーザーの課題を深く理解します。具体的なプロンプト作成や、エージェントが期待通りに動くかを評価する指標作りも含まれます。エンジニアリング: エージェントが利用するツール(外部サービス連携など)を開発したり、ユーザーインターフェース(UI/UX)を構築したり、エージェントの実行を安定させるための基盤(エラー処理、メモリ管理など)を作ります。データサイエンス: エージェントの性能や信頼性を測定するシステム(A/Bテスト、モニタリングなど)を構築し、実際の利用データから改善点を見つけ出します。 なぜ今、この分野が必要なのでしょうか? LLMは今や複雑な多段階のタスクをこなせるほど強力になりましたが、その強力さゆえに予測不可能な挙動も増えました。従来の開発では「すべてテストしてからリリース」でしたが、AIエージェントの場合、ユーザーの自然言語入力は「すべてがエッジケース」になり得ます。また、モデル内部のロジックが多いため、従来のデバッグ方法では対応しきれません。「動いている」だけでは不十分で、「意図通りに、適切に動いているか」を常に監視・評価する必要があります。 エージェントエンジニアリングでは、「完璧にしてからリリースする」のではなく、「リリースして現実世界での挙動から学ぶ」という考え方が重要です。まずエージェントの土台を作り、想定シナリオでテストし、すぐにリリースして実際のユーザー入力を観察します。そこから得られた情報をもとに、プロンプトやツール定義を改善し、このサイクルを素早く繰り返すことで、信頼性の高いエージェントシステムを構築できるのです。 AIエージェントは、これまで人間が行っていた複雑な作業をこなす大きな可能性を秘めています。この新しい開発手法をチームに取り入れることで、LLMの真の力を引き出し、信頼できるプロダクトを生み出すことができるでしょう。 引用元: https://blog.langchain.com/agent-engineering-a-new-discipline/ GitHub Copilot サブエージェントによるオーケストレーター パターンの実践 この記事は、GitHub CopilotのrunSubagentという機能を使って、ソフトウェア開発のワークフロー全体を自動化する「オーケストレーターパターン」について、新人エンジニアにも分かりやすく解説しています。 GitHub CopilotのrunSubagentとは? これは、AIエージェントが別のAIエージェントに仕事を依頼できる便利な機能です。まるで、会社で上司が部下に具体的な業務を指示するようなイメージです。 オーケストレーターパターンとは? この記事で紹介されているオーケストレーター(指揮者)エージェントは、ソフトウェア開発の最初から最後まで、すべてを自動で進めるシステムです。具体的には、ユーザーが「こんな機能が欲しい」と要望を出すと、以下の...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251210
    2025/12/09
    youtube版(スライド付き) 関連リンク Donating the Model Context Protocol and establishing the Agentic AI Foundation AI開発大手のAnthropicは、AIアプリケーションが外部システムと連携するための共通規格である「Model Context Protocol(MCP)」を、新たに設立された「Agentic AI Foundation(AAIF)」へ寄付することを発表しました。このAAIFは、オープンソースプロジェクトの管理で知られるLinux Foundationの傘下に設立された基金です。Anthropic、Block、OpenAIが共同で設立し、Google、Microsoft、AWSといった主要なテクノロジー企業もその活動を支援しています。 MCPは、AIと外部ツールやサービスをつなぐ「共通の言葉」のようなもので、発表からわずか1年で目覚ましい普及を遂げました。現在では、10,000を超える公開サーバーが稼働しており、ChatGPT、Cursor、Gemini、Microsoft Copilot、Visual Studio Codeなど、皆さんが普段使うような主要なAI製品や開発ツールに広く採用されています。また、AWSやGoogle Cloudといった大手クラウドプロバイダーも、MCPのデプロイをサポートしており、AIがより多様な機能を利用できる環境を構築しています。AnthropicのAIであるClaudeも、MCPを活用した75以上のコネクタを提供し、AIが複雑なタスクを効率的にこなせるよう強化しています。 Agentic AI Foundation(AAIF)の設立目的は、自律的に動作する「エージェントAI」が、透明性、協力、そして社会全体の利益を重視しながら健全に発展していくための基盤を築くことです。この財団は、戦略的な投資、コミュニティの育成、オープンな標準の共有開発を通じて、AIエコシステム全体のイノベーションを促進していきます。 今回のMCPのAAIFへの寄付は、この重要な技術がこれからも特定の企業に縛られず、オープンソースとして誰もが利用・貢献できる形で発展していくことを確実にするためのものです。今後、Blockの「goose」やOpenAIの「AGENTS.md」といった他の重要なエージェントAIプロジェクトもAAIFに加わる予定で、これによりエージェントAIの基盤技術がオープンな協力体制のもとで進化していくことが期待されます。 新人エンジニアの皆さんにとって、この動きは、将来のAI開発環境がよりオープンで協調的なものになっていくことを示しています。AIが様々なシステムとシームレスに連携し、より賢く、より役立つ存在になる未来に向けて、MCPのようなオープン標準がその実現を支える重要な鍵となるでしょう。 引用元: https://www.anthropic.com/news/donating-the-model-context-protocol-and-establishing-of-the-agentic-ai-foundation Cursor、GPT-5.1-Codex-Max対応でエージェント機能を大幅強化 AIを活用したコーディング支援ツール「Cursor」が、最新のAIモデル「GPT-5.1-Codex-Max」に対応し、開発者の作業を助ける「エージェント機能」を大きく強化しました。これは、皆さんの日々のコーディング作業をよりスムーズで効率的にするための大切なアップデートです。 今回のアップデートでは、主に以下の点が改善されました。 コードの品質向上と効率的なツール利用: Cursorは、新しいGPT-5.1-Codex-Maxモデルが持つ能力を最大限に引き出すため、このモデルに合わせた特別な指示やツールを追加しました。これにより、AIがより賢く、適切なタイミングで必要なツールを選んで使えるようになり、生成されるコードの品質が向上します。 安全なシェル操作の強化: AIがプログラム開発でよく使う「シェル」(コマンドライン操作)を、より安全かつ積極的に利用できるようになりました。ツール名や定義も、より直感的なコマンド名に近づけ、AIが意図しない動作をするリスクを減らし、安心して使えるように工夫されています。 AIの「思考過程」を重視: AIが問題を解決する際の「推論過程」(どのように考えて答えを導き出したか)をきちんと保存し、次に活かせるようにするアラート機能が追加されました。研究では、この「思考過程」が失われるとAIの性能が30%も落ちてしまうことが分かっているため、この改善はAIの安定した高いパフォーマンス維持に非常に重要です。 賢いエラー検出と修正: コードのエラーを見つけて直すためのツールが、すべてのモデルで利用可能になりました。特に新しいCodexモデル...
    続きを読む 一部表示
    1分未満