エピソード

  • 株式会社ずんだもん技術室AI放送局 podcast 20260204
    2026/02/03
    関連リンク マルチモーダルLLMを活用したZOZOTOWN検索の関連性評価手法 ファッションECサイト「ZOZOTOWN」を運営するZOZOの検索基盤部による、マルチモーダルLLM(MLLM)を活用した検索結果の評価手法に関する解説記事です。 検索システムの改善において、新旧のアルゴリズムを比較する「オフライン評価」は不可欠ですが、従来の検索ログを用いた手法には課題がありました。過去のログは既存の検索ロジックの結果に基づいているため、新しいロジック(ベクトル検索など)に対して公平な評価ができず、バイアスが生じてしまう点です。 この課題を解決するため、ZOZOは人間の代わりにMLLMを用いて検索クエリと商品の関連性を判定する手法を導入しました。本手法の主な特徴とステップは以下の通りです。 マルチモーダル情報の活用と基準策定 ファッションにおいて「見た目」は重要な要素です。商品テキストだけでなく画像データもMLLMに入力することで、視覚的な関連性を考慮した高精度な判定を実現しました。また、評価基準を「Highly relevant(非常に関連あり)」「Acceptable Substitute(許容できる代替品)」「Irrelevant(無関連)」の3段階に整理し、曖昧さを排除したプロンプトを設計しています。 ゴールドセットによるモデルの検証 判定の信頼性を担保するため、まず人間が手作業で作成した正解データ(ゴールドセット)を用いて複数のLLMを比較しました。検証の結果、Gemini 2.5 Flashと改善したプロンプトの組み合わせが74.1%という高い精度を記録し、実用レベルにあることを確認しました。 定量評価の自動化とスケーラビリティ 構築した評価基盤を用いることで、数千から数万件のクエリ・商品ペアに対して自動でラベリングを行い、nDCGやPrecisionといった指標を算出します。人間が2時間かかる作業をMLLMなら1分以内で完了できるため、圧倒的なスピードで大規模な評価が可能になりました。 この取り組みにより、既存ロジックのバイアスを排除した「本質的な関連性」に基づく評価体制が整いました。LLMを単なるチャットツールとしてではなく、システムの精度を計測するための「スケーラブルな評価基盤」として活用する、実戦的で非常に参考になる事例です。 引用元: https://techblog.zozo.com/entry/search-quantitative-evaluation-llm H Companys new Holo2 model takes the lead in UI Localization AIスタートアップのH Company(Mistral AIの創設メンバーらによる企業)から、UI(ユーザーインターフェース)要素の特定において世界最高性能(SOTA)を更新した最新モデル「Holo2-235B-A22B Preview」が発表されました。本記事は、GUIエージェントやWebオートメーションの未来を大きく変える可能性を秘めた、この新モデルの技術的な進展を解説しています。 1. UIローカライズにおける新たな金字塔 「Holo2-235B-A22B Preview」は、GUIグラウンディング(画面上の特定の要素がどこにあるかを特定する技術)の難関ベンチマークである「ScreenSpot-Pro」で78.5%、「OSWorld G」で79.0%というスコアを記録しました。これは、AIが画面内のボタンや入力フォームをいかに正確に認識できるかを示す指標であり、現時点で世界トップクラスの精度を誇ります。本モデルはHugging Face上でリサーチリリースとして公開されています。 2. 「Agentic Localization」による精度の追求 従来のモデルが直面していた大きな課題に、4Kなどの高解像度画面における「非常に小さなUI要素の認識ミス」がありました。Holo2はこの課題を、独自の「Agentic Localization(エージェント的ローカライズ)」という手法で解決しています。 反復的な予測の洗練: 一度の推論で場所を決め打ちするのではなく、エージェントが推論を繰り返す(イテレーティブ・リファインメント)ことで、予測結果を段階的に正確なものへと修正していきます。劇的な精度向上: このアプローチにより、モデルのサイズを問わず10〜20%もの相対的な精度向上を実現しました。推論ステップの効果: 単発の推論では70.6%の精度ですが、エージェントモードとして3ステップ実行することで、最も難解なベンチマークの一つであるScreenSpot-Proにおいて78.5%という最高スコアを達成しました。 3. 日本の新人...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20260203
    2026/02/02
    関連リンク Introducing the Codex app OpenAIは、macOS向けの新ツール「Codex app」を発表しました。これは、複数のAIエージェントを司令塔(コマンドセンター)として一元管理し、複雑で長時間にわたる開発タスクを効率化するためのデスクトップアプリケーションです。従来のIDEやターミナルでは難しかった「複数のエージェントへの指示・監督・協働」を直感的に行えるように設計されています。 新人エンジニアにとっても注目すべき、主な特徴は以下の通りです。 マルチエージェントの並列実行と管理 プロジェクトごとにスレッドを分け、複数のエージェントに異なるタスクを同時に依頼できます。各エージェントの進捗をシームレスに切り替えて確認できるため、コンテキストを失わずに作業を進められます。 安全な試行錯誤を支える「worktrees」対応 エージェントはコードの独立したコピー(作業ツリー)上で動作します。そのため、自分のローカル環境やメインのGitブランチを汚す心配がありません。提案された変更はアプリ内でレビューし、コメントを付けたり、必要に応じて自分のエディタで修正したりすることが可能です。 「スキル」による機能拡張 Codexは単なるコード生成に留まりません。Figmaのデザインをコードに変換する、プロジェクト管理ツール(Linear)でバグを整理する、クラウド(VercelやRender等)へデプロイするといった一連のワークフローを「スキル」として登録し、エージェントに実行させることができます。これらはチーム内で共有も可能です。 オートメーション(自動化) スケジュールに基づいたバックグラウンド実行が可能です。毎日のバグトリアージュやCI失敗の要約作成など、重要だが繰り返しの多い業務をAIに任せ、人間は最終的な確認作業に集中できます。 柔軟な性格設定と高い互換性 エージェントの性格を「簡潔で実用的」なスタイルか「対話的で共感的」なスタイルか選ぶことができます。また、既存のCodex CLIやIDE拡張機能の設定や履歴をそのまま引き継げるため、導入もスムーズです。 最新の「GPT-5.2-Codex」をベースとしたこのアプリは、エージェントに「コードを書かせる」だけでなく「コードを使って仕事を完結させる」ツールへと進化しています。セキュリティ面でもサンドボックス構造が採用されており、安全に高度な自動化を体験できるのが魅力です。現在はmacOS向けに、ChatGPTの有料プランユーザーを対象に提供が開始されています。 引用元: https://openai.com/index/introducing-the-codex-app Selenium作者によるAIと人間のためのブラウザ操作自動化ツール Vibium を使ってみる 本書は、ブラウザ自動化ツールの代名詞である「Selenium」の生みの親、Jason Huggins氏が新たに公開したツール「Vibium」についての紹介記事です。Vibiumは、AIエージェントがブラウザを操作するためのインフラストラクチャとして設計されており、エンジニアの間で大きな注目を集めています。 概要 Vibiumの最大の特徴は、AIと人間の両方が利用できる「ハイブリッドなブラウザ操作ツール」である点です。特にAIエージェントとの親和性が極めて高く設計されています。 MCP(Model Context Protocol)の標準搭載 単一のバイナリ内にMCPサーバーが内蔵されています。これにより、Claude CodeなどのMCP対応クライアントを利用すれば、複雑な設定なし(Zero Setup)でAIにブラウザを操作させることが可能です。モダンな通信プロトコル ブラウザのライフサイクル管理に加え、最新の「WebDriver BiDi」プロトコルをサポートしており、高速で双方向なブラウザ制御を実現しています。マルチ言語対応 AIによる自動操作だけでなく、人間がコードを書いて制御することも可能です。現時点(2026年2月)では、JavaScript/TypeScriptおよびPythonから利用できるSDKが提供されています。 制約・現在の仕様 Vibiumを導入するにあたって、以下の点に留意する必要があります。 対応言語の範囲: 現在公式にサポートされているのはJS/TSとPythonであり、その他の言語については今後の展開を待つ形となります。操作の実装手法: 一部のUI操作(セレクトボックスの選択など)については、現時点ではevaluateメソッドを用...
    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260202
    2026/02/01
    関連リンク プログラミングの知識は「書くため」ではなく「導くため」になった — AIエージェント並列オーケストレーションの先にあったもの 本書は、AIエージェントの自律性を高めるマルチエージェントオーケストレーションツール「takt」の開発者が、AI時代のエンジニアの役割変化について考察した記事です。 ■ツールの概要と進化 taktは、GitHubのIssueを指定するだけで、AIエージェントが「計画・実装・レビュー・修正」のサイクルを自律的に回すツールです。最新のアップデート(v0.3.2)では「並列オーケストレーション」が実現されました。これまでは直列に行われていた「アーキテクチャレビュー」や「セキュリティレビュー」といった依存関係のないタスクを同時に実行できるようになり、開発の待ち時間が大幅に短縮されています。この仕組みにより、人間はIssueを一つ投げるだけで、高品質なコードが完成するのを短時間待つだけという圧倒的な開発体験を手に入れました。 ■エンジニアの役割の変化:プログラミング知識の使い道 筆者は、taktを使い込む中でエンジニアの「楽しさの軸」が変化したと述べています。 これまでは、新しい言語機能を覚えたり、エレガントなアルゴリズムを書いたりする「書く楽しさ」が中心でした。しかし、AIがコードを書く世界では、プログラミングの専門知識(DDDや設計パターン、セキュリティの知見など)は、AIを「正しい方向に導くため」の道具へと変わります。 AIの出力に対して「ここは依存の方向が逆だ」「値オブジェクトを使ってほしい」といった具体的な不満を抱き、それをプロンプトやワークフローにフィードバックする。つまり、プログラマの仕事は「コードの執筆者」から、AIという優秀な実装者を指揮する「ディレクター」や、品質を担保する「最終責任者」へと移行しています。 ■ジュニアエンジニアへの示唆:これからの「強み」とは 今後、ソフトウェア開発は「帰納的」なアプローチ、すなわち「仕様(インプットとアウトプット)を定義し、AIが生成したプログラムが正しいことを検証する」形へと進化していくと予測されています。 これは「仕様駆動開発(Spec Driven Development)」とも呼べるもので、人間がすべき価値ある仕事は「何を解決したいのかという仕様を明確に書くこと」と「それが正しく実装されているかを証明すること」に集約されます。 新人の皆さんは、単に構文を覚えるだけでなく、「良い設計とは何か」「正しい仕様とは何か」という一段高い視点の知識を磨くことで、AIという強力な相棒を自在に乗りこなせるようになるでしょう。この記事は、AIに仕事を奪われることを恐れるのではなく、圧倒的な速度で課題を解決できる新しい時代の「プログラミングの楽しさ」を提示してくれています。 引用元: https://zenn.dev/nrs/articles/ea37ed55b8704a Browser Agent Benchmark: Comparing LLM Models for Web Automation Webブラウザを自動操作するAIエージェント(Browser Agent)の性能を、客観的かつ再現可能な形で評価するための新しいオープンソース・ベンチマークが、Browser Useの開発チームより公開されました。 これまで、ブラウザ操作AIの性能評価は「実際のWebサイトの多様で複雑な挙動」と「評価の自動化(スケーラビリティ)」の両立が大きな課題でした。このベンチマークは、現実のWebサイトでの複雑なワークフローに対応しつつ、標準化された評価手法を提供することを目的としています。 ■ベンチマークの構成 評価に使用されるのは、以下の計120件の高度なタスクです。 ・既存の著名なオープンソース・ベンチマーク(WebBench, Mind2Web, GAIA, BrowseComp)から、検証可能で現実的な100タスクを厳選。 ・iframeの入れ子構造、ドラッグ&ドロップ、特殊なクリック操作など、技術的に特に難易度が高い独自の20タスク。 これらは、多くのモデルで試行され「簡単すぎず、かつ解決可能であること」が確認された精鋭のタスクセットとなっています。 ■LLMによる判定システム(Judge) エージェントがタスクを完遂したかどうかを客観的に判断するために、LLMを「審判」として活用しています。開発チームが200件の...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20260130
    2026/01/29
    youtube版(スライド付き) 関連リンク Introducing Moltworker: a self-hosted personal AI agent, minus the minis Cloudflareは、セルフホスト型のパーソナルAIエージェント「Moltbot(旧Clawdbot)」を、Cloudflareのプラットフォーム上で動作させるための実装「Moltworker」を公開しました。通常、この種のAIエージェントを自前で動かすには、Mac miniのような常時稼働する物理的なハードウェアが必要になりますが、Moltworkerを利用することで、Cloudflareの強力なエッジコンピューティング環境上に自分専用のAIアシスタントを構築できるようになります。 Moltworkerの概要 Moltworkerは、AIエージェントがWebを閲覧したり、コードを実行したり、スケジュールを管理したりといった複雑なタスクを、クラウド上の隔離された環境で実行可能にするプロジェクトです。Cloudflareが提供する最新のインフラ機能をフル活用している点が特徴です。 Node.jsとの高い互換性: Cloudflare WorkersのNode.js互換性が飛躍的に向上したことで、これまで困難だった複雑なライブラリ(Playwright等)の動作が可能になりました。主要なNPMパッケージの約98.5%がそのまま動作するレベルに達しています。Sandbox SDK (Cloudflare Containers): AIが作成したコードを安全に実行するための「隔離された砂場(サンドボックス)」を提供します。これにより、メインのシステムを危険にさらすことなく、AIに動的なタスクを任せられます。Browser Rendering: AIが人間と同じようにブラウザを操作し、Webサイトから情報を取得したり、フォームに入力したりするための機能です。R2ストレージ: コンテナ環境は通常、再起動するとデータが消えてしまいますが、R2をマウントすることでセッション情報や会話履歴を永続化しています。AI Gateway: AnthropicなどのAIモデルへの接続をプロキシし、コストの可視化やモデルの切り替え、失敗時のフォールバックを容易にします。 制約と留意点 概念実証(PoC)としての公開: MoltworkerはCloudflareの正式な製品ではなく、あくまで開発者プラットフォームの可能性を示すためのサンプルプロジェクト(オープンソース)です。利用コスト: Sandboxコンテナ機能を利用するため、Cloudflare Workersの有料プラン(月額5ドル〜)への加入が必要となります。セットアップの前提: 動作にはCloudflareアカウントが必要であり、各種APIキーの設定や環境構築のステップが必要です。 新人エンジニアの皆さんにとって、このニュースは「サーバーレス技術を組み合わせることで、従来は物理サーバーが必要だった高度なAIアプリケーションがいかにスマートに実装できるか」を学ぶ絶好の事例です。GitHubのリポジトリも公開されているため、インフラとAIを組み合わせたモダンな開発手法に触れる良い機会となるでしょう。 引用元: https://blog.cloudflare.com/moltworker-self-hosted-ai-agent/ AGENTS.md outperforms skills in our agent evals - Vercel Vercelは、AIコーディングエージェントに最新のフレームワーク知識(Next.js 16の新しいAPIなど)を学習させる際、「AGENTS.md」というファイルにドキュメント情報を直接持たせる手法が、従来の「Skills」というツールベースの手法よりも圧倒的に高い精度を発揮したという調査結果を公開しました。 背景と課題 AIエージェントの学習データは古くなりがちです。例えば、Next.js 16で導入された 'use cache' や connection() といった最新APIを、学習済みのAIモデルは知りません。これを解決するために、以下の2つのアプローチを比較検証しました。 Skills: エージェントが必要に応じて呼び出す、ドキュメントやツールをパッケージ化した外部標準。AGENTS.md: プロジェクトのルートに配置し、エージェントが各ターンで必ず参照するコンテキストファイル(Claude Codeにおける CLAUDE.md と同様の仕組み)。 驚きの検証結果 検証(Evals)の結果、Skillsの成功率が最大79%(デフォルトでは53%)にとどまったのに対し、AGENTS.mdを活用した手法は100%の合格率を叩き出しました。 Skillsが苦戦した主な理由は、「エージェントがドキュメントを読みに行くべきかどうか」を正しく判断できなかったことにあります。56%のケースでエージェントはSkillを一度も呼び出さず、古い知識で回答...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20260129
    2026/01/28
    youtube版(スライド付き) 関連リンク We Got Claude to Build CUDA Kernels and teach open models! Hugging Faceが公開したこの記事では、Claude Opusのような非常に高性能なモデル(ティーチャーモデル)を活用して、より小規模で安価なオープンソースモデル(スチューデントモデル)の能力を底上げする「エージェント・スキルのアップスケーリング」という手法と、それを支援する新ツール『upskill』を紹介しています。 1. 「エージェント・スキル」とは何か? エージェント・スキルとは、LLMが特定の複雑なタスクを実行するための「指示書(Markdown形式)」や「スクリプト(コード)」をパッケージ化したものです。これにより、モデルのコンテキストを構造化し、異なるモデル間でも特定の専門能力を共有・再利用できるようになります。 2. 手法の核:ティーチャーからスチューデントへの知識移転 高度な専門知識が必要なタスク(例:CUDAカーネルの記述)において、以下のプロセスで小規模モデルを強化します。 スキルの生成: まず、Claude Opus 4.5のようなSOTA(最先端)モデルに難しいタスクを解かせ、その過程(トレース)を記録します。スキルの変換: upskillツールを使用して、そのトレースを汎用的な「スキルファイル」に変換します。評価と検証: 生成されたスキルをスチューデントモデルに適用し、性能が向上するかをベンチマークします。 3. 実践例:CUDAカーネルの構築 記事では、特に難易度の高い「NVIDIA H100 GPU向けの最適化されたCUDAカーネルの作成」を例に挙げています。 通常、H100のアーキテクチャ(Compute Capability 9.0)やメモリ共有の仕様など、最新のドキュメントを読み込むには数時間かかります。しかし、これらを「スキル」として500トークン程度に凝縮してLLMに与えることで、小規模なモデルでも適切なプロジェクト構造やPyTorchバインディングを生成できるようになります。実験では、特定のオープンソースモデルにおいて、スキルを導入することでタスクの成功率が40%から85%へと劇的に向上しました。 4. エンジニアにとっての利点 コスト最適化: 常に高価な高性能LLMを使うのではなく、一度スキルを作ってしまえば、日々の実行は安価なモデルやローカルLLMで行えるようになります。トークン効率: 闇雲に長いプロンプトを投げるのではなく、検証済みの「スキル」を読み込ませることで、トークン消費を抑えつつ精度を確保できます。ナレッジの形式知化: チーム内の特定のエンジニアしか持っていない「秘伝のタレ」のような知識を、LLMが利用可能なスキルとして保存・共有できます。 概要と制約 upskillツールは、Hugging Faceのレポジトリからpip install upskillで導入可能です。 概要: エージェントスキルの生成、テストケースの自動作成、複数モデル間での性能比較(精度・トークン消費量)を行うCLIツール。制約: 現時点ではAnthropic Claude Opus-4.5をデフォルトのティーチャーとして推奨していますが、OpenAIやローカルのOpenAI互換エンドポイントも利用可能です。また、スキルの効果はモデルによって異なり、高性能すぎるモデルにスキルを与えても逆にトークン消費が増えるだけのケースもあるため、事前の評価が重要です。 新人エンジニアの方にとっても、「高性能なAIに教官役をさせ、現場で使う軽量なAIを賢くする」というこのアプローチは、今後のAI活用における非常に実用的なパラダイムとなるでしょう。 引用元: https://huggingface.co/blog/upskill 「Google AI Plus」日本でも開始–月額1200円でGemini 3 Proや200GBドライブ付き(訂正) Googleは2026年1月28日、最新のAI機能をパッケージ化した新しいサブスクリプションサービス「Google AI Plus」を日本国内で提供開始しました。月額1,200円という、エンジニアが個人開発や学習用として手っ取り早く導入しやすい価格設定ながら、Googleの最先端技術を凝縮した内容となっています。 1. 「Gemini 3 Pro」とリサーチ機能の強化 目玉となるのは、Googleの最新大規模言語モデル(LLM)である「Gemini 3 Pro」の利用権です。さらに、高度な調査・分析を支援する「Deep Research」機能も解放されます。新人エンジニアにとって特に注目なのは、情報整理ツール「...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20260128
    2026/01/27
    youtube版(スライド付き) 関連リンク 就職活動のためにLangGraph+ローカルLLMでアプリを作ったら、意外にも使える子に仕上がったので自慢させてくれ 本記事は、フランスで研究活動を行う筆者が、厳しいヨーロッパのIT就職戦線を勝ち抜くために、自身の技術力を証明する「技術ショーケース」として開発した言語学習日記アプリの紹介と、その開発プロセスを綴った成長物語です。 開発したアプリの概要 多言語学習者のための日記アプリ「LangDiaryAgentic」を開発。主な機能は以下の通りです。 未知表現の補完: 学習中の言語で書けない部分を[ ]で囲んで母国語等で書くと、LLMが文脈に合わせて翻訳。添削と書き換え: 文法誤りの指摘だけでなく、指定した言語レベル(CEFR基準)に合わせた自然な表現へのリライト。パーソナライズ学習: 過去の誤りをDBに保存し、RAG(検索拡張生成)を用いてユーザーの弱点に基づいたアドバイスを提供。 技術的な制約と工夫 「高価なGPUを持たない個人環境(ミニPC)」という制約下で、いかに実用的なシステムを作るかに挑戦しています。 LangGraphによるエージェント分業: 単一のLLMに全てを任せるのではなく、翻訳、校閲、書き換え、アドバイスといった役割ごとにエージェントを分割。これにより、非力な小型モデルでも精度の高い「使える」出力を実現しました。ローカルLLMの選定: Ollamaを採用し、CPU環境でも動作する「Qwen2.5 3B」を選定。研究者らしく、精度と速度のベンチマークをとって最適なモデルを導き出しています。ローカルDBによるRAG: DuckDBやChromaDBを使い、全てのデータをローカルで完結させる構成にしました。 新人エンジニアへの学び 本記事から学べる重要な視点は「LLMの出力ミスを前提とした設計」です。特に小規模なローカルモデルは誤りを犯す可能性があります。筆者は「LLMの出力は間違っているかもしれない」と考え、ユーザーがUI上で簡単に修正できる設計にしました。この「修正するプロセス自体が学習になる」という逆転の発想は、実用的なAIアプリ開発における重要なヒントになります。 まとめ 厳しい雇用情勢の中でも、自分が本当に必要とするツールを最新技術(LangGraph, RAG, Local LLM)で作り込み、公開する姿勢は、エンジニアとしての確かな「武器」になります。技術を楽しみながら、制約を工夫で乗り越える開発の醍醐味が詰まった記事です。 引用元: https://qiita.com/Ultra-grand-child/items/d3f492b66a35bbaa0a94 Introducing Prism OpenAIは、科学研究のプロセスを根本から変えるための新しいAIネイティブなワークスペース「Prism」を発表しました。これは、科学者が研究論文の執筆や共同作業を行うためのクラウドベースのプラットフォームで、最大の特徴は最新の推論モデル「GPT-5.2」がワークフローに直接統合されている点です。 これまで、科学者やエンジニアが論文を執筆する際は、エディタ、LaTeXコンパイラ、リファレンス管理ツール、PDFビューア、そしてAIチャットといった複数のツールを行き来する必要があり、作業の断片化が大きな課題でした。Prismはこの断片化を解消し、執筆、数式・引用管理、共同編集、そして出版準備までのすべてを一つの場所で完結させます。 新人エンジニアや研究者にとって注目すべき主な機能は以下の通りです。 高度な文脈理解を伴うGPT-5.2の統合 GPT-5.2は、数理・科学的推論に特化したOpenAIの最新モデルです。Prism内では、文書全体の構造、数式、引用、図表の文脈を完全に理解した状態で、推論やドラフトの作成、修正案の提示を行います。LaTeXネイティブな編集環境 OpenAIが買収したクラウド型LaTeXプラットフォーム「Crixet」をベースにしており、高度な執筆環境を最初から備えています。ホワイトボードに書かれた手書きの数式や図を即座にLaTeXコードへ変換する機能など、エンジニアの作業時間を大幅に短縮する仕組みが整っています。リサーチと引用の自動化 arXivなどの文献データベースから関連する論文を検索し、執筆中の文脈に合わせて内容を取り込んだり、最新の知見に基づいて文章をリライトしたりすることが可能です。リアルタイムの共同作業 「無制限のプロジェクト数」と「...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20260127
    2026/01/26
    youtube版(スライド付き) 関連リンク AIエージェントの設計思想:Chain機構と手続き記憶 この記事では、AIエージェントをより効率的かつ柔軟に動作させるための設計思想が、人間の脳の仕組み(認知科学や神経科学)を参考にしていることが解説されています。新人エンジニアの皆さんも、この設計思想を理解することで、AIエージェント開発のヒントが得られるでしょう。 AIエージェントの動作は大きく二つのモードで考えられています。一つは「Chain機構」、もう一つは「自己修復機能」です。 1. Chain機構(「習慣」の役割) Chain機構とは、特定のタスク(例えばWebサイトへのログイン)を実行する際、一連の操作手順を「Chain(鎖)」のようにまとめて、高速かつ低コストで実行する仕組みです。 脳の仕組みとの関連: これは人間の脳の「手続き記憶(Procedural Memory)」に似ています。例えば、自転車に乗ったり、タイピングをしたりする際に、意識せずとも体が動くような「習慣」的な動作です。また、複雑な動作を一つのまとまりとして習得する「チャンキング(Chunking)」という現象にも対応します。メリット: LLM(大規模言語モデル)に毎回推論させる必要がなくなるため、処理が高速になり、API利用コストも大幅に削減できます。 しかし、Chain機構は事前に定義された手順に従うため、予期せぬ状況(WebサイトのUI変更など)には弱いという弱点があります。 2. 自己修復機能(「熟慮」の役割) Chain機構が失敗した際に、エラーを検知し、柔軟に問題を解決しようとするのが自己修復機能です。 脳の仕組みとの関連: これは人間の脳の「認知制御(Cognitive Control)」システムに似ています。エラーや予期せぬ事態が起きた時に「何かおかしい」と気づき、どうすれば良いか「熟慮」して行動を修正する働きです。特に、脳の「前帯状皮質(ACC)」がこのエラー検知の役割を担っていると考えられています。メリット: Chainだけでは対応できないようなイレギュラーな状況にも、エージェントが自ら考えて対応できるようになります。 3. 二重過程理論(「習慣」と「熟慮」の使い分け) 最も重要なのは、AIエージェントがこれらのChain機構(習慣)と自己修復機能(熟慮)をどのように使い分けるか、という点です。 脳の仕組みとの関連: 人間の脳も、普段は低コストで自動的な「モデルフリー(習慣的)」なシステムを使い、不確実な状況やエラーが発生した際には、高コストでも柔軟な「モデルベース(熟慮的)」なシステムに切り替える「二重過程理論」が提唱されています。AIエージェントでの適用: AIエージェントもこれと同じように、通常時は効率的なChainで動作し、エラー発生時などChainの信頼性が低い場合にのみ、高コストなLLMを使ったAgenticモード(熟慮)に切り替えることで、効率性と柔軟性を両立させています。これは、まるで「普段は autopilot、何かあったら人間が操縦」のようなイメージです。 今後の展望 これらの知見から、AIエージェントの設計には以下のような原則が導かれます。 階層的なエラー処理: 軽微なエラーは簡単な修正で、深刻なエラーは大規模な再プランニングで対応するなど、エラーのレベルに応じた処理を導入する。成功パターンの自動コンパイル: 自己修復によって成功した操作を新しいChainとして学習・保存することで、次に同じ問題が起きた際に効率的に対応できるようにする。メタ認知的な調整: エラー率に応じて、Chainを優先するか、探索を増やすかといった戦略を動的に調整する。 この記事は、単にAIエージェントの性能向上を目指すだけでなく、人間の知能のメカニズムを深く理解し、それをエンジニアリングに応用するという、非常に興味深いアプローチを示しています。新人エンジニアの皆さんも、ぜひこの「生物学的知能に学ぶ設計原則」を意識して、AIエージェント開発に挑戦してみてください。 引用元: https://tech-blog.localmet.com/entry/2026/01/26/122711 Claude Codeで「AI部下10人」を作ったら、勝手にバグ直して「違反は切腹」ルールを追加してきて、オレは適当にしゃべるだけになった このZennの記事は、Anthropic社の「Claude Code」を...
    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20260126
    2026/01/25
    関連リンク Claude CodeやCursorを使って、AIがUIデザインを生成することができる「Pencil」が登場! Pencilは、AIエージェントによる操作を前提に設計された、新しい「エージェント駆動型MCP(Model Context Protocol)キャンバス」です。従来のFigmaのようなデザインツールの機能に加え、AIがデザインデータを直接読み取ったり、編集したりできる点が大きな特徴です。新人エンジニアの方にとっても、UIデザインとコード実装の距離を劇的に縮める画期的なツールと言えます。 ■ Pencilの主な概要と特徴 Pencilは、単なる作図ツールではなく、コードベースの中に存在するデザインフォーマットを採用しています。主な特徴は以下の通りです。 AIエージェントとの高い親和性:MCPという標準的なプロトコルを介して、Claude Code、Cursor、VS Codeといった普段使っている開発環境(IDEやCLI)からUIの生成・編集が可能です。コンテキストとしてのデザインデータ:デザインの構造をAIにコンテキストとして渡せるため、「このデザインに沿ってフロントエンドのコードを書いて」といった指示がより正確に伝わります。開発フローの統合:デザインデータやドキュメント、変更履歴をGitHubで一括管理できるため、エンジニアが得意とする「Gitベースのワークフロー」にデザインを組み込めます。 ■ 開発現場でのメリット これまでの開発では「デザイナーがFigmaで作る」→「エンジニアがそれを見て実装する」という分断がありましたが、Pencilはこの境界を曖昧にします。 プロンプトからのUI生成:例えば「コーヒーショップのダークな雰囲気のサイトを作って」と指示するだけで、デザインの骨組みが瞬時に作成されます。ドキュメント駆動の開発:仕様書(Design Docs)をAIに読み込ませてUIを生成させ、それをもとにフロントエンドの実装まで一気に繋げるシームレスな体験を提供します。双方向の編集:コードを書く延長線上でUIを調整できるため、デザインツールを別途立ち上げて試行錯誤する手間が省けます。 ■ 制約と今後の展望 現時点では、細かなレイアウト調整や視覚的なブラッシュアップといった「人間が手動で行う詳細なデザイン操作」においては、依然としてFigmaに分があります。しかし、Pencilは「AIを前提としたデザイン開発フロー」を再設計するツールであり、特にスピード感が求められるプロトタイプ制作や、AIエージェントを活用した効率的な開発において非常に強力な武器になります。 エンジニアが「デザイン」をより身近なコンテキストとして扱えるようになるPencilは、これからのフロントエンド開発のスタンダードを変える可能性を秘めています。 引用元: https://qiita.com/degudegu2510/items/eff0f63dac99554e6439 【Google Antigravity】新機能「Skills」について Googleが提供するAIエージェントツール「Google Antigravity」に、新機能Skills(スキル)が追加されました。これは、エージェントに特定のタスクの進め方やベストプラクティスを学習させるための、再利用可能なパッケージ機能です。 従来の「カスタム指示(Customizations/Rules)」は、すべての指示を1つのプロンプトに詰め込む必要がありましたが、Skillsはこれらを構造化されたフォルダとして切り出し、必要な時だけエージェントに読み込ませることができます。 1. Skillsを構成する4つの要素 Skillsは、以下の4つの要素を.agent/skills/ディレクトリに配置することで機能します。 SKILL.md(指示書): エージェントがいつ、どのように動くべきかを定義するメインのファイルです。scripts/(道具): Pythonなどのスクリプトです。計算や機械的なチェックなど、LLMが苦手とする「厳密な処理」を代行させます。resources/(素材): 社内規定やチェックリスト、設計書などの参照データです。examples/(お手本): 理想的な出力形式やコードの書き方の実例です。これにより、AIの回答トーンを「シニアエンジニア風」にするなどの制御が容易になります。 2. エンジニアがSkillsを導入すべき3つのメリット 新人エンジニアにとっても、Skillsの活用は開発体験を大きく向上させます。 AIの「集中力」と精度の向上(コンテキスト節約) すべてのルールを常に読み込ませると...
    続きを読む 一部表示
    1分未満