関連リンク プログラミングの知識は「書くため」ではなく「導くため」になった — AIエージェント並列オーケストレーションの先にあったもの 本書は、AIエージェントの自律性を高めるマルチエージェントオーケストレーションツール「takt」の開発者が、AI時代のエンジニアの役割変化について考察した記事です。 ■ツールの概要と進化 taktは、GitHubのIssueを指定するだけで、AIエージェントが「計画・実装・レビュー・修正」のサイクルを自律的に回すツールです。最新のアップデート(v0.3.2)では「並列オーケストレーション」が実現されました。これまでは直列に行われていた「アーキテクチャレビュー」や「セキュリティレビュー」といった依存関係のないタスクを同時に実行できるようになり、開発の待ち時間が大幅に短縮されています。この仕組みにより、人間はIssueを一つ投げるだけで、高品質なコードが完成するのを短時間待つだけという圧倒的な開発体験を手に入れました。 ■エンジニアの役割の変化:プログラミング知識の使い道 筆者は、taktを使い込む中でエンジニアの「楽しさの軸」が変化したと述べています。 これまでは、新しい言語機能を覚えたり、エレガントなアルゴリズムを書いたりする「書く楽しさ」が中心でした。しかし、AIがコードを書く世界では、プログラミングの専門知識(DDDや設計パターン、セキュリティの知見など)は、AIを「正しい方向に導くため」の道具へと変わります。 AIの出力に対して「ここは依存の方向が逆だ」「値オブジェクトを使ってほしい」といった具体的な不満を抱き、それをプロンプトやワークフローにフィードバックする。つまり、プログラマの仕事は「コードの執筆者」から、AIという優秀な実装者を指揮する「ディレクター」や、品質を担保する「最終責任者」へと移行しています。 ■ジュニアエンジニアへの示唆:これからの「強み」とは 今後、ソフトウェア開発は「帰納的」なアプローチ、すなわち「仕様(インプットとアウトプット)を定義し、AIが生成したプログラムが正しいことを検証する」形へと進化していくと予測されています。 これは「仕様駆動開発(Spec Driven Development)」とも呼べるもので、人間がすべき価値ある仕事は「何を解決したいのかという仕様を明確に書くこと」と「それが正しく実装されているかを証明すること」に集約されます。 新人の皆さんは、単に構文を覚えるだけでなく、「良い設計とは何か」「正しい仕様とは何か」という一段高い視点の知識を磨くことで、AIという強力な相棒を自在に乗りこなせるようになるでしょう。この記事は、AIに仕事を奪われることを恐れるのではなく、圧倒的な速度で課題を解決できる新しい時代の「プログラミングの楽しさ」を提示してくれています。 引用元: https://zenn.dev/nrs/articles/ea37ed55b8704a Browser Agent Benchmark: Comparing LLM Models for Web Automation Webブラウザを自動操作するAIエージェント(Browser Agent)の性能を、客観的かつ再現可能な形で評価するための新しいオープンソース・ベンチマークが、Browser Useの開発チームより公開されました。 これまで、ブラウザ操作AIの性能評価は「実際のWebサイトの多様で複雑な挙動」と「評価の自動化(スケーラビリティ)」の両立が大きな課題でした。このベンチマークは、現実のWebサイトでの複雑なワークフローに対応しつつ、標準化された評価手法を提供することを目的としています。 ■ベンチマークの構成 評価に使用されるのは、以下の計120件の高度なタスクです。 ・既存の著名なオープンソース・ベンチマーク(WebBench, Mind2Web, GAIA, BrowseComp)から、検証可能で現実的な100タスクを厳選。 ・iframeの入れ子構造、ドラッグ&ドロップ、特殊なクリック操作など、技術的に特に難易度が高い独自の20タスク。 これらは、多くのモデルで試行され「簡単すぎず、かつ解決可能であること」が確認された精鋭のタスクセットとなっています。 ■LLMによる判定システム(Judge) エージェントがタスクを完遂したかどうかを客観的に判断するために、LLMを「審判」として活用しています。開発チームが200件の...
続きを読む
一部表示