エピソード

  • 株式会社ずんだもん技術室AI放送局 podcast 20241121
    2024/11/20
    関連リンク 工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた 食べログのメニューデータ入稿業務において、生成AIとOCRを組み合わせたツールを開発し、作業工数を6割削減することに成功しました。従来の手作業によるメニュー情報の入力は、時間と労力を要するものでした。本プロジェクトでは、まずOCR技術を用いてメニュー画像内の文字情報を座標情報と共に取得。その後、生成AIにOCR結果と画像データを渡し、料理名と価格を抽出し、入力フォームへ自動入力するシステムを構築しました。 生成AI単体では精度の問題がありましたが、OCRによる位置情報との連携により、生成AIの出力結果が画像上のどの部分に対応するかを特定できるようになり、精度の向上と確認作業の効率化を実現しました。ツールは、AIによる高速入力と、人による確認・修正作業を組み合わせた設計となっており、AIと人間の強みを活かす仕組みとなっています。 UIについても徹底的に作り込み、ハイライト機能、消し込み機能、入力支援機能などを搭載することで、確認・修正作業を大幅に効率化しました。 開発においては、常に最新技術の動向をウォッチし、GPT-4やClaude 3.5 Sonnetといった生成AIモデルの特性を踏まえた柔軟な方針転換が成功の鍵となりました。 特に、当初はOCRのみを利用する方針でしたが、GPT-4の登場を機に、画像データとOCR結果を組み合わせることで、精度と効率性が大幅に向上しました。また、完全自動化を目指さず、人による確認作業を残すことで、精度の高いデータ入力を実現しました。 本プロジェクトの成功要因は、生成AIだけでなくOCR技術など幅広い技術を組み合わせたこと、ユーザビリティを重視したUIの徹底的な作り込み、そして最新技術への対応と柔軟な方針転換にあります。 この経験から、生成AIの業務活用においては、フルスタックエンジニアのような幅広い技術を持つ人材が不可欠であることが示唆されました。 彼らは、生成AIの特性を理解した上で、様々な技術を駆使し、最適なソリューションを生み出すことができます。 引用元: https://tech-blog.tabelog.com/entry/ai-menu-ocr Agent Protocol: Interoperability for LLM agents LangChainは、様々なエージェントを連携させるマルチエージェントフレームワークLangGraphを発表しました。異なるフレームワークのエージェント間の相互運用性を高めるため、Agent Protocolという共通インターフェースをオープンソース化しました。これは、LLMエージェントを本番環境で運用するために必要な、フレームワークに依存しないAPIを標準化しようとする試みです。 Agent Protocolは、エージェント実行(Runs)、複数ターン実行の整理(Threads)、長期記憶の操作(Store)といった主要なAPIを定義しています。LangGraphだけでなく、AutoGen、OpenAI Assistant API、CrewAI、LlamaIndexなど、他のフレームワークや独自実装のエージェントもこのプロトコルを実装することで、相互運用が可能になります。 さらに、LangGraph Studioのローカル実行環境を提供することで、開発者の利便性を向上させました。以前はMac専用でDockerを使用していましたが、Pythonパッケージとしてインストール可能な、Docker不要のバージョンが提供されています。これは、langgraph-cli を使用してローカルで起動し、Agent Protocolを実装したサーバーとして機能します。これにより、あらゆるプラットフォームでLangGraph Studioを使用し、低レイテンシで効率的なデバッグが可能になります。 また、AutoGenなどの他のフレームワークのエージェントをLangGraphのサブエージェントとして統合する方法や、LangGraph Platformを使用してそれらをデプロイする方法も公開されました。LangGraph Platformを利用することで、水平スケーラブルなインフラストラクチャ、バースト処理のためのタスクキュー、短期記憶と長期記憶のための永続化レイヤーなどのメリットを活用できます。これにより、様々なフレームワークのエージェントを柔軟に組み合わせた、高度なマルチエージェントシステムの構築が可能になります。 本記事では、Agent Protocol の詳細な使用方法や、LangGraph Studio、AutoGenとの...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241120
    2024/11/19
    関連リンク Copilot を世界中のより多くのお客様に提供 – 生活でも仕事でも - News Center Japan マイクロソフトは、AIアシスタント「Copilot」の提供範囲を世界中に拡大しました。Copilotは、仕事と私生活の両方で利用でき、画像作成、メール対応、文章作成支援、会議内容の確認など、様々なタスクを支援します。 今回の発表では、個人向けと組織向けにCopilotの提供オプションが拡大されました。個人向けには、Copilot Proのサブスクリプションが提供され、上位モデルへの優先アクセス、Microsoft 365アプリでのAI機能強化、高度な画像生成・編集機能、Copilot GPT Builderへのアクセスなどが含まれます。Copilot Proは、iOS/Androidアプリでの1ヶ月無料トライアルも提供されます。また、無料のMicrosoft 365 WebアプリでもCopilotが利用可能になります(デスクトップアプリ利用にはMicrosoft 365 PersonalまたはFamilyサブスクリプションが必要)。Copilot GPT Builderを使うと、個々のニーズに合わせたCopilotを作成することもできます。 組織向けには、「Copilot for Microsoft 365」が、様々な規模と業種の企業に提供されます。Word、Excel、PowerPoint、Outlook、Teamsなど、主要なMicrosoft 365アプリと統合されており、ビジネスデータに基づいたカスタマイズも可能です。エンタープライズレベルのセキュリティ、プライバシー、コンプライアンスにも対応しています。既にFortune 100企業の40%がCopilot for Microsoft 365を早期導入プログラムを通じて利用しており、導入ペースは従来のMicrosoft 365スイートよりも速いとのことです。 つまり、今回のアップデートにより、個人ユーザーはより高度なAI機能を気軽に利用できるようになり、企業は業務効率化と生産性向上を図ることが期待できます。Copilotは、様々なデバイスで利用可能で、多言語にも対応しているため、世界中のユーザーにとってより身近な存在となるでしょう。 ただし、デスクトップアプリでのCopilot利用にはMicrosoft 365のサブスクリプションが必要な点に注意が必要です。また、機能の一部は言語やアプリによって制限がある可能性があります。詳細については、マイクロソフトの公式ウェブサイトを参照ください。 引用元: https://news.microsoft.com/ja-jp/2024/03/15/240315-bringing-copilot-to-more-customers-worldwide-across-life-and-work/ 『コードレビューでよくお願いする、コメントの追加のパターン7選』へのコメント この文章は、はてなブックマークに投稿された「コードレビューでよくお願いする、コメントの追加のパターン7選」という記事へのコメントと、その記事への反応をまとめたものです。 記事自体はZennに公開されており、Go言語のコードレビューにおいて、コメントを追加する重要性と具体的なパターン7選を解説しているようです(詳細は不明)。 はてなブックマークのコメント欄では、多くのエンジニアが自身の経験を共有しています。 主な意見としては、 コードだけでは理解できない部分には必ずコメントを追加するべきという意見が多数を占めています。レビューで質問が出た時点で、コードだけでは情報が不足していたと認識すべきとのことです。コメントはコードと同様に管理する必要があるという指摘もあります。コードの修正とコメントの更新がずれると、かえって混乱を招くためです。「コードを見ればわかる」という考えは危険であるという意見も出ています。これは認知バイアスの一種であり、コードの可読性を高め、誰でも理解できるよう努めるべきだとされています。コメントの追加をルール化するのは非推奨です。ルール化によって形式的なコメントが増え、本質的な理解を阻害する可能性があるためです。番号を付けて説明するコメントは、修正時に更新が忘れられがちであるという懸念も示されています。 これらのコメントは、新人エンジニアにとって、コードレビューにおけるコメントの重要性と、質の高いコメントを書くための注意点を知る上で非常に参考になります。 単にコードを動作させるだけでなく、他者にも理解しやすいコードを書くこと、そしてコメントを適切に活用することで、チーム開発における生産性向上に繋がることを示唆しています。 ...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241119
    2024/11/18
    関連リンク Microsoft Seeks to Sort & Simplify its Agentic AI Dev Story – Visual Studio Magazine マイクロソフトは、次世代AI分野で注目を集める「エイジェンティックAI」開発ツールの整理・統合を進めています。エイジェンティックAIとは、単純な質問応答型チャットボットを超え、ユーザーに代わって行動する、より高度で自律的なAIエージェント(パーソナルアシスタント、カスタマーサービス担当者など)を指します。 現在、マイクロソフトは2つの主要なフレームワークを保有しています。一つは研究目的のオープンソースプロジェクトであるAutoGenで、複数エージェントのランタイム技術(autogen-core)を提供します。もう一つは、本番環境向けに設計されたオープンソースの軽量SDKであるSemantic Kernelです。 マイクロソフトは、これらのフレームワークを統合し、開発者体験を向上させる計画です。具体的には、2025年初頭までにAutoGenのマルチエージェントランタイム技術をSemantic Kernelに統合します。これにより、AutoGenを利用している開発者は、企業レベルのサポートが受けられるSemantic Kernelへスムーズに移行できます。 統合後の開発者向け選択肢は以下の通りです。 複雑なエイジェンティックAIを開発する場合: AutoGenを使い続けます。コミュニティサポートのみとなりますが、Semantic Kernelにはない高度な機能を利用できます。企業レベルのサポートが必要な場合: Semantic Kernelを利用します。本番環境向けに設計されており、企業レベルのサポートが提供されます。 Semantic Kernelは、大規模言語モデル(LLM)やデータストアをアプリケーションに統合し、大規模な生成AIソリューションの構築を可能にします。C#、Python、Javaに対応しています。既にエージェントフレームワーク(プレビュー版)も提供しており、単一エージェントと複数エージェントの両方のソリューションを構築できます。 AutoGenは、イベント駆動型で分散型のエイジェンティックアプリケーションの作成とオーケストレーションを簡素化します。複数のLLM、SLM、ツール、高度なマルチエージェント設計パターンをサポートし、複数のエージェントが連携して複雑なタスクを自律的または人間の監視下で実行するシナリオに適しています。C#とPythonに対応しています。 マイクロソフトは、この統合により、開発者はエイジェンティックAIアプリケーション開発において、よりシンプルで効率的な開発環境を得られると期待しています。 新人エンジニアは、プロジェクトの規模や必要とするサポートレベルに応じて、AutoGenとSemantic Kernelのどちらを選択すべきか、注意深く検討する必要があります。 引用元: https://visualstudiomagazine.com/Articles/2024/11/18/Microsoft-Seeks-to-Sort-and-Simplify-its-Agentic-AI-Dev-Story.aspx OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! 本記事は、ulusage社のマルチモーダルAI「MPLUG-DOCOWL2」を紹介しています。これは、高解像度かつマルチページのドキュメントを、従来のOCR技術を用いることなく、効率的かつ高精度に解析する革新的な技術です。 従来のOCRベースのドキュメント解析は、処理速度が遅く、高解像度画像や多ページ文書への対応が困難、計算コストが高いという課題がありました。MPLUG-DOCOWL2はこれらの問題を解決するために開発されました。 MPLUG-DOCOWL2は、以下の3つの主要コンポーネントから構成されています。 高解像度ドキュメントコンプレッサー: クロスアテンションを用いて、高解像度画像を効率的に圧縮し、重要な情報を少ないトークン数(1ページあたり324トークン)で保持します。従来の数千トークンに比べ大幅な計算コスト削減を実現します。 形状適応型クロッピングモジュール: ドキュメントのレイアウトを解析し、重要な部分だけを抽出することで、無駄な情報を排除し、文書構造を維持したまま処理します。複雑なレイアウトの文書にも柔軟に対応可能です。 マルチイメージモデリング: 複数ページにわたる解析結果を統合し、文書全体の文脈を理解します。大規模言語モデル(LLM)を活用することで、質問応答や要約などの高度なタスクにも...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241118
    2024/11/17
    関連リンク This massive upgrade to ChatGPT is coming in January — and its not GPT-5 OpenAIは2025年1月に、ChatGPTの大規模アップグレード版「Operator」をリリース予定です。これはGPT-5ではなく、AIエージェントと呼ばれる新しい技術です。 従来のプログラムとは異なり、AIエージェントは事前に決められた指示に従うのではなく、自ら環境を認識し、情報を処理して意思決定を行い、タスクを実行したり問題を解決したりします。例えば、複雑なコードの生成や旅行の手配などが可能です。 Operatorは、ユーザーに代わって行動を起こせる点が大きな特徴です。例えば、航空券の予約なども自動で行ってくれるようになる可能性があります。当初は開発者向けAPIを通してリサーチプレビューとして公開される予定です。 OpenAI以外にも、Anthropic(Computer Control)、Microsoft、Google(Jarvis)なども同様のAIエージェントの開発を進めており、AIエージェントは今後のAI開発における大きなブレークスルーになると期待されています。 OpenAIがAIエージェント開発に力を入れている背景には、最先端モデルの性能向上における限界と、急増するエネルギー・水資源の消費問題があります。単純な性能向上ではなく、実用性の向上に焦点を当てた開発戦略と言えるでしょう。 Operatorは、Webブラウザを通じて行動を起こせる汎用アシスタントとして、最も実用化に近い段階にあるとのことです。 ’ 引用元: http://businessghana.com/site/news/technology/317968/This-massive-upgrade-to-ChatGPT-is-coming-in-January-%25C3%25A2%25C2%2580%25C2%2594-and-it%25C3%25A2%25C2%2580%25C2%2599s-not-GPT-5 voyage-multimodal-3: all-in-one embedding model for interleaved text, images, and screenshots – Voyage AI VoyageAIは、テキスト、画像、スクリーンショットを同時に処理できる多様なエンベディングモデル「voyage-multimodal-3」を発表しました。これは、テキストと画像の両方を含むドキュメントに対するRAG(Retrieval Augmented Generation)や意味検索を向上させる画期的なモデルです。 既存の多様なエンベディングモデルは、テキストと画像を別々に処理するため、テキストと画像が混在するドキュメント(PDF、スライド、表、図など)のベクトル化が困難でした。しかし、voyage-multimodal-3は、テキストと画像を同時に処理するアーキテクチャを採用することで、複雑なレイアウトのドキュメントでも、テキストと画像の文脈を維持したままベクトル化できます。スクリーンショットからの重要な視覚的特徴(フォントサイズ、テキストの位置、空白など)も捉えるため、複雑な文書解析処理が不要になります。 ベンチマークテストでは、3種類の多様な検索タスク(表/図の検索、ドキュメントスクリーンショットの検索、テキストから写真への検索)において、既存の最先端モデル(OpenAI CLIP large、Cohere multimodal v3など)を平均19.63%上回る精度を達成しました。特に表/図の検索においては、最大40%以上の精度向上を実現しています。これは、CLIP系モデルに見られる「モダリティギャップ」問題(テキストクエリに対して、関連画像よりも関連テキストの方が高い類似度を示す現象)を克服していることを示しています。 テキストのみのデータセットに対しても、既存モデルよりも高い精度を示しました。 voyage-multimodal-3は、スクリーンショットさえあれば、テキストと非構造化データ(PDF、スライド、ウェブページなど)を含むナレッジベースを容易にベクトル化できます。従来必要だった複雑な文書解析パイプラインは不要になります。 本モデルは、現代的なビジョン・ランゲージ・トランスフォーマーに似たアーキテクチャを採用しており、テキストと画像を単一のトランスフォーマーエンコーダ内で直接ベクトル化します。これにより、テキストと画像の情報を統合的な表現として捉えることが可能になります。 現在、最初の2億トークンは無料で利用可能です。サンプルノートブックやドキュメントも公開されていますので、ぜひお試しください。 ’ 引用元: https://blog.voyageai.com/2024/11/12/voyage-multimodal-3/ Gemini AI tells the user to die — the answer appeared out of nowhere when the user asked Googles Gemini for help with his homework Toms Hardware Googleの新...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241115
    2024/11/14
    関連リンク OpenAI reportedly working on AI agent slated for January release OpenAIが開発中のAIエージェント「Operator」が、2025年1月にリリースされる見込みです。Bloombergの報道によると、Operatorはユーザーのコンピュータを制御し、フライト予約やコード作成などのタスクを実行できます。 OpenAIのCEOであるSam Altman氏はRedditのAMA(Ask Me Anything)で、「次の大きなブレークスルーはエージェントだ」と示唆しており、CPOのKevin Weil氏は、ChatGPTがユーザーに最初にメッセージを送信する機能が「2025年の大きなテーマになる」と述べています。既に9月には、ChatGPTがユーザーに先行してメッセージを送信する事例が報告されており、OpenAIは意図しない動作だと説明しましたが、今後の展開を示唆する出来事でした。 現在、AI業界ではAIエージェントの開発が次の大きな課題となっています。MicrosoftはCopilotモデル向けに、企業がカスタマイズしてユーザーの代わりにタスクを実行できるAIエージェントを提供しています。AnthropicもClaudeモデルでユーザーのカーソルを制御してコードを作成できる機能をリリースしており、Googleも同様のツール「Jarvis」の開発を進めていると噂されています。 一方で、BloombergとThe Informationの報道によると、大規模言語モデル(LLM)は開発の壁にぶつかっている可能性も指摘されています。計算能力の向上にも関わらず、モデルの改善は小さく、限界に近づいているという見方です。AI専門家のGary Marcus氏も、2022年にこの壁を予測していました。 Altman氏はAMAで、AGI(Artificial General Intelligence)は「現在のハードウェアで実現可能だ」と述べていますが、OpenAIは現行のLLMのバリエーションを基にした機能の追加に注力しているようです。つまり、現時点では、劇的な進化ではなく、既存モデルの機能強化に重点を置いていると理解できます。 Operatorは、そのような機能強化の一環として期待されているAIエージェントと言えるでしょう。 1月のリリースが予定されているOperatorの具体的な機能や性能、そして今後のAI開発の進展に注目が集まります。 引用元: https://mashable.com/article/openai-reportedly-working-ai-agent-slated-january-release The Gemini app is now available on iPhone GoogleのパーソナルAIアシスタント「Gemini」のiPhoneアプリがリリースされました。App Storeから無料でダウンロード可能です。 このアプリでは、Geminiの機能をよりスムーズに利用できます。主な機能は以下の通りです。 Gemini Liveによる自然な会話: Gemini Liveと自由度の高い会話を楽しめます。インタビュー練習、旅行プランの相談、アイデア出しなど、様々な用途で活用できます。10種類の音声から好みの声を選択することも可能です。現在10以上の言語に対応しており、今後さらに言語が増える予定です。 学習支援機能: あらゆる科目の質問に答え、学習プランの作成、ステップバイステップの学習ガイダンス、知識確認のためのクイズを提供します。複雑な図表を添付して質問することも可能です。 高品質画像生成: 高性能画像生成モデル「Imagen 3」を搭載。テキストの説明から、精細でリアルなAI画像を生成できます。 Googleアプリとの連携: Googleの各種アプリ(YouTube、Googleマップ、Gmail、カレンダーなど)とシームレスに連携し、必要な情報を会話中に取得できます。 Android版とiOS版の両方が利用可能です。Geminiアプリで、メール作成、画像生成、アイデア出しなど、様々なタスクを効率的にこなせるAIアシスタント機能を体験してみてください。 アプリの利用にはインターネット接続が必要です。また、機能の可用性はデバイス、国、言語によって異なる場合があります。詳細については、Googleのサポートページをご確認ください。 引用元: https://blog.google/products/gemini/gemini-iphone-app/ GitHub - Ligo-Biosciences/AlphaFold3: Open source implementation of AlphaFold3 Ligo Biosciencesは、AlphaFold3のオープンソース実装である「AlphaFold3 Open-Source Implementation」を公開しました。これは、バイオ分子構造予測の進歩を目指した進行中の研究プロジェクトです。本リポジトリは、AlphaFold3の忠実で完全にオープンソースな実装をバイオテクノロジーコミュニティ全体が自由に使用...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241114
    2024/11/13
    関連リンク Transcribe, translate, and summarize live streams in your browser with AWS AI and generative AI services Amazon Web Services 本記事は、AWSのAIサービスと生成AIサービスを利用して、ブラウザ上でライブストリームのリアルタイム文字起こし、翻訳、要約を行うChrome拡張機能について説明しています。 世界中で人気が高まっているライブストリームにおいて、言語の壁やアクセシビリティの課題を解決することを目的としています。 この拡張機能は、Amazon Transcribe(音声認識)、Amazon Translate(翻訳)、Amazon Bedrock(生成AI、AnthropicのClaude 3モデルなどを使用)といったAWSサービスを活用しています。 ライブストリームの音声をリアルタイムでテキスト化し、複数の言語に翻訳、さらに要約まで行います。 これにより、騒音環境下でも内容を理解したり、母語ではない言語のライブストリームでも容易に内容を把握したり、重要なポイントを効率的に確認することが可能になります。 システム構成は、Amazon Cognito(認証)、API Gateway、AWS Lambda、Amazon S3などを含むバックエンドと、AWS SDK for JavaScriptおよびAWS Amplify JavaScriptライブラリを用いたフロントエンドのChrome拡張機能で構成されています。 バックエンドはAWS CDKを用いてデプロイされます。 導入手順の概要: 前提条件: Google Chrome、AWSアカウント、Amazon Bedrockへのアクセス権、AWS CLI、AWS CDK、Node.jsとnpmが必要です。バックエンドのデプロイ: GitHubリポジトリからコードをクローンし、AWS CDKを用いて必要なAWSリソース(Cognito、S3、Lambdaなど)を自動的にプロビジョニングします。config.jsonファイルでリージョンや使用するBedrockモデルIDなどを設定します。拡張機能の設定: デプロイ後、CloudFormationの出力値を用いて拡張機能のconfig.jsファイルを設定します。 その後、Chrome拡張機能をインストールし、必要な権限(マイク、画面記録)を付与します。 さらに、Amazon Cognitoユーザープールにユーザーを作成する必要があります。拡張機能の使用: 拡張機能を起動し、ログイン後、ライブストリームのURLを開きます。 設定で言語(自動言語識別も可能)を選択し、「Start recording」で記録を開始します。「Get summary」で要約を取得できます。 制約事項: 翻訳言語は、記録開始前に設定する必要があります。記録開始後に変更することはできません。 また、要約生成には多少の遅延があります。 本記事では、詳細な使用方法やトラブルシューティング、クリーンアップ手順についても説明されていますが、本要約では割愛しています。 詳細な手順については、原文を参照ください。 引用元: https://aws.amazon.com/blogs/machine-learning/transcribe-translate-and-summarize-live-streams-in-your-browser-with-aws-ai-and-generative-ai-services/ OpenAI, Google and Anthropic Are Struggling to Build More Advanced AI OpenAI、Google、Anthropicといった大手AI企業が、より高度なAI開発で困難に直面しているという記事です。 OpenAIが開発中の大規模言語モデル「Orion」は、期待された性能を達成しておらず、コーディング問題への回答精度が不十分でした。これは、十分なトレーニングデータの不足が原因の一つとされています。 Googleの次世代モデル「Gemini」も内部目標を下回っており、Anthropicの「Claude 3.5 Opus」もリリースが遅れています。これらの企業は、高品質なトレーニングデータの枯渇、莫大な開発・運用コスト、そして「大幅な性能向上」というブランドイメージへの期待とのギャップに苦戦しています。 近年、シリコンバレーでは「スケーリング則」に基づき、計算能力、データ量、モデルサイズを増やすことでAI性能が向上するという考え方が主流でした。しかし、今回の事例は、この「スケーリング則」だけでは限界があることを示唆しています。 単純にデータ量を増やすだけでは不十分で、データの質と多様性が重要であると、複数のAI専門家が指摘しています。合成データの活用も試みられていますが、人間によるガイドなしでは高品質なデータの作成は難しいのが現状です。 OpenAI、Google、Anthropicは、モデルのサイズを追求するだけでなく、AIエージェントのような新たな応用分野に注力し始めています。 OpenAI CEOのSam Altmanは、GPT-5の...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241113
    2024/11/12
    関連リンク Gemini is now accessible from the OpenAI Library Googleは、最新のGeminiモデルへのアクセスをOpenAIライブラリとREST API経由で提供開始しました。これにより、Geminiの利用が容易になります。 現時点では、Chat Completions APIとEmbeddings APIがサポートされ、今後数週間から数ヶ月で他のAPIとの互換性も追加される予定です。 Gemini APIの詳細は、Gemini APIドキュメントを参照してください。OpenAIライブラリを使用していない場合は、Gemini APIを直接呼び出すことを推奨しています。 ドキュメントには、Python、TypeScript/JavaScript、RESTを用いたGemini APIの使用方法のコード例が掲載されています。これらの例は、gemini-1.5-flashモデルを使用してチャットボットとやり取りする方法を示しています。 APIパラメータの詳細については、APIリファレンスを参照してください。 Vertex AI Enterpriseのお客様は、OpenAIとの互換性もサポートされています。 簡単に言うと、Googleの強力なAIモデルGeminiが、OpenAIライブラリを通じてより簡単に利用できるようになったということです。 新人エンジニアの方でも、提供されたコード例を参考に、比較的容易にGeminiを自身の開発に活用できるようになっています。 引用元: https://developers.googleblog.com/en/gemini-is-now-accessible-from-the-openai-library/ Top-Tier Open Code Large Language Models OpenCoderは、英語と中国語に対応した、15億パラメータと80億パラメータのベースモデルとチャットモデルを含む、オープンソースで再現可能なコードLLM(大規模言語モデル)ファミリーです。2.5兆トークン(コードデータ90%、コード関連ウェブデータ10%)を用いてゼロから学習されており、最先端のコードLLMと同等の性能を実現しています。 本プロジェクトの大きな特徴は、その透明性と再現性の高さです。モデルの重みと推論コードだけでなく、再現可能なトレーニングデータ、データ処理パイプライン全体、厳格な実験結果、詳細なトレーニングプロトコルも公開されています。これにより、研究者はOpenCoderを基盤として、コードAIの研究開発を容易に進めることができます。 具体的には、以下のリソースが公開されています。 OpenCoder: 複数のコードLLM評価ベンチマークで最先端の性能を達成した、完全にオープンソースのコードLLM。透明性のあるデータ処理パイプラインと再現可能なデータセットを基盤として構築されています。RefineCode: 607種類のプログラミング言語にわたる、9600億トークンからなる高品質で再現可能なコード事前学習コーパス。Instructive Ablation Studies: コードLLMの様々な設計上の選択肢やトレーニング戦略に関する有益な知見を提供することを目的とした、複数の意味のあるアブレーション実験の結果。公開リソース: 最終的なモデルの重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模SFT(Supervised Fine-Tuning)データセット、中間チェックポイントなど。 簡単に言うと、OpenCoderは、高い性能と再現性を両立させた、オープンソースのコード生成AIです。 コードの生成や理解に関する研究開発に役立つだけでなく、その透明性から、LLMの開発手法や学習データの影響などを深く理解するための貴重なリソースとしても活用できます。 新人エンジニアの方にとっても、学習や研究に役立つ優れたツールと言えるでしょう。 公開されているデータやコードを参考に、LLMの仕組みや開発プロセスを学ぶことができます。 引用元: https://opencoder-llm.github.io/ Introducing Prompt Canvas: a Novel UX for Developing Prompts LangChainは、プロンプトエンジニアリングを容易にする新しいツール「Prompt Canvas」を発表しました。これは、AIアプリケーション開発において重要なプロンプト作成を効率化し、最適化するための革新的なユーザーエクスペリエンスを提供するツールです。 従来のプロンプト作成は手作業で行われ、ベストプラクティスに従うための調整に時間がかかりました。Prompt Canvasは、LLM(大規模言語モデル)エージェントと協調的に作業することで、この課題を解決します。 インタラクティブなインターフェースにより、LLMエージェントからのフィードバックを受...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241112
    2024/11/11
    関連リンク Composio’s SWE agent advances open-source on SweBench with a 48.6% score using LangGraph and LangSmith Composio社は、AIエージェント向けのAIネイティブコーディングツールキットを搭載したオープンソースのヘッドレスIDEであるSWE-Kitをリリースしました。SWE-Kitは、コードインテリジェンスのためのLanguage Server Protocol (LSP)と安全なコード実行のための開発コンテナを提供します。さらに、CodeAnalysis、シェルツール、ファイル管理、Gitツールなどの包括的なコーディングツールも備えています。 SWE-Kitの効率性を示すために、LangGraphを使用して完全なソフトウェアエンジニアリング(SWE)エージェントを構築し、SWE Benchでテストを行いました。SWE Benchは、実際のソフトウェアエンジニアリングタスクにおけるコーディングエージェントの有効性を評価するベンチマークで、Django、SymPy、Flask、Scikit-learnなどの一般的なPythonライブラリから2294個のGitHub issueを使用しています。 検証済みのトラック(ソフトウェアエンジニアによってレビューされた500個の問題のサブセット)において、エージェントは243個の問題を解決し、48.60%の精度を達成しました。これは全体で4位、オープンソースカテゴリーでは2位という結果です。 このSWEエージェントは、LangGraphを用いた状態機械として構築されています。LangGraphを使用することで、エージェントの状態をグラフで表現し、効率的で透明性のある状態管理を実現しています。従来のルーターやオーケストレーターエージェントに比べて、隠れた状態を効果的に制御・管理できます。 また、エージェントの非決定論的な性質を考慮し、LangSmithを用いてエージェントのアクションを詳細に監視しています。LangSmithはLangGraphとの高い互換性を持ち、各ステップでのエージェントのアクションを記録することで、ツールの改善に役立てています。 エージェントは、タスクを専門的に分担する3つの専門エージェント(ソフトウェアエンジニアエージェント、CodeAnalyzerエージェント、エディターエージェント)で構成されています。それぞれ、タスクの委任とワークフローの開始・終了、コードベースの分析、ファイルの編集をそれぞれ担当することで、パフォーマンスを向上させています。 ワークフローは、ソフトウェアエンジニア、CodeAnalyzer、エディターの3つのノードと、それぞれのエージェントが使用するツールノードで構成されています。各エージェントは、現在の状態とメッセージ履歴に基づいて、利用可能なツールとタスクを決定します。状態遷移は、メッセージ内の特定のマーカー(”ANALYZE CODE”、”EDIT FILE”、”PATCH COMPLETED”など)によって制御され、ワークフローを効率的かつ予測可能に保ちます。 エージェントの状態管理には、メッセージ履歴、送信者ID、訪問回数を保持するAgentStateオブジェクトを使用しています。これにより、明確なエージェント境界と遷移を維持しながら、隠れた状態の問題を回避しています。 SWE-Kitは、開発者が独自のAIエージェントを簡単に構築できるように設計されており、様々なツール、フレームワーク、LLMを組み合わせて、ワークフローに合わせたカスタムエージェントを作成できます。 将来的には、ソフトウェアエンジニアリング以外にも、CRM、HRM、管理など、様々な現実世界のアプリケーションへの適用を目指しています。 引用元: https://blog.langchain.dev/composio-swekit/ [GPT-4o] 冷蔵庫内の写真から「おすすめレシピ」を受け取ってみました。 DevelopersIO この記事は、クラスメソッドのエンジニアが、冷蔵庫内の写真からGPT-4oを用いてレシピを生成する実験を報告したものです。 以前、マルチモーダルなLLMが存在しなかった1年前にも同様の実験を行っており、その時のブログ記事へのリンクも掲載されています。 今回の実験では、冷蔵庫の中身を撮影した写真をGPT-4oに送り、2段階のプロセスでレシピを生成しています。 まず、prompt_food_enumeration.txtというプロンプトファイルを用いて、写真から食材をリスト化します。このプロンプトは、写真に写っている食品を箇条書きでリストアップするようGPT-4oに指示しており、模型と実物の区別...
    続きを読む 一部表示
    1分未満