株式会社ずんだもん技術室AI放送局

著者: 株式会社ずんだもん技術室AI放送局
  • サマリー

  • AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。
    続きを読む 一部表示

あらすじ・解説

AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。
エピソード
  • 株式会社ずんだもん技術室AI放送局 podcast 20241121
    2024/11/20
    関連リンク 工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた 食べログのメニューデータ入稿業務において、生成AIとOCRを組み合わせたツールを開発し、作業工数を6割削減することに成功しました。従来の手作業によるメニュー情報の入力は、時間と労力を要するものでした。本プロジェクトでは、まずOCR技術を用いてメニュー画像内の文字情報を座標情報と共に取得。その後、生成AIにOCR結果と画像データを渡し、料理名と価格を抽出し、入力フォームへ自動入力するシステムを構築しました。 生成AI単体では精度の問題がありましたが、OCRによる位置情報との連携により、生成AIの出力結果が画像上のどの部分に対応するかを特定できるようになり、精度の向上と確認作業の効率化を実現しました。ツールは、AIによる高速入力と、人による確認・修正作業を組み合わせた設計となっており、AIと人間の強みを活かす仕組みとなっています。 UIについても徹底的に作り込み、ハイライト機能、消し込み機能、入力支援機能などを搭載することで、確認・修正作業を大幅に効率化しました。 開発においては、常に最新技術の動向をウォッチし、GPT-4やClaude 3.5 Sonnetといった生成AIモデルの特性を踏まえた柔軟な方針転換が成功の鍵となりました。 特に、当初はOCRのみを利用する方針でしたが、GPT-4の登場を機に、画像データとOCR結果を組み合わせることで、精度と効率性が大幅に向上しました。また、完全自動化を目指さず、人による確認作業を残すことで、精度の高いデータ入力を実現しました。 本プロジェクトの成功要因は、生成AIだけでなくOCR技術など幅広い技術を組み合わせたこと、ユーザビリティを重視したUIの徹底的な作り込み、そして最新技術への対応と柔軟な方針転換にあります。 この経験から、生成AIの業務活用においては、フルスタックエンジニアのような幅広い技術を持つ人材が不可欠であることが示唆されました。 彼らは、生成AIの特性を理解した上で、様々な技術を駆使し、最適なソリューションを生み出すことができます。 引用元: https://tech-blog.tabelog.com/entry/ai-menu-ocr Agent Protocol: Interoperability for LLM agents LangChainは、様々なエージェントを連携させるマルチエージェントフレームワークLangGraphを発表しました。異なるフレームワークのエージェント間の相互運用性を高めるため、Agent Protocolという共通インターフェースをオープンソース化しました。これは、LLMエージェントを本番環境で運用するために必要な、フレームワークに依存しないAPIを標準化しようとする試みです。 Agent Protocolは、エージェント実行(Runs)、複数ターン実行の整理(Threads)、長期記憶の操作(Store)といった主要なAPIを定義しています。LangGraphだけでなく、AutoGen、OpenAI Assistant API、CrewAI、LlamaIndexなど、他のフレームワークや独自実装のエージェントもこのプロトコルを実装することで、相互運用が可能になります。 さらに、LangGraph Studioのローカル実行環境を提供することで、開発者の利便性を向上させました。以前はMac専用でDockerを使用していましたが、Pythonパッケージとしてインストール可能な、Docker不要のバージョンが提供されています。これは、langgraph-cli を使用してローカルで起動し、Agent Protocolを実装したサーバーとして機能します。これにより、あらゆるプラットフォームでLangGraph Studioを使用し、低レイテンシで効率的なデバッグが可能になります。 また、AutoGenなどの他のフレームワークのエージェントをLangGraphのサブエージェントとして統合する方法や、LangGraph Platformを使用してそれらをデプロイする方法も公開されました。LangGraph Platformを利用することで、水平スケーラブルなインフラストラクチャ、バースト処理のためのタスクキュー、短期記憶と長期記憶のための永続化レイヤーなどのメリットを活用できます。これにより、様々なフレームワークのエージェントを柔軟に組み合わせた、高度なマルチエージェントシステムの構築が可能になります。 本記事では、Agent Protocol の詳細な使用方法や、LangGraph Studio、AutoGenとの...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241120
    2024/11/19
    関連リンク Copilot を世界中のより多くのお客様に提供 – 生活でも仕事でも - News Center Japan マイクロソフトは、AIアシスタント「Copilot」の提供範囲を世界中に拡大しました。Copilotは、仕事と私生活の両方で利用でき、画像作成、メール対応、文章作成支援、会議内容の確認など、様々なタスクを支援します。 今回の発表では、個人向けと組織向けにCopilotの提供オプションが拡大されました。個人向けには、Copilot Proのサブスクリプションが提供され、上位モデルへの優先アクセス、Microsoft 365アプリでのAI機能強化、高度な画像生成・編集機能、Copilot GPT Builderへのアクセスなどが含まれます。Copilot Proは、iOS/Androidアプリでの1ヶ月無料トライアルも提供されます。また、無料のMicrosoft 365 WebアプリでもCopilotが利用可能になります(デスクトップアプリ利用にはMicrosoft 365 PersonalまたはFamilyサブスクリプションが必要)。Copilot GPT Builderを使うと、個々のニーズに合わせたCopilotを作成することもできます。 組織向けには、「Copilot for Microsoft 365」が、様々な規模と業種の企業に提供されます。Word、Excel、PowerPoint、Outlook、Teamsなど、主要なMicrosoft 365アプリと統合されており、ビジネスデータに基づいたカスタマイズも可能です。エンタープライズレベルのセキュリティ、プライバシー、コンプライアンスにも対応しています。既にFortune 100企業の40%がCopilot for Microsoft 365を早期導入プログラムを通じて利用しており、導入ペースは従来のMicrosoft 365スイートよりも速いとのことです。 つまり、今回のアップデートにより、個人ユーザーはより高度なAI機能を気軽に利用できるようになり、企業は業務効率化と生産性向上を図ることが期待できます。Copilotは、様々なデバイスで利用可能で、多言語にも対応しているため、世界中のユーザーにとってより身近な存在となるでしょう。 ただし、デスクトップアプリでのCopilot利用にはMicrosoft 365のサブスクリプションが必要な点に注意が必要です。また、機能の一部は言語やアプリによって制限がある可能性があります。詳細については、マイクロソフトの公式ウェブサイトを参照ください。 引用元: https://news.microsoft.com/ja-jp/2024/03/15/240315-bringing-copilot-to-more-customers-worldwide-across-life-and-work/ 『コードレビューでよくお願いする、コメントの追加のパターン7選』へのコメント この文章は、はてなブックマークに投稿された「コードレビューでよくお願いする、コメントの追加のパターン7選」という記事へのコメントと、その記事への反応をまとめたものです。 記事自体はZennに公開されており、Go言語のコードレビューにおいて、コメントを追加する重要性と具体的なパターン7選を解説しているようです(詳細は不明)。 はてなブックマークのコメント欄では、多くのエンジニアが自身の経験を共有しています。 主な意見としては、 コードだけでは理解できない部分には必ずコメントを追加するべきという意見が多数を占めています。レビューで質問が出た時点で、コードだけでは情報が不足していたと認識すべきとのことです。コメントはコードと同様に管理する必要があるという指摘もあります。コードの修正とコメントの更新がずれると、かえって混乱を招くためです。「コードを見ればわかる」という考えは危険であるという意見も出ています。これは認知バイアスの一種であり、コードの可読性を高め、誰でも理解できるよう努めるべきだとされています。コメントの追加をルール化するのは非推奨です。ルール化によって形式的なコメントが増え、本質的な理解を阻害する可能性があるためです。番号を付けて説明するコメントは、修正時に更新が忘れられがちであるという懸念も示されています。 これらのコメントは、新人エンジニアにとって、コードレビューにおけるコメントの重要性と、質の高いコメントを書くための注意点を知る上で非常に参考になります。 単にコードを動作させるだけでなく、他者にも理解しやすいコードを書くこと、そしてコメントを適切に活用することで、チーム開発における生産性向上に繋がることを示唆しています。 ...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20241119
    2024/11/18
    関連リンク Microsoft Seeks to Sort & Simplify its Agentic AI Dev Story – Visual Studio Magazine マイクロソフトは、次世代AI分野で注目を集める「エイジェンティックAI」開発ツールの整理・統合を進めています。エイジェンティックAIとは、単純な質問応答型チャットボットを超え、ユーザーに代わって行動する、より高度で自律的なAIエージェント(パーソナルアシスタント、カスタマーサービス担当者など)を指します。 現在、マイクロソフトは2つの主要なフレームワークを保有しています。一つは研究目的のオープンソースプロジェクトであるAutoGenで、複数エージェントのランタイム技術(autogen-core)を提供します。もう一つは、本番環境向けに設計されたオープンソースの軽量SDKであるSemantic Kernelです。 マイクロソフトは、これらのフレームワークを統合し、開発者体験を向上させる計画です。具体的には、2025年初頭までにAutoGenのマルチエージェントランタイム技術をSemantic Kernelに統合します。これにより、AutoGenを利用している開発者は、企業レベルのサポートが受けられるSemantic Kernelへスムーズに移行できます。 統合後の開発者向け選択肢は以下の通りです。 複雑なエイジェンティックAIを開発する場合: AutoGenを使い続けます。コミュニティサポートのみとなりますが、Semantic Kernelにはない高度な機能を利用できます。企業レベルのサポートが必要な場合: Semantic Kernelを利用します。本番環境向けに設計されており、企業レベルのサポートが提供されます。 Semantic Kernelは、大規模言語モデル(LLM)やデータストアをアプリケーションに統合し、大規模な生成AIソリューションの構築を可能にします。C#、Python、Javaに対応しています。既にエージェントフレームワーク(プレビュー版)も提供しており、単一エージェントと複数エージェントの両方のソリューションを構築できます。 AutoGenは、イベント駆動型で分散型のエイジェンティックアプリケーションの作成とオーケストレーションを簡素化します。複数のLLM、SLM、ツール、高度なマルチエージェント設計パターンをサポートし、複数のエージェントが連携して複雑なタスクを自律的または人間の監視下で実行するシナリオに適しています。C#とPythonに対応しています。 マイクロソフトは、この統合により、開発者はエイジェンティックAIアプリケーション開発において、よりシンプルで効率的な開発環境を得られると期待しています。 新人エンジニアは、プロジェクトの規模や必要とするサポートレベルに応じて、AutoGenとSemantic Kernelのどちらを選択すべきか、注意深く検討する必要があります。 引用元: https://visualstudiomagazine.com/Articles/2024/11/18/Microsoft-Seeks-to-Sort-and-Simplify-its-Agentic-AI-Dev-Story.aspx OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! 本記事は、ulusage社のマルチモーダルAI「MPLUG-DOCOWL2」を紹介しています。これは、高解像度かつマルチページのドキュメントを、従来のOCR技術を用いることなく、効率的かつ高精度に解析する革新的な技術です。 従来のOCRベースのドキュメント解析は、処理速度が遅く、高解像度画像や多ページ文書への対応が困難、計算コストが高いという課題がありました。MPLUG-DOCOWL2はこれらの問題を解決するために開発されました。 MPLUG-DOCOWL2は、以下の3つの主要コンポーネントから構成されています。 高解像度ドキュメントコンプレッサー: クロスアテンションを用いて、高解像度画像を効率的に圧縮し、重要な情報を少ないトークン数(1ページあたり324トークン)で保持します。従来の数千トークンに比べ大幅な計算コスト削減を実現します。 形状適応型クロッピングモジュール: ドキュメントのレイアウトを解析し、重要な部分だけを抽出することで、無駄な情報を排除し、文書構造を維持したまま処理します。複雑なレイアウトの文書にも柔軟に対応可能です。 マルチイメージモデリング: 複数ページにわたる解析結果を統合し、文書全体の文脈を理解します。大規模言語モデル(LLM)を活用することで、質問応答や要約などの高度なタスクにも...
    続きを読む 一部表示
    1分未満

株式会社ずんだもん技術室AI放送局に寄せられたリスナーの声

カスタマーレビュー:以下のタブを選択することで、他のサイトのレビューをご覧になれます。