エピソード

  • 株式会社ずんだもん技術室AI放送局 podcast 20250402
    2025/04/01
    関連リンク
    • LLMモジュールの普通ではない使い方

    M5Stack社LLMモジュールは、安価な基板単体で音声対話AIを実現する注目の技術です。通常はCoreシリーズと組み合わせて使用しますが、本記事では、モジュール単体でLinuxシステムとして活用する方法を紹介。 モジュール内部のStackFlowシステムを直接制御し、音声入力、キーワード検出、音声認識、LLM、音声合成の各ユニットを初期化。 PythonスクリプトでJSONコマンドを送信し、ウェイクワード検出からの応答を可能にします。 Linux操作に慣れたエンジニアにとって、手軽にLLMモジュールを試せる手法です。今後は、より高性能なSoC搭載ボードで日本語対応も期待されています。

    引用元: https://zenn.dev/fairydevices/articles/8c12677feb3be7

    • Minimize generative AI hallucinations with Amazon Bedrock Automated Reasoning checks Amazon Web Services

    Amazon BedrockのAutomated Reasoning checksは、生成AIの「幻覚」(もっともらしい誤情報生成)を抑制する機能です。これは、論理的推論と数学的検証を用いて、LLM(大規模言語モデル)の出力を検証し、誤りを防ぎます。企業内のルールやガイドラインを形式的な論理構造に変換し、それに基づいてAIの応答をチェックします。 特に重要なのは、この機能が数学的な正確性に基づいて検証を行う点です。AIの応答が企業のポリシーに合致するかどうかを明確に判断できます。 Automated Reasoning checksは、Amazon Bedrock Guardrailsの一部として提供され、コンテンツフィルタリングや個人情報保護などの機能と連携可能です。 企業は、この機能を利用して、AIアプリケーションの信頼性を高め、安全に運用できます。

    引用元: https://aws.amazon.com/blogs/machine-learning/minimize-generative-ai-hallucinations-with-amazon-bedrock-automated-reasoning-checks/

    • AI利用「ガチ実態」調査、誰が何にAIを使っているのか?

    アンソロピックが400万件以上のユーザー会話を分析した調査によると、AI利用の57%が「拡張・増強型」で、人間の仕事を補完する傾向が強いです。 AIが最も利用されているのはプログラミングやテクニカルライティングなどのコンピューター関連業務で、全体の37.2%を占めます。次いでアート、デザイン、エンターテインメント関連が10.3%。 AIは職務全体ではなく、特定のタスクで活用される傾向があり、全職種の約36%で職務タスクの4分の1以上でAIが活用されています。

    引用元: https://www.sbbit.jp/article/cont1/161215

    • ちょっとお堅めの資料作成する時の挿絵、いらすとやでもいいけどいい感じのピクトグラム欲しいなぁ…と思っていたのでAIで生成できるようになって有難い

    資料作成で使えるピクトグラムをAIで生成できるようになったという話題です。これまでは既存の画像生成AIでは難しかったピクトグラム作成が可能になり、透過PNG形式で利用できます。さらに、生成した画像をSVG形式に変換できるツールも紹介されており、資料作成の効率化に繋がりそうです。

    引用元: https://togetter.com/li/2532277

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだどん技術室AI放送局 podcast 20250401
    2025/03/31
    関連リンク
    • Runway Research Introducing Runway Gen-4

    Runway Gen-4は、Runway社の次世代AIモデルで、メディア生成と世界観の一貫性を実現します。これにより、キャラクター、場所、オブジェクトをシーン間で一貫して生成可能になります。参照画像と指示に基づいて、スタイル、主題、場所などを維持した新しい画像や動画を作成でき、クリエイターは追加のトレーニングなしに、物語を自由に表現できます。

    引用元: https://runwayml.com/research/introducing-runway-gen-4

    • ASUS、NVIDIA GB10 Grace Blackwell Superchipを搭載したAIスーパーコンピュータASUS Ascent GX10を発表

    ASUSがNVIDIAの最新GB10 Grace Blackwell Superchipを搭載したAIスパコン「Ascent GX10」を発表。最大1,000 AI TOPSの処理能力と128GBメモリを搭載し、大規模AIモデルの開発を支援します。デスクトップで利用可能で、2台接続でさらに大規模なモデルも扱えます。2025年第2四半期に予約開始予定。

    引用元: https://prtimes.jp/main/html/rd/p/000001444.000017808.html

    • [備忘録] StreamlitでExcelのようなデータ編集機能を実装する

    Streamlitとst.data_editorで、ブラウザ上でExcelのようなデータ編集アプリを簡単に作成する方法を紹介。 環境構築: pip install streamlit pandasでstreamlitとpandasをインストール。 データ編集: st.data_editorでデータフレームをインタラクティブに編集可能に。行の追加・削除、列の編集可否設定、ドロップダウンリストの利用も可能。 CSV連携: CSVファイルのアップロード、編集後のデータダウンロード機能も追加可能。 データ入力フォーム、データクレンジング、小規模DB管理に役立ちます。

    引用元: https://qiita.com/Tadataka_Takahashi/items/90b1924c997b60ca2df4

    • お便り投稿フォーム

    VOICEVOX:ちび式じい

    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250331
    2025/03/30
    関連リンク
    • Vercel AI SDK で MCP クライアントをツールとして利用する

    この記事では、Vercel AI SDKを使って、LLM(大規模言語モデル)に外部ツール連携機能を追加するMCP(Model Context Protocol)クライアントを利用する方法を解説します。MCPはLLMが外部のデータやツールを利用するための共通ルールです。Vercel AI SDKを使うと、MCPクライアントを簡単に組み込めます。Microsoftのplaywright-mcpを例に、Webブラウザ操作ツールをLLMから使えるようにする方法を紹介。SSEを使ってローカルサーバーと通信し、experimental_createMCPClientでクライアントを初期化。mcpClient.tools()でツール定義を取得し、LLMに渡します。使い終わったらmcpClient.close()で接続を閉じることが重要です。Schema Discoveryを使うと、ツール定義を自動で取得できます。

    引用元: https://azukiazusa.dev/blog/vercel-ai-sdk-mcp-client

    • MCPはゲームチェンジャーになるのか

    MCP(Model Context Protocol)は、AIが外部データやツールと安全に連携するための共通プロトコルです。従来のAIは知識が限定的で、外部システムとの連携が難しく、開発コストも高かったのですが、MCPはこれらの課題を解決します。 MCPは、AIをUSB-Cポートのように様々な外部サービスと繋ぎ、データの取得や書き込みを可能にします。Anthropic社が仕様とSDKを公開しており、開発者は自社のデータやサービスをMCPサーバー経由で公開できます。 従来のプラグイン型やフレームワーク型、RAG型のアプローチは部分的な解決に留まっていましたが、MCPはオープンなプロトコルであり、大手AI企業のサポートもあり、業界標準となる可能性があります。 MCPにより、AIは自律的に外部情報を取得し、実世界への働きかけが可能になり、生成AIの可能性を大きく広げると期待されています。

    引用元: https://zenn.dev/eucyt/articles/mcp-server-impact

    • Cline / Roo-Codeにおけるコード理解と新規・保守タスクの現状

    Cline/Roo-Codeは、Tree-sitterとLLMを使い、必要なコードだけを逐次解析するツールです。全体をインデックス化しないため、大規模リポジトリでも動きますが、得意なことと苦手なことがあります。

    得意なのは、単一ファイルや少数のファイルに対する小規模な修正や機能追加です。一方、全体的な依存関係を把握できないため、大規模なリファクタリングやデッドコードの検出は苦手です。

    Clineを効果的に使うには、ドキュメントコメントや依存関係マップを整備し、タスクを細かく分割することが重要です。また、gitログ分析ツールなどと組み合わせることで、より高度なリファクタリングも可能になります。

    新規プロジェクトや小規模なコードベースでは、Clineの強みが活かしやすいでしょう。 Clineは、CursorやWindsurfに比べ、手軽に利用でき、プロンプトを細かく制御できる点が魅力です。

    引用元: https://zenn.dev/tesla/articles/33d196d17bf3bb

    • 保育園のお迎え行ったら「機密情報入ってるので見せられないが、謎の動作をするExcel」の話をされてエスパーデバッグに突入した

    バックエンドエンジニアの筆者が、保育園で先生からExcelの不具合について相談を受けた話。シートが勝手に右にスクロールしてしまう現象に対し、画面が見れない状況で原因を特定しようと試みるも、解決には至らず。他のエンジニアからも様々な原因が寄せられたが、キーボードの故障やExcelの設定ミスなどが考えられる。最終的に、原因特定には実機確認が必要と結論。

    引用元: https://togetter.com/li/2531930

    • お便り投稿フォーム

    VOICEVOX:春日部つむぎ

    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20250328
    2025/03/27
    関連リンク
    • GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

    Gemini-2.0とGPT-4oの画像生成技術は、拡散モデルから自己回帰モデルへの進化、そしてAny-to-Anyモデルという概念の登場によって実現されました。Partiは言語モデルの技術を画像生成に応用し、CM3leonはテキストと画像を双方向に扱えるようにしました。これらの研究が、テキスト、画像、音声を統合的に扱えるAny-to-Anyモデルへと繋がり、Gemini-2.0とGPT-4oが誕生しました。これらのモデルは、異なる種類のデータを統一された表現で処理し、大規模な学習によって高品質な生成を可能にしています。

    引用元: https://zenn.dev/discus0434/articles/gemini-2-0-mm

    • みんなのためのLLMアプリケーション開発環境の構築事例

    この記事は、LLMアプリケーション開発を容易にするための環境構築事例です。LLM開発では、プロンプトとコードの分離、複雑なRAG構成、デプロイの難しさが課題でした。解決策として、(1)プロンプトを共有・実行できるPrompt Storeの開発、(2)Langflowを用いたビジュアルスクリプティングの導入、(3)簡単なデプロイシステムの構築を行いました。Langflowは、GUIでLLMアプリを開発できるツールで、カスタムコンポーネントを追加することで、機能拡張も可能です。これらの取り組みにより、専門家でなくてもLLMアプリを開発・デプロイできる環境が実現し、開発サイクルが大幅に短縮されました。

    引用元: https://techblog.lycorp.co.jp/ja/20250327a

    • まさかの。Androidオープンソースプロジェクト、非公開開発に - すまほん!!

    GoogleがAndroid OSの開発を非公開化。今後は社内ブランチに一本化し、開発プロセスを効率化する狙い。一般ユーザーやアプリ開発者への影響は少ないものの、カスタムROM開発者などプラットフォームをカスタマイズする開発者には影響が出る可能性あり。OSのソースコードはリリース時に公開されるため、完全な非公開化ではない。

    引用元: https://smhn.info/202503-google-aosp

    • ChatGPTに、信じられないほど低品質で今すぐChatGPT有料プランを解約したくなるような画像を頼んだら、ユーモアあふれる画像が出てきた話「林家GPT亭名乗れる」

    ChatGPTに「低品質な画像を」と依頼したところ、予想外にユーモラスな画像が生成され話題になっています。まるで大喜利のようなセンスに、「笑点」を理解しているとの声も。

    引用元: https://togetter.com/li/2530653

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250327
    2025/03/26
    関連リンク
    • Model context protocol (MCP) - OpenAI Agents SDK

    OpenAI Agents SDKにおけるMCP(Model Context Protocol)は、LLM(大規模言語モデル)が外部ツールやデータソースにアクセスするための標準化されたプロトコルです。MCPは、AIアプリケーションにおけるUSB-Cポートのように、LLMと様々なツールを接続する共通のインターフェースを提供します。

    MCPサーバーには、ローカルで動作するstdioサーバーと、URL経由で接続するHTTP over SSEサーバーの2種類があります。Agents SDKでは、MCPServerStdioとMCPServerSseクラスを使ってこれらのサーバーに接続できます。

    MCPサーバーをAgentに追加することで、Agentはサーバーのツールを認識し、必要に応じて呼び出すことができます。list_tools()でツール一覧を取得し、call_tool()でツールを実行します。

    ツールリストはキャッシュすることも可能です。ツールリストが変更されないことが確実な場合に、cache_tools_list=Trueを設定することで、レイテンシを改善できます。キャッシュを無効化する場合は、invalidate_tools_cache()を呼び出します。

    引用元: https://openai.github.io/openai-agents-python/mcp/

    • “「生成AIこんなものか」と諦める前に” 営業AIエージェント開発現場から学ぶLLM品質保証テクニック

    LLMの品質保証は、従来のシステム開発とは異なり、事前の網羅的なテストだけでは不十分です。重要なのは、品質を継続的にモニタリングし、改善していく運用戦略です。 具体的な戦略として、

    1. エラーパターンの言語化と継続的改善
    2. 評価と生成の分離
    3. LLMの逃げ道を作る という3つのポイントを紹介しています。 重要なのは、LLMの限界を理解した上で、課題の検知と対処の仕組みを構築することです。

    引用元: https://tech.algomatic.jp/entry/2025/03/26/182954

    • 中国DeepSeek、非推論モデルで「米国製AI」を凌駕するスコア–OpenAIやGoogleを上回る

    中国のDeepSeek V3が、AIのベンチマークでOpenAIやGoogleを上回り、非推論モデルでトップに。DeepSeek V3はオープンソースで、高速かつ低コストなのが特徴。推論モデルではないため大規模データ向けではないものの、多くのタスクで実用的な点が強みです。中国AI企業がオープンソース戦略で米国に対抗する構図が見えます。

    引用元: https://japan.cnet.com/article/35230944/

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250326
    2025/03/25
    関連リンク
    • 財布を気にしたくないのでローカルLLM(Gemma3)にコードを書かせてみた

    この記事では、ローカルLLMのGemma3を使って、API課金を気にせずコーディングできるか検証しています。LM StudioとClineを使い、Gemma3をVSCodeから利用する環境構築手順を解説。Gemma3 4Bでは簡単なコード生成に手間取ったものの、外部サービスより高速。Gemma3 12Bは正しく動作したが低速。今後のモデル改良に期待しつつ、ローカルLLM活用を検討する価値はあると結論付けています。

    引用元: https://tech.mntsq.co.jp/entry/2025/03/25/102902

    • Microsoft Playwright MCPが切り拓くLLMとブラウザの新たな統合

    Microsoftが開発したPlaywright MCPは、LLMとブラウザを連携させる技術です。従来の画像認識と異なり、ウェブページの構造データを利用し、LLMがウェブ操作を効率的に行えます。テスト自動化、データ収集、顧客サポート、コンテンツ管理などで活用でき、テストコードの自動生成やサイト変更への自動対応を実現します。設定も比較的簡単で、今後の発展も期待されています。

    引用元: https://zenn.dev/kimkiyong/articles/679faf454b0ee0

    • Gemini 2.5: Our most intelligent AI model

    Google DeepMindが最新AIモデルGemini 2.5を発表しました。特に、Gemini 2.5 Pro Experimentalは、思考能力を持ち、複雑な問題解決に特化しています。各種ベンチマークで高い性能を示し、LMArenaのリーダーボードで首位を獲得。推論能力とコーディング能力が向上しており、Google AI StudioとGemini Advancedで利用可能です。近日中にVertex AIでも利用可能になる予定です。開発者はGoogle AI Studioで試すことができます。

    引用元: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20250325
    2025/03/24
    関連リンク
    • 言語モデルの物理学

    MetaのZeyuan Allen-Zhuが提唱する「言語モデルの物理学」は、言語モデルを原理的に理解しようとする研究です。 (1)ウェブデータではなく、コントロールされたデータセットでモデルを訓練し、(2)モデルの内部状態を詳細に分析します。 6本の論文からなる研究では、言語モデルが文法構造を内部で習得し、動的計画法のような処理を行うこと、算数の問題を最短経路で解くこと、間違いに気づき修正できることなどが示されました。 また、知識の貯蔵と抽出は異なり、知識を操作するには思考の連鎖が必要であること、モデルはパラメータあたり約2ビットの情報を記憶できることなどが明らかに。 これらの知見は、より効率的な言語モデルの開発に役立つ可能性があります。

    引用元: https://joisino.hatenablog.com/entry/physics

    • New State-of-the-art Fully Open 3B Language Models — ROCm Blogs

    AMDがInstellaという30億パラメータの言語モデルを発表しました。AMD Instinct MI300X GPUで学習されており、同規模の既存オープンモデルより高性能です。Llama-3.2-3B等のオープンウェイトモデルにも匹敵。モデルウェイト、学習設定、データセット、コードは全て公開。AIコミュニティでの協力と技術革新を促進します。Instellaは、FlashAttention-2、Torch Compile、FSDP等の効率的な学習技術を使用。Instella-3B-Stage1, Instella-3B, Instella-3B-SFT, Instella-3B-Instructの4モデルが公開。

    引用元: https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html

    • ゼロからコーディングエージェントを作るならこんなふうに🛠️

    この記事は、XMLベースのツール定義と実装で、ミニマムなコーディングエージェントを自作する方法を紹介しています。最低限必要なツールは、ListFile、ReadFile、WriteFile、AskQuestion、ExecuteCommand、Completeの6つです。LLMにXML形式でツールを使わせることで、プログラムと会話の融合が実現できます。Go言語での実装例が示されていますが、言語依存はありません。ExecuteCommandの実装では、セキュリティのためユーザーの許可を得るようにしましょう。拡張性を考えるなら、ブラウザ操作ツールやデータベース操作ツールなどを追加すると良いでしょう。

    引用元: https://zenn.dev/minedia/articles/11822c2b509a79

    • 「なぜスパム投稿は内容が雑なのか?」と思ったら、アホな内容に引っかかる選別がコツらしく合理化が進んでいる「悪行にも損益分岐点がある」

    スパム投稿の内容が雑なのは、効率を上げるため。賢い人が引っかかると、質問が多く対応が大変になるので、最初から知識の少ない人だけをターゲットにしている。注意喚起だけでは防げないため、システムレベルでの対策が必要。

    引用元: https://togetter.com/li/2529599

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20250324
    2025/03/23
    関連リンク
    • LLM x Slack x Notion で論文インプットを効率化し、社内ナレッジ蓄積もできるようにした話

    neoAIが、論文インプットの課題を解決するために開発したLLM Botを紹介。論文を読む文化の重要性に対して、情報の多さや読むこと自体のハードルがあった。解決策として、Slackに論文URLを投稿するだけで、要約とQ&Aを自動生成しNotionに蓄積するBotを開発。AWS Lambda、Slack API、Notion APIを使用。導入後、論文インプットのハードルが下がり、情報共有が促進された。

    引用元: https://zenn.dev/neoai/articles/768b65f5655171

    • Cursorを使った文章執筆は、AIファーストな環境整備から始まる

    AIエディタCursorで執筆効率を上げる方法を紹介。重要なのは、(1)ObsidianでMarkdown形式で情報を一元管理、(2)音声入力とAIでの修正、(3)Cursorで情報とAIを連携、の3点。Obsidianを情報集約地とし、CursorのマルチルートワークスペースでObsidianの情報を参照・編集、Gitで履歴管理、iCloudでモバイル連携。AIエージェントが自律的にファイル探索や構造整理を支援。AI活用には、情報の一元化とMarkdown形式での統一が不可欠。

    引用元: https://honeshabri.hatenablog.com/entry/cursor_markdown_ecosystem

    • Next.jsの脆弱性CVE-2025-29927まとめ

    Next.jsに認可バイパスの脆弱性CVE-2025-29927が発見されました。影響を受けるのはNext.js 15.2.2以前、14.2.24以前、11.1.4から13.5.6。対策として、15.2.3または14.2.25以降へアップデートしてください。古いバージョンはアップデートが提供されないため、リバースプロキシでx-middleware-subrequestヘッダーを除去する等の対策が必要です。この脆弱性は、攻撃者が特定のHTTPヘッダーを送信することで、認証を回避し保護されたリソースにアクセスできるものです。アクセスログを監視し、不審なリクエストがないか確認することも推奨します。

    引用元: https://zenn.dev/t3tra/articles/c293410c7daf63

    • 「この断末魔も春を感じるよ」iPhoneじゃないとイジメられると泣き叫ぶ子供に親がGALAXY A25を与える姿をみた話

    携帯ショップ店員が、子供がiPhoneをねだるも親がGALAXY A25を与える場面に遭遇した話。背景には、学生の間でiPhoneが一種のステータスとなっている現状がある。AirDropの利用や、インフルエンサーの影響も大きい。AndroidにもQuick Shareがあるが、iPhoneとの互換性はない。GALAXYのAシリーズはローエンドモデルで、性能が良いものならiPhoneを超えるという意見もある。

    引用元: https://togetter.com/li/2529130

    • お便り投稿フォーム

    VOICEVOX:春日部つむぎ

    続きを読む 一部表示
    1分未満