エピソード

  • 株式会社ずんだもん技術室AI放送局 podcast 20251225
    2025/12/24
    youtube版(スライド付き) 関連リンク Gemini Enterprise 徹底解説!Gemini 3 で実現する Agentic AI の企業実装 これまでの生成AI活用は「AIと対話して得た結果を人間が手作業で別のシステムに入力する」という、人間が介在するプロセスが主流でした。しかし、最新モデル「Gemini 3」と組織向けプラットフォーム「Gemini Enterprise」の登場により、AIが自律的に業務を遂行する「Agentic AI(エージェント型AI)」の企業実装が現実のものとなっています。 1. Gemini 3がもたらす技術的進化 Gemini Enterpriseの核となる「Gemini 3」には、エージェントとしての動作を可能にする3つの大きな進化があります。 高度な推論能力と計画立案: 単なる回答生成を超え、複雑なビジネス上の問題に対して「計画」を立てる能力が向上しました。ロングコンテクストとマルチモーダル理解: 100万トークン級の長いコンテキストと、画像・音声・動画を統合的に理解する力により、膨大なマニュアルや会議記録を跨いだ複雑な指示にも対応可能です。ツール使用能力の向上: 外部システムを呼び出す精度と、複数のステップを順序立てて実行する「指示追従性」が大幅に改善されました。これにより「在庫確認後に発注書を作成し、上司に通知する」といった一連のワークフローを完遂できます。 2. 現場主導のAI開発「Agent Designer」 Gemini Enterpriseには、ノーコードでカスタムAIエージェントを構築できる「Agent Designer」が搭載されています。Google WorkspaceやSalesforce、SAPといった既存の基幹システムとシームレスに連携でき、プログラミングの知識がなくても、現場の担当者が自分たちの業務に特化した「デジタル同僚」を作成できます。これにより、特定の部署に閉じた活用ではなく、全社的な「AI開発の民主化」が促進されます。 3. エンタープライズ基準のセキュリティとガバナンス 企業導入において最も重要なセキュリティ面も強化されています。 データの保護: 入力されたデータがGoogleのモデル学習に利用されることはなく、所有権は顧客に帰属します。権限管理の継承: 既存のファイル閲覧権限(ACL)をAIが厳密に引き継ぐため、権限のないデータが回答に含まれるリスクを防ぎます。強固なインフラ: IDプロバイダー(Entra ID等)との連携や、VPCによるネットワーク境界の構築、顧客管理の暗号鍵(CMEK)への対応など、大規模組織の厳しい要求に応える設計となっています。 新人エンジニアへのメッセージ 「メールの下書きをAIに作らせる」といった個人の効率化のフェーズは終わり、これからは「業務プロセスそのものをAIに自律実行させる」設計能力が求められます。Gemini Enterpriseは、そのための強力な土台となります。まずは身近な「システム間の転記作業」などから自動化の可能性を探り、組織全体の働き方をアップデートする一歩を踏み出してみましょう。 引用元: https://note.com/google_gemini/n/nb7be1d6582b6 Agent Skillsを一番かんたんに作る方法(Claude Code + skill-creator) 本記事は、Anthropicが提供するAIツール「Claude Code」において、エージェントの機能を拡張するための標準規格「Agent Skills」を効率的に作成する方法を解説しています。 Agent Skillsとは Agent Skillsは、AIエージェントに特定の専門知識や新しい機能(ツール)を提供するためのフォーマットです。2025年12月にオープンスタンダードとしてリリースされ、Claude Codeだけでなく、CodexやCursorといった他の主要なAI開発ツールでもサポートが進んでいます。これにより、一度作成した「スキル」を異なるAIツール間で再利用できる可能性が広がっています。 「skill-creator」によるスキルの作成 記事では、スキル作成自体をAIにサポートさせるツール「skill-creator」の活用を推奨しています。これを利用することで、以下の2つの方法で簡単にスキルを定義できます。 対話による新規作成: 作成したいスキルの概要を伝えると、AIが詳細をヒアリングしながらスキルを構築してくれます。会話履歴からのスキル化: AIとのやり取りで上手くいったプロセスがある場合、その流れをそのままスキルとして保存できます。これにより、個人のノウハウを再利用可能な資産に変換できます。 管理と...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251224
    2025/12/23
    youtube版(スライド付き) 関連リンク Googles year in review: 8 areas with research breakthroughs in 2025 2025年は、AIが単なる「便利な道具」から、自ら考え、行動し、人間と共に探求する「実用的なエージェント(Utility)」へと進化した、エンジニアにとって非常に刺激的な1年となりました。Googleが発表した8つの主要分野におけるブレイクスルーを、若手エンジニア向けに要約して紹介します。 1. 基盤モデルの飛躍:Gemini 3の登場 2025年の最大の成果は、推論能力と効率性が劇的に向上した「Gemini 3」シリーズのリリースです。最上位の「Gemini 3 Pro」は、人間のような深い思考をテストする複雑なベンチマークで最高スコアを記録しました。特筆すべきは「Gemini 3 Flash」で、前世代のProモデルを凌駕する性能を持ちながら、圧倒的な低遅延と低コストを実現しています。「次世代のFlashは前世代のProを超える」という進化のサイクルが確立されました。 2. 開発体験の変革:エージェント型AIの普及 開発者向けのツールは、コード補完を助ける段階から、開発者と協力してシステムを構築する「エージェント型」へと進化しました。新たな開発支援システム「Google Antigravity」の登場は、AIが自律的にタスクを遂行する新しいソフトウェア開発時代の幕開けを象徴しています。 3. 科学と数学におけるパートナーとしてのAI AIが科学者の「共同研究者」として定着しました。タンパク質構造予測の「AlphaFold」は5周年を迎え、300万人以上の研究者に活用されています。また、Geminiに搭載された「Deep Think」機能は、国際数学オリンピックや競技プログラミング(ICPC)でゴールドメダル級の成績を収め、高度な抽象的推論が可能であることを証明しました。 4. コンピューティングとハードウェアの進化 AIモデルを支えるインフラも進化しています。AIチップの設計自体をAI(AlphaChip)が行う手法により、推論に特化した新型TPU「Ironwood」が開発されました。また、量子コンピューティング分野ではGoogleの研究者がノーベル物理学賞を受賞するなど、実用化に向けた理論と技術の両面で大きな前進がありました。 5. オープンモデル「Gemma 3」と責任ある開発 Googleは、単一のGPUやTPUでも動作する軽量なオープンモデル「Gemma 3」を公開し、誰もが最先端技術に触れられる環境を整えました。同時に、AIが生成した動画や画像の検証機能の強化など、安全性(AI Safety)への取り組みも最優先で行われています。 2025年の動向は、AIを「いかに使いこなすか」だけでなく、AIを「いかにエージェントとしてシステムに組み込むか」が重要になったことを示しています。新人エンジニアの皆さんは、これらの新しいAPIやエージェントの概念をぜひ積極的にキャッチアップしてみてください。 引用元: https://deepmind.google/blog/googles-year-in-review-8-areas-with-research-breakthroughs-in-2025/ GPT-1 から GPT-5.2 まで: LLM の特殊トークン徹底解説【2025年12月最新】 本記事は、大規模言語モデル(LLM)の内部で重要な役割を果たす「特殊トークン」の変遷について、黎明期のGPT-1から最新のGPT-5.2までを技術的に解説したドキュメントです。新人エンジニアの方に向けて、LLMがどのように進化し、どのような仕組みで私たちの意図を汲み取っているのかを解き明かします。 1. 特殊トークンとは何か LLMはテキストを「トークン」という単位に分割して処理しますが、通常の単語以外に「ここから会話開始」「ここで思考を終了」といった制御情報をモデルに伝えるための予約されたトークンが存在します。これが特殊トークンです。 2. トークナイズ方式の基礎知識 モデルが文字を認識する仕組みには、以下の主要な方式があります。 WordPiece: BERT等で採用。単語をサブワードに分解する。BPE (Byte Pair Encoding): GPT系で採用。出現頻度の高い文字の組み合わせを統合する。バイトレベル BPE: GPT-2以降で採用。UTF-8のバイト単位で処理するため、未知語(語彙にない文字)が発生しません。 3. 歴史に見る特殊トークンの進化 黎明期(GPT-1, BERT): 文末を示す<|endoftext|>や、BERTの穴埋め問題用[MASK]など、文章構造を示すシンプルなものでした。チャットの登場(GPT-3.5): 単なる「続きの予測...
    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251223
    2025/12/22
    youtube版(スライド付き) 関連リンク Figmaやめて、AIとコードでUIを作り始めた話 AI Shift社のUI/UXデザイナー後藤氏による、Figmaでのデザイン作業をあえて停止し、AIとコードを駆使してUI構築を行う実験的な取り組みの紹介です。AI Shift Advent Calendar 2025の記事であり、AIエージェント(Claude Code等)が台頭する現代における、新しいフロントエンド開発の形を示唆しています。 背景:デザインが開発のボトルネックに 開発チームがAIを導入して実装速度が飛躍的に向上した結果、従来のFigmaによる手作業でのデザインが追いつかず、デザイナーがチーム全体のボトルネックになるという課題が発生しました。筆者は自身の業務を「探索(リサーチ)」「考案(解決策)」「形にする(UI構築)」に分解。最もコストのかかっていた「形にする」作業をAIに任せることで、本来重要なUXデザイン(探索・考案)に時間を全振りすることを目指しました。 解決策:デザインと実装の境界をなくす 「Figmaでのデザイン」と「フロントエンドの実装」が分断されている構造自体を見直し、AIを活用してStorybook上で直接UIを構築する手法を採用しました。これにより、デザイン案を即座にコードとして動かせるようになり、試行錯誤の回数が劇的に増加しました。 AIを使いこなすための「地図」の整備 AIに丸投げするのではなく、精度と再現性を高めるために以下の材料を整えています。 UXリサーチの共有: ペルソナや価値マップをAIに渡し、判断の評価軸(北極星)を明確にする。ドキュメント構造の整理: docs/配下にプロダクトビジョンやデザインシステムをまとめ、AIと人間が参照する事実を一元化する。厳密なプロンプトテンプレート: コンテキスト、技術・デザイン制約、入出力形式、良い例・悪い例を定義し、AIの迷いをなくす。人間による全体最適: AIが得意な「局所最適(画面単体の作成)」を活かしつつ、人間が「ユーザー体験全体の整合性」を担保する。 新人エンジニアへの示唆 AIは魔法ではなく、「問いが明確であれば、爆速で形にできる増幅器」です。これからの開発では、コードを書く技術だけでなく、「誰の何を解決するためのものか」という背景を言語化し、ドキュメントとして整理する能力が、AIを味方につけるための強力な武器になります。 「デザインと実装を統合する」このアプローチは、エンジニアとデザイナーの垣根を低くし、より本質的な価値提供に集中できる可能性を秘めています。 引用元: https://zenn.dev/aishift/articles/3e211e67e3dc14 LLMのCUDAカーネルを自作しよう! 本記事は、PyTorchの内部で行われているGPU処理(CUDAカーネル)をGPT-2モデルを題材に自作し、LLMの動作原理を深く理解するための技術解説です。新人エンジニアにとっても、ブラックボックスになりがちな「.to(“cuda”)」の先で何が起きているかを知るための優れた入門ガイドとなっています。 まず、開発の基盤となる技術要素が紹介されています。NVIDIA GPUを制御する「CUDA」、C++とPythonを連携させる「pybind11」、そしてC++版PyTorchである「Libtorch」を組み合わせることで、自作の高速な演算処理をPythonから手軽に呼び出せる環境を構築します。 記事の中核は、LLMを構成する各要素の「スクラッチ実装」です。単に数式を実装するだけでなく、学習に不可欠な「誤差逆伝播(バックプロパゲーション)」を実現するために、順伝播(Forward)と逆伝播(Backward)の両方のカーネルを自作しています。主な実装項目は以下の通りです。 Linear層: 行列演算(Matmul)やバイアス加算といった基本演算の実装。活性化関数(GELU): 近似式を用いた高速な計算手法の適用。Dropout: CUDAの標準ライブラリ「cuRAND」を用いた乱数制御による過学習抑制。Layer Norm(DyT): 2025年に発表された最新手法「Dynamic Tanh」を採用。実装の容易さと高いパフォーマンスを両立させています。Attention機構: トークンIDのベクトル変換(Embedding)から、LLMの肝である「Scaled Dot Product Attention」の計算グラフに基づく実装。 さらに、学習を支えるアルゴリズムとして、予測のズレを評価する「CrossEntropyLoss」や、重みを効率的に更新する最適化手法「AdamW」もCUDA...
    続きを読む 一部表示
    1分未満
  • マジカルラブリー☆つむぎのピュアピュアA.I.放送局 podcast 20251222
    2025/12/21
    関連リンク GitHub Copilot Agent Skills 入門 2025年12月18日、GitHub Copilotに新たな拡張機能「Agent Skills」が追加されました。本記事は、この機能が従来のカスタム指示とどう違うのか、そして開発現場でどのように役立つのかを、新人エンジニアの方にも分かりやすく解説しています。 1. Agent Skillsとは何か Agent Skillsは、AIエージェントに「専門知識」や「特定の作業手順」をパッケージ化して提供するためのオープン標準(Open Standard)の仕組みです。 これまでCopilotにプロジェクト固有のルール(例:独自のデプロイ手順やコーディング規約)を教える際は、カスタム指示などに全ての情報を書き込む必要がありました。しかし、情報量が増えるとAIが一度に処理できる情報の限界(コンテキストウィンドウ)を圧迫し、回答の精度が落ちたり動作が重くなったりする課題がありました。Agent Skillsは、必要な時だけ情報を読み込む「オンデマンドな学習」を実現することで、この問題を解決します。 2. 導入の主なメリット コンテキストの効率的な管理: AIが必要と判断した時だけスキルを動的に読み込む(遅延ロード)ため、AIの記憶容量を無駄遣いせず、高いパフォーマンスを維持できます。スキルの自動発見: 所定のディレクトリ(例:.github/skills/)にファイルを配置するだけで、Copilotが「どんなスキルがあるか」を自動で認識し、適切なタイミングで活用してくれます。高い相互運用性: もともとAnthropic社の「Claude Code」で導入された概念が標準化されたものであり、将来的に他のAIツールでも同じスキルファイルを再利用できる可能性があります。ワークフローの標準化: チーム独自の診断スクリプトや複雑な手順を「スキル」として定義しておくことで、誰でもAIのサポートを受けて一貫した作業が可能になります。 3. スキルの仕組みと作り方 スキルは、SKILL.md というファイルを中心としたディレクトリ構成で作成します。 設定(YAMLフロントマター): スキルの名前と「どんな時にこのスキルを使うべきか」という説明を記述します。AIはこの説明を見て、ユーザーの質問に対してどのスキルを起動するかを判断します。内容(Markdown): 具体的な指示や手順を記述します。 VS Codeで使用する場合、設定(settings.json)で chat.useAgentSkills: true を有効にすることで利用可能になります。 4. まとめ Agent Skillsは、AIに「必要な時だけ専門書を開かせる」ような賢い仕組みです。プロジェクト固有の知識を整理して配置するだけで、Copilotがより頼もしい相棒へと進化します。公式のテンプレートなども公開され始めているため、まずは既存のスキルを参考に、自分のプロジェクトを「AIフレンドリー」にアップデートしてみるのがおすすめです。 引用元: https://zenn.dev/openjny/articles/a9d4f6ec2a05c2 仕様書を渡すとテスト観点を抽出してテストケースまで生成する上に使うほど賢くなったらいいなぁ…なAIエージェントをつくったよ 本記事は、LIFULL社のQAエンジニアが開発した、テスト分析からテストケース作成までの工程を劇的に効率化する「AIエージェント」の開発事例を紹介しています。このエージェントは単に生成を行うだけでなく、人間と協調して精度を高め、使えば使うほど組織の知見を蓄積して賢くなる仕組みを備えているのが最大の特徴です。 1. AIエージェントによる5つの動作ステップ エージェントに仕様書を渡すと、以下のプロセスでテスト設計を進めます。 仕様書の理解: 曖昧な表現や矛盾を指摘し、プロダクトのリスクを特定します。テスト観点の抽出: ドメイン知識やテスト技術を駆使して、検証すべきポイントを洗い出します。ユーザーレビュー: 人間が内容を確認し、必要に応じて修正を指示します(最大5回まで)。テストケース生成: JSON形式で構造化されたテストケースを出力します。知識の抽出・保存: 修正内容からナレッジを抽出し、GitHubにプルリクエスト(PR)を出して自身を強化します。 2. 現場で役立つ3つの設計思想 新人エンジニアが開発やQAに携わる際にも非常に参考になる、実用性を高めるための工夫が3つ挙げられています。 ポイント①:いきなり作らず「仕様書の理解」...
    続きを読む 一部表示
    1分未満
  • 私立ずんだもん女学園放送部 podcast 20251219
    2025/12/18
    youtube版(スライド付き) 関連リンク
    • Self-driving infrastructure

    Vercelが提唱する「Self-driving infrastructure (SDI)」は、AIエージェントを活用し、インフラの運用を自動化する概念です。従来のインフラ運用では、開発者がインフラ設定に時間を費やす必要がありましたが、SDIではコードがインフラを定義し、Vercelが自動的にリソースをプロビジョニングします。

    さらに、Vercel Agentがアプリケーションの異常を検知・調査し、根本原因の分析やセキュリティ対策を自動で行います。これにより、運用チームはより高度な課題に集中できるようになります。

    SDIは、本番環境で得られた知見をコードに反映させる「production-to-code feedback loop」を確立し、継続的な改善を実現します。AI時代のアプリケーション運用において、信頼性とパフォーマンスを向上させるための重要なトレンドと言えるでしょう。

    引用元: https://vercel.com/blog/self-driving-infrastructure

    • Findy AI+の開発・運用を支えるMCP活用事例 ― AI Engineering Summit Tokyo 2025登壇レポート

    Findy AI+の開発・運用において、Model Context Protocol (MCP)を活用した事例を紹介。MVP開発時にはリモートMCPサーバーを利用し、画面実装の工数を削減。分析処理をLLM側に任せることで、2人体制で1ヶ月の開発を実現しました。ベータ版ではAdmin機能をローカルMCPサーバーとして実装し、画面UI開発の工数を大幅に削減(約1週間)。MCPにより、LLMや生成AIツールに依存しない柔軟な開発が可能になり、開発効率と保守性の向上に貢献しています。MCPはベンダーロックインを避け、長期的な安定性と互換性を担保する重要な技術として期待されています。

    引用元: https://tech.findy.co.jp/entry/2025/12/18/090000

    • Letta Code: A Memory-First Coding Agent Letta

    Letta Codeは、長期的な学習と記憶に焦点を当てた、モデルに依存しないOSSのコーディングエージェントです。従来のセッションベースではなく、エージェントが過去の経験を蓄積し、継続的に改善される仕組みが特徴です。

    主な機能として、以下の点が挙げられます。

    • Memory Initialization: プロジェクトのコードを解析し、学習を初期化。
    • Skill Learning: 繰り返し行うタスクやパターンを「スキル」として学習し、再利用可能に。
    • Persisted State: 過去の会話履歴を検索可能。

    TerminalBenchでの評価では、Claude CodeやGemini CLIといったモデルベンダー提供のツールと同等のパフォーマンスを示しています。npm install -g @letta-ai/letta-codeでインストールでき、Letta Developer Platformや自社サーバーでの利用が可能です。

    引用元: https://www.letta.com/blog/letta-code

    • Nintendo Switch™『QQQbeats!!!』待望のキャラパック第1弾「キャラクターパック ずんだもん」本日12月18日(木)発売!同日より、無料オンラインアップデートにて楽曲4曲追加!

    『QQQbeats!!!』に人気キャラ「ずんだもん」のDLCが本日発売! 同時アップデートで楽曲も4曲追加。さらに、ゲーム本体のホリデーセールも開催中です。バブルシューティングと音楽ゲームが融合した本作で、ずんだもんのスキルを楽しめます。

    引用元: https://prtimes.jp/main/html/rd/p/000000662.000041970.html

    • お便り投稿フォーム

    VOICEVOX:ずんだもん

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251218
    2025/12/17
    youtube版(スライド付き) 関連リンク
    • Gemini 3 Flash: frontier intelligence built for speed

    Google DeepMindが、高速かつ低コストなAIモデル「Gemini 3 Flash」を発表しました。Gemini 3の性能を維持しつつ、推論速度と効率性を向上させたモデルで、API、Geminiアプリ、Google検索のAIモード、Vertex AI、Gemini Enterpriseなどで利用可能です。

    主な特徴は以下の通りです。

    • 高速性: 2.5 Proモデルと比較して3倍高速。
    • コスト効率: 推論コストを削減。
    • 高い性能: PhDレベルの推論能力を持ち、ベンチマークテストでGemini 3 Proと同等の性能を示す部分も。
    • 多様な利用: コーディング、複雑な分析、インタラクティブなアプリケーションなど、幅広い用途に対応。

    開発者向けには、Google AI Studio、Antigravity、Gemini CLI、Android Studioなどを通じて利用でき、企業向けにはVertex AIとGemini Enterpriseで提供されます。一般ユーザーはGeminiアプリとGoogle検索のAIモードで利用可能です。

    引用元: https://deepmind.google/blog/gemini-3-flash-frontier-intelligence-built-for-speed/

    • RAGの「リランキング」を10倍速くする「MixLM」

    RAGにおける「リランキング」の速度問題を解決する「MixLM」という手法を紹介する記事です。リランキングは精度は高いものの処理速度が遅く、実用上のボトルネックとなることがあります。MixLMは、文書ソースを事前に「リランキング用」にベクトル化し、質問時にそのベクトルと質問文をリランキングモデルに入力することで、従来の10倍以上の高速化を実現します。

    具体的には、通常RAGで使用するベクトルとは別に、Encoder LLMを用いて各チャンクのベクトルを作成・保存しておきます。質問時には、ベクトル検索で絞り込んだチャンクと、事前に作成したリランキング用ベクトルを組み合わせ、リランキングモデルに入力します。これにより、LLMが文章全体を処理する代わりに、圧縮されたベクトルを用いることで高速化を実現しています。

    LinkedInでの求人検索への実装では、Daily Active Usersが0.47%向上する成果が出ています。RAGシステムのパフォーマンス改善に関心のあるエンジニアにとって、MixLMは有効な選択肢となり得るでしょう。

    引用元: https://zenn.dev/knowledgesense/articles/4eb785fd0e9a2b

    • Accelerating Long-Context Inference with Skip Softmax in NVIDIA TensorRT-LLM

    NVIDIA TensorRT-LLMにおけるSkip Softmaxは、LLMの長文コンテキスト処理における計算コスト増大という課題を解決する、新しい疎なアテンション手法です。従来のモデルの再学習は不要で、既存のモデルに組み込むことが可能です。

    Skip Softmaxは、Softmax関数の特性を利用し、重要度の低いアテンションブロックを動的に削減します。具体的には、計算されたlogit値が事前に設定された閾値を超えないブロックの処理を省略することで、メモリ帯域幅と計算量の両方を削減します。

    性能評価では、Llama 3.3 70Bモデルにおいて、デコード時に最大1.36倍、プレフィル時に最大1.4倍の高速化が確認されています。特に、長いコンテキスト長において効果を発揮します。

    精度への影響は、50%程度の疎性化であればほとんど損失がないことが確認されています。TensorRT-LLMに統合されており、Hopper/Blackwell GPUで利用可能です。設定はAPIまたはYAMLファイルを通じて行えます。

    より詳細な情報や今後のアップデートについては、関連ドキュメントを参照ください。

    引用元: https://developer.nvidia.com/blog/accelerating-long-context-inference-with-skip-softmax-in-nvidia-tensorrt-llm/

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251217
    2025/12/16
    youtube版(スライド付き) 関連リンク
    • A Protocol for Agent-Driven Interfaces¶

    A2UIは、AIエージェントがWeb/モバイル/デスクトップで動作するリッチなUIを、コード実行なしに生成するためのプロトコルです。エージェントはUIの構造とデータを記述するA2UIメッセージを送信し、クライアント側はそれをネイティブウィジェットでレンダリングします。

    主な特徴:

    • 安全性: 実行可能なコードを含まず、定義済みのコンポーネントのみを使用するため、UIインジェクション攻撃を防ぎます。
    • LLMとの親和性: ストリーミングJSON形式で、LLMが段階的にUIを構築しやすい設計です。
    • フレームワーク非依存: Angular, Flutter, Reactなど、様々なフレームワークで同じUIを再現できます。
    • プログレッシブレンダリング: UIの更新を逐次的にストリーミングするため、ユーザーはリアルタイムにUI構築を確認できます。

    現在はv0.8のPublic Preview段階で、仕様や実装は進化中です。GitHubで公開されており、コントリビューションも歓迎されています。レストラン検索デモや、ランドスケープアーキテクトデモを通じてA2UIの動作を確認できます。

    引用元: https://a2ui.org/

    • 言語化が下手な人は5つのタイプに分けられる

    本記事は、言語化能力が低い原因を、読解、構造化、表現、整形、タイピングの5つのプロセスに分解し、それぞれの問題点と改善策を解説しています。新人エンジニアが陥りやすい「何を言いたいのか伝わらない」「ドキュメント作成に時間がかかる」といった課題に対し、具体的なチェック方法と改善策が提示されており、自己分析とスキルアップに役立ちます。特に、問題の根本原因を特定することの重要性、そしてトレーニングが有効なのは「伝わらない」という自覚がある場合に限る点が強調されています。組織としては、良いコミュニケーションを評価する文化を醸成し、個人としては、自己診断を通じてボトルネックを特定し、優先順位をつけて改善に取り組むことが推奨されています。LLMを活用する上でも重要なスキルである言語化能力の向上に役立つ内容です。

    引用元: https://note.com/suthio/n/n2555d51f8f1b

    • The new ChatGPT Images is here

    OpenAIがChatGPTの画像生成モデルをアップデートし、より意図通りの編集と高速化を実現しました。特に、画像の細部を保持しつつ、指示に忠実な編集が可能になり、写真の修正やスタイルの変更などが容易になりました。

    今回のアップデートは、ChatGPTの全ユーザーとAPIユーザーで利用可能。APIでは、GPT Image 1.5として提供され、画像入力・出力コストが20%削減されました。ロゴや重要な要素の一貫性を保ちながら編集できるため、マーケティングやECサイトでの利用に適しています。

    さらに、ChatGPTのサイドバーに新しい「Images」機能が追加され、プリセットフィルターやプロンプトを活用することで、より簡単に画像生成を楽しめるようになりました。

    引用元: https://openai.com/index/new-chatgpt-images-is-here

    • お便り投稿フォーム

    (株式会社ずんだもんは架空の登場組織です)

    続きを読む 一部表示
    1分未満
  • 株式会社ずんだもん技術室AI放送局 podcast 20251216
    2025/12/15
    youtube版(スライド付き) 関連リンク Nemotron 3 Nano - A new Standard for Efficient, Open, and Intelligent Agentic Models NVIDIAが、効率性と性能を両立した新しいAIエージェントモデル「Nemotron 3 Nano 30B A3B」を発表しました。このモデルは、1Mトークンという長文脈に対応し、Mamba-Transformer MoEアーキテクチャを採用することで、従来のモデルと比較して最大4倍の高速化を実現しています。 主な特徴として、31.6Bパラメータ、約3.6Bの活性パラメータ、推論速度の向上、高い精度、Reasoning ON/OFF機能、そしてオープンなデータスタックが挙げられます。 学習には、大規模な事前学習、教師ありファインチューニング、そしてRLVR/RLHFといった強化学習技術が用いられています。また、NVIDIAは、RL環境構築を容易にする「NeMo Gym」も公開しており、開発者がより簡単に強化学習を試せるようにしています。 Nemotron 3 Nanoは、エージェント、推論、ツール利用、チャットタスクに最適化されており、Hugging Faceやbuild.nvidia.comなどで利用可能です。モデルの重み、学習レシピ、データセットも公開されており、研究開発を促進します。 引用元: https://huggingface.co/blog/nvidia/nemotron-3-nano-efficient-open-intelligent-models AIエージェント/MCPサーバー実装ガイドを作成しました SIOS Tech Lab SIOS Tech Labが、AIエージェントとMCP(Model Context Protocol)を体系的に学べる実装ガイドを公開しました。このガイドは、AIエージェント開発の基礎から実践までを網羅しており、201ページの大ボリュームです。 対象読者は、AIエージェント/MCPを学ぶ開発者、および関連プロジェクトのPL/PM。基礎理論を図解で分かりやすく解説し、すぐに動くソースコードも提供することで、初心者でもスムーズに学習を進められます。 ガイドは以下の7つの章で構成されています。 AIエージェントの基本概念ReActによるAIエージェント実現Function Callingによる実装MCPの理論と構造シンプルなMCPサーバー実装MCPの認可機能MCP対応AIエージェント実装 このガイドと解説セミナーを活用することで、AIエージェント/MCPサーバー開発をスムーズに進められるでしょう。 引用元: https://tech-lab.sios.jp/archives/50769 ChatGPTの記憶システムはRAGを使っていなかった - 4層アーキテクチャの衝撃 ChatGPTのメモリシステムは、多くのエンジニアが予想していたRAGやベクトルデータベースを使用せず、シンプルな4層構造で高速性を実現しているという調査結果。各層は、セッションメタデータ、長期記憶(最大33個)、最近の会話サマリー、現在のセッションメッセージで構成されます。 RAGの課題(レイテンシ、精度、複雑性)を回避し、全ての記憶をコンテキストに注入する方式を選択。モデルのスケーリングとコンテキストウィンドウ拡大により、速度と効率性を両立しています。OpenAIの哲学は「強力なモデルに大量のコンテキストを渡せば、モデルが不要な情報をフィルタリングする」というもの。 他のAI(Claude, Gemini)と比較すると、ChatGPTは日常会話の記憶継続性に優れる一方、単一会話の情報量ではGeminiに劣ります。セキュリティ面では、悪意のあるコードを記憶に注入される「Memory Injection」攻撃のリスクがあり、対策が必要です。 この設計は、特に日常会話においては、速度と利便性を優先した結果と言えます。今後のAI開発においては、RAGだけでなく、シンプルなコンテキスト注入やSQLベースのメモリエンジンなど、タスクに応じた最適なアプローチを選択することが重要になるでしょう。 引用元: https://zenn.dev/tenormusica/articles/chatgpt-memory-no-rag-2025 【ずんだもん】ずんだもんのマスコットが登場!「もちぴこ」シリーズで顔文字のようなシュールな表情を造形【プライズ】 「ずんだもん」のマスコットが、オンラインクレーンゲームやアミューズメント施設に登場。表情豊かな「もちぴこ」シリーズで、ストラップ紐付きのぬいぐるみを入手できます。 引用元: https://game.boom-app.com/entry/onlinecranegame-news20251215-10 お便り投稿フォーム (株式会社ずんだもんは架空の登場組織です)
    続きを読む 一部表示
    1分未満