関連リンク Transcribe, translate, and summarize live streams in your browser with AWS AI and generative AI services Amazon Web Services 本記事は、AWSのAIサービスと生成AIサービスを利用して、ブラウザ上でライブストリームのリアルタイム文字起こし、翻訳、要約を行うChrome拡張機能について説明しています。 世界中で人気が高まっているライブストリームにおいて、言語の壁やアクセシビリティの課題を解決することを目的としています。 この拡張機能は、Amazon Transcribe(音声認識)、Amazon Translate(翻訳)、Amazon Bedrock(生成AI、AnthropicのClaude 3モデルなどを使用)といったAWSサービスを活用しています。 ライブストリームの音声をリアルタイムでテキスト化し、複数の言語に翻訳、さらに要約まで行います。 これにより、騒音環境下でも内容を理解したり、母語ではない言語のライブストリームでも容易に内容を把握したり、重要なポイントを効率的に確認することが可能になります。 システム構成は、Amazon Cognito(認証)、API Gateway、AWS Lambda、Amazon S3などを含むバックエンドと、AWS SDK for JavaScriptおよびAWS Amplify JavaScriptライブラリを用いたフロントエンドのChrome拡張機能で構成されています。 バックエンドはAWS CDKを用いてデプロイされます。 導入手順の概要: 前提条件: Google Chrome、AWSアカウント、Amazon Bedrockへのアクセス権、AWS CLI、AWS CDK、Node.jsとnpmが必要です。バックエンドのデプロイ: GitHubリポジトリからコードをクローンし、AWS CDKを用いて必要なAWSリソース(Cognito、S3、Lambdaなど)を自動的にプロビジョニングします。config.jsonファイルでリージョンや使用するBedrockモデルIDなどを設定します。拡張機能の設定: デプロイ後、CloudFormationの出力値を用いて拡張機能のconfig.jsファイルを設定します。 その後、Chrome拡張機能をインストールし、必要な権限(マイク、画面記録)を付与します。 さらに、Amazon Cognitoユーザープールにユーザーを作成する必要があります。拡張機能の使用: 拡張機能を起動し、ログイン後、ライブストリームのURLを開きます。 設定で言語(自動言語識別も可能)を選択し、「Start recording」で記録を開始します。「Get summary」で要約を取得できます。 制約事項: 翻訳言語は、記録開始前に設定する必要があります。記録開始後に変更することはできません。 また、要約生成には多少の遅延があります。 本記事では、詳細な使用方法やトラブルシューティング、クリーンアップ手順についても説明されていますが、本要約では割愛しています。 詳細な手順については、原文を参照ください。 引用元: https://aws.amazon.com/blogs/machine-learning/transcribe-translate-and-summarize-live-streams-in-your-browser-with-aws-ai-and-generative-ai-services/ OpenAI, Google and Anthropic Are Struggling to Build More Advanced AI OpenAI、Google、Anthropicといった大手AI企業が、より高度なAI開発で困難に直面しているという記事です。 OpenAIが開発中の大規模言語モデル「Orion」は、期待された性能を達成しておらず、コーディング問題への回答精度が不十分でした。これは、十分なトレーニングデータの不足が原因の一つとされています。 Googleの次世代モデル「Gemini」も内部目標を下回っており、Anthropicの「Claude 3.5 Opus」もリリースが遅れています。これらの企業は、高品質なトレーニングデータの枯渇、莫大な開発・運用コスト、そして「大幅な性能向上」というブランドイメージへの期待とのギャップに苦戦しています。 近年、シリコンバレーでは「スケーリング則」に基づき、計算能力、データ量、モデルサイズを増やすことでAI性能が向上するという考え方が主流でした。しかし、今回の事例は、この「スケーリング則」だけでは限界があることを示唆しています。 単純にデータ量を増やすだけでは不十分で、データの質と多様性が重要であると、複数のAI専門家が指摘しています。合成データの活用も試みられていますが、人間によるガイドなしでは高品質なデータの作成は難しいのが現状です。 OpenAI、Google、Anthropicは、モデルのサイズを追求するだけでなく、AIエージェントのような新たな応用分野に注力し始めています。 OpenAI CEOのSam Altmanは、GPT-5の...
続きを読む
一部表示