Amazon BedrockでRAGを構築して自社のことを聞いてみた

2024年8月19日

こんにちは。DevRelチームのmoriとhirokiです。
DevRelメンバーが生成AIに興味があって、試してみたいねーと話していたところ良い記事を見つけたので参考に構築してみることにしました！

先日の「Gartner、「日本における未来志向型インフラ・テクノロジのハイプ・サイクル：2024年」を発表」の記事でも「RAG」は過度な期待のピーク期に位置付けた今注目の技術として取り上げられてました。

今回はタイトルにあります通り、Amazon Bedrockを使用してRAGを構築してみましたのでその過程をブログに残します。

いきなり難しいことも出来ないので、簡単なところで自社の情報を取り込んでそれに関する質問をして回答が返ってくるよねって検証をしてみました。

参考にしたサイト

Amazon BedrockのKnowledge baseで簡単にRAGを構築 - Taste of Tech Topics

ポトフがおいしい季節ですね、菅野です。 Amazon BedrockのKnowledge baseがGAとなり、Amazon BedrockでもRAGが作成できるようになりました。 docs.aws. ...

acro-engineer.hatenablog.com

参考にさせていただきました。ありがとうございます。

利用するデータ

今回は自社で作成した会社紹介のPDFファイルを使用してみます。
中身は30P近くあるので全ては載せられないので、参考に何枚か貼ります。

いざ構築！

まずは準備でS3バケットを作成

今回は生成AIに取り込む情報をS3に置くのでS3バケットを作成していきます。

リージョンは「us-east-1(バージニア北部)」で作ります。

その他の設定はデフォルトのままで作成しました。

こちらのバケットに会社紹介のPDFをアップロードしておきます。

次にAmazon Bedrockを構築してみます

モデルアクセス管理を設定

Amazon Bedrockのページを開いて、使用を開始をクリック

モデルアクセスを管理をクリック

すでにアクセス付与を設定していますが今回使った「Titan Embeddings G1 - Text」と「Titan Text G1 - Premier」にアクセス権を付与しておきます。

ナレッジベースを作成

左メニューのナレッジベースをクリック

ナレッジベースを作成をクリック

ナレッジベース名を入力、IAM許可で新しいサービスロースを作成して使用を選択してサービスロール名を入力します。

データソースはS3を選択して次へをクリックします。

データソース名を入力し、S3を先程作成したバケットを指定して次へをクリックします。
その他の設定はデフォルトのままにしています。

埋め込みモデルに先程アクセス権限を許可した「Titan Embeddings G1 - Text v1.2」を選択し、次へをクリックします。
その他の設定はデフォルトのままにしてます。

内容を確認して「ナレッジベースを作成」をクリックします。

作成までにある程度時間がかかりました。

作成が完了すると、ナレッジベースの詳細が表示されるページに飛びます。

これで構築は完了です！

質問してみる

作成が完了すると下記の画面になりますのでモデルを選択します。

Titan Text G1 - Premierを選択して適用をクリックします。

「One or more data sources have not been synced.」と表示されているのでデータソースを同期します。

同期が完了すると「ナレッジベースをテスト」の箇所のメッセージ入力ができるようになるので、自社の事を質問してみます。

こんな感じでちゃんと答えてくれますね。

というところで今回はここまで。

他にもいくつか質問してみましたが、期待した答えが返ってこない場合も多々ありました。
おそらく準備したデータの問題、チャンクサイズをはじめとしたパラメータの設定など調整が必要であると思いました。

次は効率の良いデータの作成・チューニング方法を学んでより正確な回答を導き出せるようにしてみたいですね。

おまけ

今回の検証にかかったコストは下記の通りでした。
検証の数時間と数M程度のデータでしたので少額で試すことができました。
OpenSearch Serviceはナレッジベースのベクトルデータベースに利用されますが、データ量によっては高額になりそうなのでご注意ください。

AWS SAMでarm64アーキテクチャのLambda Functionを作成する

こんにちはエンジニアの sakasai です。少し前から、休みの日にちょっと遠出したら行った場所の道の駅やサービスエリアでご当地の味噌を買ってくることにはまってます。今は福島の味噌を使ってます。味噌汁大好き　・というわけでみんな大好きAWS SAMの記事です。　先日、AWS LambdaでGraviton2が使えるようになりました。 https://aws.amazon.com/jp/blogs/news/aws-lambda-functions-powered-by-aws-gravit ...

AWS

2021/3/16

AWS Amplify Consoleで静的ウェブページをホスティングする

こんにちは、エンジニアの sakasai です。今年のπの日（2021−3−14）で Amazon S3が15周年ということでイベントが開催されてますね。 S3にはいつもお世話になってます。さて、前回の記事でOpenAPIのyamlファイルをhtmlに変換するやり方を紹介したのですが、今回はそのhtmlを公開するために、AWSのサービスの一つの Amplify Console を使って、htmlのホスティングをやってみました。まず準備としてGitHubにリポジトリを作成し、前回使用したyam ...

AWS

2021/2/23

AWS Nyantech #2 に参加しました

みなさんネコ吸ってますか？こんにちは、エンジニアのsakasaiです。 2/22（ネコの日）に開催されたAWS Nyantech #2に参加しましたので感想などを書きたいと思います。開催概要ハンズオン資料補足資料など AWS Nyantech はにゃんで生まれたの？今回は「たくさんの写真の中からうちの子（猫）をみつけよう！」というテーマでAWSのサービスを使ったハンズオンを行いました。使用したサービスはAmazon SageMakerのノートブックインスタンスとAmazon Elasticse ...

開発者ブログ

2018/4/7

SpringBoot2.0.0でDoma2を利用する

はじめましてはじめまして。 IT技術職やってる傍らブログなど今まで書いてなかったのですが、なんのきっかけか、やらせていただくことになりました。今日はSpring Boot(2.0.0.RELEASE)で Doma2(2.19.2)を利用するというお話です。 Doma2、2waySQLをかけるから色々便利だとおもってます。下準備 SPRING INITIALIZRで、以下の様なプロジェクトをダウンロードしておき、 IDEにインポートします。 https://start.spring.io/ Pom.x ...

AWS

2021/3/12

Amazon Connectを使ったお手軽コールセンターのデモのご紹介

こんにちは、エンジニアの mori です。少し前になりまりますが、Amazon Connectのお手軽コールセンターのサンプルデモを作ってみたのでご紹介いたします。緊急事態宣言の発令などもあり、新型コロナウィルスの感染予防のためにテレワークへのスムーズな切り替えを求められていますね。電話対応が多い業務では、全スタッフに対して携帯電話を用意するのはコスト・期間ともにハードルが高い場合があります。Amazon Connectを導入することで、PC上での電話（ソフトフォン）の受発信を可能にすることで、テレ ...

ookami.inc 本社への訪問日記

TOPVOICEに紹介記事を追加しました。（Plastant株式会社様 )

Amazon BedrockでRAGを構築して自社のことを聞いてみた

参考にしたサイト

利用するデータ

いざ構築！

まずは準備でS3バケットを作成

次にAmazon Bedrockを構築してみます

モデルアクセス管理を設定

ナレッジベースを作成

質問してみる

おまけ

Recruit

TopVoiceに紹介記事を追加しました（BVEATS株式会社様)

TopVoiceに紹介記事を追加しました（GROOVE X株式会社様)

Slack/Mattermostで使える絵文字を無料でダウンロード - 2025年2月

経営者インタビューサイト「TopVoice」に新たな検索機能が追加！読みたい記事がさらに探しやすく

Slack/Mattermostで使える絵文字を無料でダウンロード - 2025年1月