各種手順

ワークスペースの構築

  • AWS marketplaceから、DatabricksのFree trialを開始
  • marketplaceのsubscription→Databricks契約欄→製品をセットアップする
    • AWS permissionで必要な権限を確認する
    • Databricks accountをリンクする
      • Create accountボタンを押せば、Databricks画面が開くので、ログインor登録する
    • Nextボタンを押す
    • Regionおよび各種リソースの名前を設定する
      • リージョン: ap-northeast-1
      • S3 bucket for workspace storage: デフォルトのランダム文字列
      • Cross account IAM role for access to workspace storage: デフォルトのランダム文字列
      • Cross-account IAM role for compute access: デフォルトのランダム文字列
      • Connect an existing S3 Bucket to your new workspace (optional): 未指定
    • Acknowledgementで付与する権限の内容を確認し、チェックボックスにチェック
    • Nextボタンを押す
    • 表示内容を確認し、Launchを押す
      • 各種リソースの名前が、全世界で唯一でないと、Launchに失敗する
      • Launchに失敗した場合、Cloud Formationのイベントログを見てみる
    • 完了後、Open your workspaceボタンが表示されるので、クリック
    • Databricksへログイン完了

データの取り扱い

  • 適当なバケットXを作成して、適当なCSVファイルをアップロードしておく
  • Catalogメニューから、External Locationを作成する
    • バケットXのURLを指定して、ダイアログを進める
    • 最後にCloudformationのStack作成画面が出てくるので、Stack作成を実行する
    • Stackの構築が完了次第、DatabricksのExternalData一覧に新しいアイテムが出現する
  • さっき作ったExternalLocationの権限を確認する
  • External Location一覧から、作成したLocationを開き、BrowseからCreate tableボタンを押す
    • さっき上げたCSVを選択する
    • Create tableボタンを押す
    • 「パスが存在しません」エラー出る場合は、External Locationを作りなおす
  • SQL Editorから、さっきあげたCSVにアクセスできる
    • Serverlessだと権限不足でなぜかアクセスできないので、Serverless Starter Warehouseを使う必要がある

各用語の調査

  • アカウント
    • 1アカウント=1契約
    • アカウントには、複数のユーザーを登録できる
  • ユーザー
    • 1個人を表す
  • ワークスペース
    • 作業部屋
    • 複数のユーザーをワークスペースに招待できる

AIの活用

  • スキーマ定義をちゃんとすれば、AIが非常に強力に働いてくれる!

Ref

2026/02/01

  • 経験より
  • Geminiとの会話より