ちゅらデータ株式会社のフィードのフィード

ちゅらデータ株式会社のフィード

沖縄に「最高に面白い仕事」を作る IT ベンチャーです！エンジニア積極採用中！！

フィード

ちゅらデータ株式会社のフィード

1. Snowflake Cortex Code の課金形態Snowflake Cortex Code がGAになったので、課金形態について調査しました。2026/2/1時点の Snowflake Service Consumption Table ではAI機能の課金形態について、次のように記載されています。AI 機能（AI Features）Snowflake は、Snowflake 管理下のコンピュートリソース上で動作する人工知能機能（以下「Snowflake AI 機能」）も提供しています。Snowflake AI 機能の料金は、表 6 に定めるレートに基づいて請求さ...

25日前

（2026年1月30日号）データエンジニアリングユニオン通信 Season2 #15

ちゅらデータ株式会社のフィード

がく＠ちゅらデータエンジニアです。こんばんわ！なんとかブログ更新頻度は保ててるかな・・・保ててるよね！1月がもう終わった・・・・なんか時がすぎるの早すぎん？？？データエンジニアリングユニオンとは（テンプレ）隔週金曜日の12時〜13時で、データエンジニアリングのTOPICSを扱ったデータエンジニアリングユニオン Season2 を開催しています。告知は、主にSnowVillage（SnowflakeのユーザコミュニティのSlack）にて告知しています。※現時点ではYoutubeなどでの公開はしていません今回は、運営陣が都合がつかなかったので、メインMCは私。臨時にち...

1ヶ月前

FrostyFriday Week84 Basic - Staging

ちゅらデータ株式会社のフィード

がく＠ちゅらデータエンジニアです。こんばんわっ！さて、久しぶりにFrosty Friday Live Challange で、チャレンジしてきました。ちゃんとチャレンジしないとねーテックセラピーなんですよ、奥さんテックセラピー！聞いたことある？え、ない？？？普段触らない技術をさ、こういう場がないとやらないわけ！やったら楽しいわけ！それがテックセラピーなの！と小芝居はここまでにして、チャレンジをしていきたいと思います。 Week84 - Basic Staginghttps://frostyfriday.org/blog/2024/03/08/week-84-bas...

1ヶ月前

【25日目】Databricks Advent Calendar 2025 総まとめ〜Databricksの発展的トピックを添えて〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！ついに25日目、最終日のブログとなります。ここまで読んでくださった皆さん、本当にありがとうございます！今年(と言いつつ2026年になってしまったので正確には去年)のアドベントカレンダーでは、Databricksの基礎から、データエンジニアリング、AI/ML、運用、そしてMLOps まで、公式ドキュメントをメインとして広く整理してきました。今日はその総まとめとして、Day1〜Day24を「学びのロードマップ」として振り返り、さらに少しだけDatabricksの発展的領域を紹介します。それでは最終日もいってみましょう！ 🎯 Databric...

1ヶ月前

【24日目】MLOps パイプラインの構築〜モデルを育て、届け、改善し続ける仕組みを Databricks で実現する〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！Day23では Delta Sharing を通して、Databricksが安全に“外へ共有する力”を持っていることを整理しました。そして今日のDay24は、モデルを作る → 提供する → 監視する → 改善するというサイクルを自動で回す「MLOps」の世界へ踏み込みます。DatabricksではMLflowを中心にModel Serving、Monitoring、CI/CD、Jobs(Lakeflow)といった仕組みが連携し、継続的で高品質なモデル運用を支える強力なプラットフォームが整っています。本日はこれらを整理していきます！ 🧭...

1ヶ月前

【23日目】Delta Sharing を使った安全なデータ共有〜コピーせず、統制された“共有”を実現する〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！Day22ではUnity Catalogを使ったデータセキュリティとコンプライアンスについて整理しました。今日のDay23はそのセキュリティ基盤を活かして “外部にデータを安全に共有する” 技術であるDelta Sharing について整理していきます！Databricksではクラウドが異なっていても、Databricks以外のツールでも、同じデータをセキュアに参照できるという非常に強力な仕組みが提供されています。それでは早速見ていきましょう！ 🔍 Delta Sharingとは？Databricks公式(Delta Sharing...

1ヶ月前

【22日目】データセキュリティとコンプライアンス〜 Unity Catalog で「安全にデータを扱う」基盤づくり〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！前回のDay21では Databricks のコスト管理を学び、「効率良く運用するための基盤」について整理してきました。そして今日Day22のテーマは、運用におけるもう1本の柱について整理していきましょう。 🛡️ データセキュリティとコンプライアンスDatabricksではデータをどう守り、どう管理するのか。特に企業でDatabricksを使う場合、セキュリティは “最初に設計しておくべき” とても重要な領域です。Databricksでは Unity Catalog が中心となり、データ・AI・メタデータを一元的に管理できる仕組みを提供...

1ヶ月前

【21日目】Databricks のコスト管理とリソース最適化〜 “意図して安くする” 技術を身につけよう〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！ここまでのDay1〜20では、レイクハウス基盤の基礎から、生成AIアプリ・MLOpsまで一通り整理してきました。そして本日Day21からは、Databricksを実務で使う上で避けて通れない「運用フェーズ」について整理していきます。本日はお金の話です。 💰 コスト管理とリソース最適化Databricksは非常に強力なプラットフォームですが、“適切に設計しないとコストが膨らむ” という特性も持ちます。そこで今日は、以下のポイントをしっかり押さえていきます。コスト構造をまず正しく理解SQL Warehouse / Cluster / ...

1ヶ月前

【20日目】Prompt Engineering 入門〜 LLM の回答品質を最大化する技術〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日は Prompt Engineering（プロンプトエンジニアリング）を扱います。LLMの性能はモデルそのものだけでなく、「どんなプロンプトを渡すか」で大きく変わります。プロンプトは、モデルに渡す“設計図”のようなものです。この設計図が良ければ、モデルはより正確で一貫性のある回答を返せるようになります。 🤔 なぜプロンプトが重要なのか？プロンプトが曖昧だと、モデルは意図を正確に理解できません。回答内容の粒度がバラバラ論理的な説明にならない条件が反映されていない人によって質が変わる(属人化)などが起き、運用上の問題にな...

1ヶ月前

【19日目】Inference Tables 〜 LLM/MLモデルを“運用できる状態”にするための推論ログ基盤〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日は Inference Tables（推論ログの構造化）を扱います。Day17の内容でモデルを作り、Day18の内容でLangChain/RAGのようなアプリが構築できるようになると、次に必ず登場する課題がこちらです。 ❓「モデルがどう使われているのか、分からない問題」推論ログがないと、こんな悩みが生まれます。どんな入力が来ているの？モデルは何を返している？異常なデータは混ざっていない？精度が落ちてきていない？エラーやタイムアウトは？どのバージョンのモデルが使われた？これらが把握できないと、モデル運用（MLOps / ...

1ヶ月前

【18日目】LangChain / LlamaIndex × Databricks 〜 LLM エージェントを実用化するための最速入門〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日はLLMアプリをDatabricks上で本番運用していくために欠かせない、LangChain/LlamaIndexとDatabricksの連携について整理します。Day16のRAG、Day17のFine-tuningを経て、いよいよ「アプリとして動く LLM」を作る話に入ります。しかし、初学者からすると次のような疑問が生まれがちです。LangChainとLlamaIndexは何が違うの？Databricksとどうつながるの？Vector SearchやModel Servingはどう使う？エージェントはどんな仕組みで動く？本...

1ヶ月前

（2026年1月16日号）データエンジニアリングユニオン Season2 #14

ちゅらデータ株式会社のフィード

がく＠ちゅらデータエンジニアです。こんばんわっ！今年はブログ執筆頻度を上げていくぞーーと年始に目標を立てたので、貪欲にブログ化していこうと思います。データエンジニアリングユニオンとは隔週金曜日の12時〜13時で、データエンジニアリングのTOPICSを扱ったデータエンジニアリングユニオン Season2 を開催しています。告知は、主にSnowVillage（SnowflakeのユーザコミュニティのSlack）にて告知しています。※現時点ではYoutubeなどでの公開はしていません運営は、私、Sakatokuさん、あれさん、児玉さんでやっています。ちゅらデータ社内のデ...

1ヶ月前

【17日目】LLM ファインチューニング入門〜 Foundation Model Training と LoRA で賢く・軽くモデルを育て

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日は生成AIフェーズの中でも技術的な山場となる LLM（大規模言語モデル）のファインチューニングを扱います。Databricksでは買収したMosaicMLの技術や知見も取り込みつつ、現在は「Foundation Model Training」としてLLMファインチューニング機能を提供しています。本日は、次のポイントを押さえます。LLMファインチューニングとは何者か？なぜ「全部学習し直す」のではなくLoRAのような手法を使うのか？Databricksの Foundation Model Training（Fine-tune Run）...

1ヶ月前

【Snowflake BUILD 2025】Interactive Table & WarehouseによるSub-Second分析

ちゅらデータ株式会社のフィード

がく＠ちゅらデータエンジニアです！ご無沙汰です・・・・すっかり筆が湿っておりました。ほんと全然書いていない・・・・昨年はアドベントカレンダーもたった一本・・・いかんぞ、いかんぞ。自分！！！概要先日、こんなリリースが出ていましたhttps://docs.snowflake.com/en/release-notes/2025/other/2025-11-04-interactive-tables-and-interactive-warehousesインタラクティブテーブル？？？？？？なんぞ？？？？？？https://www.snowflake.com/build-j...

1ヶ月前

【16日目】RAG（検索拡張生成）入門〜 Embeddings と Vector Search で “本当に使える生成AI” を作る〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！今日は生成AI分野の中でも重要なテーマ、 RAG（Retrieval-Augmented Generation：検索拡張生成）を扱います。ChatGPTなどのLLMは非常に便利ですが、次の弱点があります。手元の文書(社内資料・製品マニュアル)を知らない学習後に追加された情報を反映できない幻覚(hallucination)が起きるそこで役立つのが RAG です。 🧭 RAG とは何か？RAGは、「外部の知識（文書）を検索し、その情報を LLM に渡して回答を生成する仕組み」です。LLMが“知らない情報”を、検索によって補...

1ヶ月前

【15日目】Databricks Model Serving 入門〜 MLflowモデルを本番で動かすまでの流れを理解する〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日はいよいよモデルを本番提供する工程である Model Serving（リアルタイム推論）を扱います。Day13ではMLflowによって “モデルがどう記録されるか”を整理し、Day14では Feature Storeによる “特徴量管理の一貫性” を整理してきました。そしてDay15では、そのモデルを実際にAPIとして提供する方法を整理します。 🎯 なぜ「Serving」が必要なのか？モデルを作っただけでは、価値はユーザーに届きません。ビジネスでモデルが実際に使われる場面は次のようなものです。ECサイトのレコメンド不正検知...

2ヶ月前

【14日目】Feature Storeで特徴量管理をはじめよう〜機械学習の再現性と精度を支える基盤〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日は機械学習ワークフローの中でも重要度が高い特徴量の管理（Feature Engineering / Feature Store）を扱います。モデルの精度は、特に構造化データを扱う機械学習ではアルゴリズムよりも「どんな特徴量を使うか」で大きく左右されます。ところが、この“特徴量”は次のような性質を持っています。Notebookに散らばりがち人によって書き方がバラバラ（属人化）前処理やJOINの手順が再現しづらい本番（推論）と学習でロジックがずれてしまうそこでDatabricksではこれらの問題を解決するために Feature ...

2ヶ月前

【13日目】MLflow で実験管理を始めよう〜モデル開発の「試行錯誤」を正しく記録する仕組み〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日はDatabricksを使った、機械学習では欠かせない MLflowによる “実験管理（Experiment Tracking）” を扱います。モデル開発ではパラメータを変えたり、前処理を変えたり、特徴量を変えたりと「試行錯誤の連続」です。しかし、この試行錯誤を手作業でメモしていると……どの設定で精度がよかったのか分からないNotebookのセルを上から順に実行したら動かない昨日動いていたモデルを再現できないチームメンバーに成果物を共有できないという状況に陥りがちです。MLflowはこの「実験の軌跡」を正確に記録し、モデル開発の...

2ヶ月前

【12日目】Terraform / CI/CD による Databricks 管理〜手動更新に限界を感じたら最初に読む IaC 入門〜

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！本日はDatabricksを本格的に運用していく際に避けて通れない Terraform（IaC）と CI/CD の基礎を扱います。データ基盤の運用において、以下のような避けたい課題があります。クラスターの設定を毎回UIで手作業するのがしんどいNotebook修正のたびにJobも更新し直す必要があるチーム内で「どの環境にどの設定が入ってるのか」分からなくなる本番と開発で構成が少しずつズレていくRepos/Gitを使っているが、CI/CDの接続が曖昧こうした課題の多くは、「構成管理を人間の手で行っている」ことが原因です。そこで登場す...

2ヶ月前

【11日目】Databricks とデータメッシュの基礎〜 Unity Catalog と Delta Sharing で実現するデータプ

ちゅらデータ株式会社のフィード

みなさんこんにちは、クルトンです！今日は近年データ基盤のトレンドになっているデータメッシュ（Data Mesh）を Databricks ではどのように実現できるのか？を扱います。ポイントは次の2つです。Unity Catalog → データプロダクトの管理レイヤDelta Sharing → ドメイン間のデータ共有プロトコルこの2つを理解すると、Databricks上で“分散協調型のデータ基盤”がどう成立するのかが見えてきます。 🧩 データメッシュとは？まずデータメッシュとは何か？を端的に説明します。 🏛️ 従来の中央集権型データ基盤の課題企業で...

2ヶ月前