これからのデータ基盤を考える@202604

データエンジニアリング初心者が何を言っても全て虚しい、という前提の文章です。

最近考えていること

AIによって、データ基盤に求められていることもすさまじい勢いで変わりつつあるな、と感じている。いわゆる”薄いBI”みたいな話のこと。

こんにちは。stable株式会社代表のikkiです。 stableでは、企業様向けにデータエンジニアリング領域の支援を行っています。クライアントのデータ活用や、そのための基盤整備をハンズオンでご支援しています。最近、イベントやMTGでお話しする方々から、BIツールの選定について相談を受けることがよくあります。そこで今回は、ここ1〜2年の動向を踏まえ、BIツールのトレンドについて考察していきます。少し前：「総合分析プラットフォーム」としてのBIツールまず、少し前の時代のBIツールについて振り返ります。代表的なツールとしては、Tableauなどがあります。Table

https://note.com/ikki_mz/n/n3382a648c6c5

この記事ではインフラ環境の変化を主な理由に挙げており、それはもちろんそうだと感じている。ただ、その流れはAIエージェントの現場への浸透がさらに推し進めていると感じている。

AIエージェントを使えば、ユーザ側でアプリケーションやスライド、グラフみたいなプレゼンテーションを簡単に作れてしまう、ということが影響している（ひとまずここで、AIエージェントだけで十全に分析できるか、という論点は置いておく）。

これにより共通基盤としてのBIダッシュボードツールの価値を著しく下げているように思える。共通基盤となれば、必然的に分析・改修などの足が遅くなる。部署も予算も営業部門とは全く違ったりして、ビジネスサイドの制御の手が及びきらない。

それならば、最初からMCPなどでSaaSのデータを取得してしまえばいい。以下の記事のような話。

社内業務をAIに開放 — 自社MCPサーバー群一挙公開！

https://zenn.dev/aircloset/articles/d9fc317c1336c2

現在の企業は複数のSaaS製品を使って企業データを管理していることが多いと思うので、これらをそれぞれ個別に取得すればよい。それはAIエージェントにより、APIやCLIといったSaaSが持つプログラマブルインタフェースが（あるいはcomputer-useエージェントを用いて）誰でも使いうるように広く解放＝民主化されたからだ。権限さえあれば、あとはAIに指示するだけで良い。

まだ民主化に二の足を踏んでいるようなデータ基盤としては、データの方が予期せぬ形で急激に民主化されてしまう状況がやってきてしまった。

無論、企業内で発生する全ての情報を社内全体に公開することは難しいだろう。特に大きな企業だと、セキュリティないし権限管理、個人情報管理などの問題は大きな壁だと思われる。また、ある指標が「全社共通指標」なのであれば、各部門がバラバラに計算することも深刻な問題を引き起こしそうだ。

勝手気ままなデータの民主化により問題の種が積み重なる。その一方で、「データ基盤が担うべきデータが全てではなくなった」ことを意味しているのではないかとも感じる。

データ基盤は基本的な発想としては「中央に集めて管理したい。それが統合的な分析のために必要だ」と志向していたはず。しかしそれは結構変化していってしまうのかもしれない、と感じる。

データ基盤のマイクロサービス化みたいな観点では、データメッシュの話であると捉えてもいいかもしれない。のだけれど、この共通のセマンティックレイヤーも実際どのくらい必要とされる時代が続くのか疑問がある。この辺もAIエージェント側の発展により早々に打ち倒れていくんじゃないかという予感も・・・しなくもない。

もちろん個人の感想だけれど、データエンジニアリングの領域から”データアナリティクス”のようなニュアンスが削り取られて、インフラ基盤運用に近いような職種にますます寄っていくように感じる。そこから逃げるならば、オントロジーのようなビジネスデータ設計という構築側に寄っていく方向になるのだろうか。

データエンジニアリングとは何か

データエンジニアを半年ほど前に突然経験もなく始めたため、以下の記事に書いているように、代表的っぽいデータエンジニアリングの本を読み漁っていた。

データエンジニアリング勉強記録(日々追記)

https://zenn.dev/hibara428/articles/69db14d65b7cc8

印象的だったことの一つは、オライリーが『データエンジニアリングの基礎』と冠したタイトルの本の冒頭だ。

データエンジニアリングの基礎 ―データプロジェクトで失敗しないために | Joe Reis, Matt Housley, 中田秀基 |本 | 通販 | Amazon

AmazonでJoe Reis, Matt Housley, 中田秀基のデータエンジニアリングの基礎 ―データプロジェクトで失敗しないために。アマゾンならポイント還元本が多数。Joe Reis, Matt Housley, 中田秀基作品ほか、お急ぎ便対象商品は当日お届けも可能。またデータエンジニアリングの基礎 ―データプロジェクトで失敗しないためにもアマゾン配送商品なら通常配送無料。

https://amzn.to/4tAagA5

データエンジニアリングの基礎 ―データプロジェクトで失敗しないために | Joe Reis, Matt Housley, 中田秀基 |本 | 通販 | Amazon

発売年が2024年（英語版が2022年）と比較的最近であるにも関わらず、未だに「データエンジニアリングの定義をする」ことから入らないといけないことに驚いた。「みな言っていることがバラバラで定まっていないため、とりあえずこの本で暫定的に決める」ということをしている。この本は実際に非常に網羅的であるが故にかなり分厚い。この分厚さ自体が”データエンジニアリング”という言葉の不定性を表しているように思えてならない。

これよりも少しあとに出版された『解読データアーキテクチャ ―モダンデータウェアハウス、データファブリック、データレイクハウス、データメッシュの選び方』においても定義揺れの話はある。

解読データアーキテクチャ ―モダンデータウェアハウス、データファブリック、データレイクハウス、データメッシュの選び方 | James Serra, 村上列（翻訳） |本 | 通販 | Amazon

AmazonでJames Serra, 村上列（翻訳）の解読データアーキテクチャ ―モダンデータウェアハウス、データファブリック、データレイクハウス、データメッシュの選び方。アマゾンならポイント還元本が多数。James Serra, 村上列（翻訳）作品ほか、お急ぎ便対象商品は当日お届けも可能。また解読データアーキテクチャ ―モダンデータウェアハウス、データファブリック、データレイクハウス、データメッシュの選び方もアマゾン配送商品なら通常配送無料。

https://amzn.to/3O15Y5Y

解読データアーキテクチャ ―モダンデータウェアハウス、データファブリック、データレイクハウス、データメッシュの選び方 | James Serra, 村上列（翻訳） |本 | 通販 | Amazon

しかしこちらはまあ、“データファブリック”や”データメッシュ”といった業界バズワードの定義揺れに範疇に収まっているように思える。やはり”データエンジニアリング”なんて一般名詞のような言葉の範囲がよくわからないのは何か違和感がある。

『データエンジニアリングの基礎』を読みながら、“データエンジニアリング”という語彙が指す仕事は未だに宙ぶらりんで、それこそHadoopエコシステムが崩れていった時代のように全く変わり得る、というような危機感を持っておこうと思っていた。

そしてそれはもう今目の前にやって来ているような気がする。CRMやBIなどの大手が崩れていく。AIエージェントからデータをどう正しく参照させるのか。それだけが課題になる。

その時のデータ基盤アーキテクチャはかなり違う様相を呈するはずだと思う。それを見据えていく必要がある。