これからのデータ基盤を考える@202604

データエンジニアリング初心者が何を言っても全て虚しい、という前提の文章です。

最近考えていること

AIによって、データ基盤に求められていることもすさまじい勢いで変わりつつあるな、と感じている。いわゆる”薄いBI”みたいな話のこと。

"薄くなる" BIツール|ikki / stable株式会社
こんにちは。stable株式会社代表のikkiです。 stableでは、企業様向けにデータエンジニアリング領域の支援を行っています。クライアントのデータ活用や、そのための基盤整備をハンズオンでご支援しています。 最近、イベントやMTGでお話しする方々から、BIツールの選定について相談を受けることがよくあります。そこで今回は、ここ1〜2年の動向を踏まえ、BIツールのトレンドについて考察していきます。 少し前:「総合分析プラットフォーム」としてのBIツール まず、少し前の時代のBIツールについて振り返ります。 代表的なツールとしては、Tableauなどがあります。Table
https://note.com/ikki_mz/n/n3382a648c6c5

この記事ではインフラ環境の変化を主な理由に挙げており、それはもちろんそうだと感じている。ただ、その流れはAIエージェントの現場への浸透がさらに推し進めていると感じている。

AIエージェントを使えば、ユーザ側でアプリケーションやスライド、グラフみたいなプレゼンテーションを簡単に作れてしまう、ということが影響している(ひとまずここで、AIエージェントだけで十全に分析できるか、という論点は置いておく)。

これにより共通基盤としてのBIダッシュボードツールの価値を著しく下げているように思える。共通基盤となれば、必然的に分析・改修などの足が遅くなる。部署も予算も営業部門とは全く違ったりして、ビジネスサイドの制御の手が及びきらない。

それならば、最初からMCPなどでSaaSのデータを取得してしまえばいい。以下の記事のような話。

社内業務をAIに開放 — 自社MCPサーバー群一挙公開!
社内業務をAIに開放 — 自社MCPサーバー群一挙公開! faviconhttps://zenn.dev/aircloset/articles/d9fc317c1336c2
社内業務をAIに開放 — 自社MCPサーバー群一挙公開!

現在の企業は複数のSaaS製品を使って企業データを管理していることが多いと思うので、これらをそれぞれ個別に取得すればよい。それはAIエージェントにより、APIやCLIといったSaaSが持つプログラマブルインタフェースが(あるいはcomputer-useエージェントを用いて)誰でも使いうるように広く解放=民主化されたからだ。権限さえあれば、あとはAIに指示するだけで良い。

まだ民主化に二の足を踏んでいるようなデータ基盤としては、データの方が予期せぬ形で急激に民主化されてしまう状況がやってきてしまった。

無論、企業内で発生する全ての情報を社内全体に公開することは難しいだろう。特に大きな企業だと、セキュリティないし権限管理、個人情報管理などの問題は大きな壁だと思われる。また、ある指標が「全社共通指標」なのであれば、各部門がバラバラに計算することも深刻な問題を引き起こしそうだ。

勝手気ままなデータの民主化により問題の種が積み重なる。その一方で、「データ基盤が担うべきデータが全てではなくなった」ことを意味しているのではないかとも感じる。

データ基盤は基本的な発想としては「中央に集めて管理したい。それが統合的な分析のために必要だ」と志向していたはず。しかしそれは結構変化していってしまうのかもしれない、と感じる。

データ基盤のマイクロサービス化みたいな話としては”データメッシュ”のことであると捉えてもいいかもしれない、のだけれど、この共通のセマンティックレイヤーも実際どのくらい必要とされる時代が続くのか疑問がある。この辺もAIエージェント側の発展により早々に打ち倒れるんじゃないかという気も・・・しなくもない。

もちろん個人の感想だけれど、データエンジニアリングの領域から”データアナリティクス”のようなニュアンスが削り取られて、インフラ基盤運用に近いような職種にますます寄っていくように感じる。そこから逃げるならば、オントロジーとか言われているような話と結びつくようなビジネスデータ設計みたいな構築側に寄っていく方向になるのだろうか。

データエンジニアリングとは何か

データエンジニアを半年ほど前に突然経験もなく始めたため、以下の記事に書いているように、代表的っぽいデータエンジニアリングの本を読み漁っていた。

データエンジニアリング勉強記録(日々追記)
データエンジニアリング勉強記録(日々追記) faviconhttps://zenn.dev/hibara428/articles/69db14d65b7cc8
データエンジニアリング勉強記録(日々追記)

印象的だったことの一つは、オライリーが『データエンジニアリングの基礎』と冠したタイトルの本の冒頭だ。

データエンジニアリングの基礎
AmazonでJoe Reis, Matt Housley, 中田 秀基のデータエンジニアリングの基礎 ―データプロジェクトで失敗しないために。アマゾンならポイント還元本が多数。Joe Reis, Matt Housley, 中田 秀基作品ほか、お急ぎ便対象商品は当日お届けも可能。またデータエンジニアリングの基礎 ―データプロジェクトで失敗しないためにもアマゾン配送商品なら通常配送無料。
データエンジニアリングの基礎 faviconhttps://amzn.to/4tAagA5
データエンジニアリングの基礎

発売年が2024年(英語版が2022年)と比較的最近であるにも関わらず、未だに「データエンジニリングの定義をする」ことから入らないといけないことに驚いた。「みな言っていることがバラバラで定まっていないため、とりあえずこの本で暫定的に決める」ということをしている。この本は実際に非常に網羅的であるが故にかなり分厚い。この分厚さ自体が”データエンジニアリング”という言葉の不定性を表しているように思えてならない。

最近読んだ『解読 データアーキテクチャ ―モダンデータウェアハウス、データファブリック、データレイクハウス、データメッシュの選び方』でも似たよう定義揺れの話はある。しかしこちらはまあ”データファブリック”や”データメッシュ”といった業界バズワードの定義揺れに範疇に収まっているように思える。やはり”データエンジニアリング”なんて一般名詞のような言葉の範囲がよくわからないのは何か違和感がある。

『データエンジニアリングの基礎』を読みながら、“データエンジニアリング”という言葉が指すような仕事は未だに宙ぶらりんで、それこそHadoopエコシステムが崩れていった時代のように全く変わり得る、というような危機感を持っておこうと思っていた。

そしてそれはもう今目の前にやって来ているような気がする。CRMやBIなどの大手が崩れていく。AIエージェントからデータをどう正しく参照させるのか、それだけが課題になる。

その時のデータ基盤アーキテクチャはかなり違う様相を呈するはずだと思う。それを見据えていく必要がある。