生成AIチャレンジ:5日目 – 生成AIにデータ分析してもらおう!

生成AIチャレンジ5日目は、
「生成AIによるデータ分析」 をテーマにやっていきます。

「データから知見を発見すること」の楽しさや、生成AIの可能性を感じてもらえると嬉しいです。

何を分析するか

今回は「新しくビジネスを始めたい」という状況を仮定して、どんな人に向けた事業を展開した方が良さそうか をChatGPTにデータ分析してもらいます。

年齢層や住んでいる地域、天気データなど様々な観点からみてもらいます。


今回利用するデータ

今回使うデータは、統計センターが公開している
SSDSE(教育用標準データセット:Standardized Statistical Data Set for Education) です。

公的統計をもとに、

  • 地域別に整理されていて
  • 欠損値(空欄)が出ないように整えてあって
  • そのまま授業や演習で使いやすいようにした

“練習用・実践用の統計データパック” だと思ってもらえればOKです。

参考:https://www.nstac.go.jp/use/literacy/ssdse/

今回使うのは、この中の6種類です。

SSDSE-市区町村(SSDSE-A)

  • 全国1741市区町村 × 多分野のデータ
  • 人口、経済、教育、労働、医療、福祉など、地域の姿がざっくり分かる

SSDSE-県別推移(SSDSE-B)

  • 47都道府県 × 12年分 × 多分野のデータ
  • 都道府県別に、人口や経済などの変化の推移を見たいときに便利

SSDSE-家計消費(SSDSE-C)

  • 全国・47都道府県庁所在市 × 家計の年間支出
  • 食料(肉・魚・野菜・菓子・飲料…)など、何にどれくらいお金を使っているかが分かる

SSDSE-社会生活(SSDSE-D)

  • 全国・47都道府県 × 男女別 × 社会生活の項目
  • 余暇の過ごし方や、社会参加のような「生活スタイル」に関するデータ

SSDSE-基本素材(SSDSE-E)

  • 全国・47都道府県 × 多分野の指標
  • 人口・経済・教育・医療など、ベースになる指標をまとめた“基本セット”

SSDSE-気候値(SSDSE-F)

  • 47都道府県庁所在市 × 月・年 × 気象42項目
  • 気温・降水量など、ビジネスによってはかなり効いてくる“気候の違い”を見られるデータ

本編:データ分析してもらおう

ここからが本編です。
SSDSEのデータを読み込んで、ChatGPTにターゲット候補と市場感を出してもらいましょう。

プロンプト作成

今回のプロンプトでは、CRAFTというフレームワークを採用します。

ChatGPTへのプロンプト

# 背景 (Context)
これから新しくビジネスを始める上で、事業のターゲットを考えています。
年齢層や市場規模を交えて分析をお願いします。

# 役割 (Role)
あなたはデータ分析や統計のプロフェッショナルで、誰にでもわかる解説で人気がある先生です。
鋭い視点で多角的に物事を捉え、データに隠れたインサイトを見つけるのが得意です。

# 行動 (Action)
添付されたデータを参照し、傾向や統計的優位性など、インサイトを10個以上見つけてください。
出した数字が具体的にどのような数字なのか、誰でも理解できる形で説明してください。
必要に応じて、外部サイトのデータを参照しても構いません。その場合、信頼できるサイトを利用してください。
統計的な評価をする際は、どのような手法を使ったのか、数字はどのような意味を持つのかを交えて説明してください。

# 形式 (Format)
出力は、人が読みやすい形でお願いします。

# 調整 (Tweak)
わからない場合は、わからないと明言してください。
必ず参考文献を載せてください。

では、「ChatGPT 5.2 Thinking 」にてプロンプトを投げてみます。
10分ほど経った後、回答されたのがこちらです。

プロンプトの回答

以下は、添付データ(SSDSE-A/B/C/D/E/F)をもとに、「どの年齢層を狙うと市場規模が大きいか/伸びやすいか」を、数字→意味→ビジネス示唆の順で整理した分析です。
(SSDSEは公的統計を教育用に整形したデータセットで、欠測が少なく分析に向く形式です。 NSTAC+1


## 1) 使ったデータと読み方(重要な前提)

  • SSDSE-E(基本素材・都道府県):人口(年齢3区分)、世帯数、単独世帯数、転入転出、産業別従業者など(全国+47都道府県)
  • SSDSE-B(県別推移):都道府県×年(2011〜2022の12年)で人口・年齢区分などの推移 NSTAC
  • SSDSE-A(市区町村):市区町村別人口、75歳以上など(今回の市区町村データの年は2020) NSTAC+1
  • SSDSE-C(家計消費):全国+47都道府県庁所在市の、二人以上世帯の「食料」年間支出(2022〜2024平均) NSTAC+1
  • SSDSE-D(社会生活):自由時間活動(例:学習、スポーツ等の“行動者率(%)”系)+生活時間(例:メディア接触などの“時間(分)”系) NSTAC
  • SSDSE-F(気候値):都道府県庁所在市の気象平年値(今回は補助的に利用) NSTAC

## 2) まず「市場規模」:日本の年齢構成と世帯構造(2023・都道府県集計)

SSDSE-E(2023)から全国の大枠です。

指標規模“どんな市場か”の意味
総人口1億2,435万人TAM(潜在顧客母数)の上限
15歳未満1,417万人(11.4%)子ども市場は「数は少ないが単価・継続が出やすい」ことが多い
15〜64歳7,395万人(59.5%)働く世代=課金力×数が最大
65歳以上3,623万人(29.1%)“人数”として巨大。生活支援・医療福祉・見守り等の需要が厚い
一般世帯数5,570万世帯B2Cは「人口」より「世帯」を単位にすると設計が楽
単独世帯数2,115万世帯(37.97%)「一人暮らし」はすでに主流級の市場

(出典:SSDSE-E) NSTAC


## 3) インサイト(12個以上):年齢層×成長×地域の“勝ち筋”を見つける

### インサイト1:人口が増えている都道府県は“少数派”=狙うなら集中が起きている場所

2011→2022(SSDSE-B)で、人口が増えた都道府県は7/46(約15%)。中央値は約-5.8%減
つまり、「どこでも同じ」は成立しにくく、地域選定が売上の再現性を左右します。 NSTAC

  • 増加上位:東京都(+6.36%)、沖縄県(+4.71%)、神奈川県(+1.90%)…
  • 減少上位:秋田県(-13.49%)、青森県(-11.67%)…(2011→2022)

### インサイト2:総人口は減っても、65歳以上は“全都道府県で増加”

2011→2022で、全国合計(都道府県合算)は

  • 総人口:1億2,783万 → 1億1,981万(-6.28%)
  • 65歳以上:2,975万 → 3,455万(+16.1%)
    「縮む市場」と「増える市場」が同時に存在します(増える方が高齢市場)。 NSTAC

### インサイト3:ただし“高齢者が多い県”=“市場が大きい県”ではない(比率と人数は別)

高齢化率(65歳以上比率)トップは、秋田県 39.1%、高知県 36.3% など。
一方で65歳以上“人数”は、東京都 約320万人、大阪府 約242万人、神奈川県 約239万人 が最大級。
→ **「比率で課題が深い地域」と、「人数が多く売上上限が高い地域」**を分けて考えるのがコツです。

### インサイト4:“人口集中6都府県”が、単独世帯の約半分を持っている(市場の偏りが大きい)

転入超過(純流入)が上位の
東京・神奈川・埼玉・千葉・大阪・福岡の6都府県だけで、

  • 人口:約5,077万人(全国の40.8%)
  • 世帯:約2,380万(全国の42.7%)
  • 単独世帯:約1,002万(全国の47.4%)

→ **一人暮らし向け(20〜40代中心になりやすい)のB2Cは、最初から“地理的に勝ちやすい”**です。

### インサイト5:転入超過の中心はこの6都府県でほぼ固定

都道府県の純流入トップは以下(SSDSE-E):

  • 東京都 +58,489
  • 神奈川県 +22,088
  • 埼玉県 +17,850
  • 千葉県 +16,375
  • 大阪府 +13,071
  • 福岡県 +8,642

新規顧客が自然流入する場所は、広告効率・紹介率が上がりやすい(同じCPAでも回収が速いことが多い)。

### インサイト6:都道府県庁所在市の“食料支出”は、流入・外国人比率と一緒に上がりやすい

SSDSE-C(食料・年間支出、二人以上世帯、2022〜2024平均)を使い、都道府県特性と相関を確認すると:

  • 食料支出(世帯)×外国人人口比率:r=0.60, p=0.000009(正の相関)
  • 食料支出(世帯)×純流入(転入−転出):r=0.56, p=0.000043(正の相関)
  • 食料支出(世帯)×高齢化率:r=-0.55, p=0.000064(負の相関)

統計的には「たまたま」では説明しにくい強さです(※相関であり因果ではありません)。
“都市×流動性×多様性”が高い市場ほど、支出も厚くなりやすいという読みが立ちます。 NSTAC+1

### インサイト7:食料支出が高い都市は、首都圏・大都市圏に寄る

食料(合計)年間支出(上位例):

  • 東京都区部:約 120万円/世帯
  • さいたま市:約 117万円/世帯
  • 横浜市:約 113万円/世帯
  • 千葉市:約 113万円/世帯
    (SSDSE-C) NSTAC

→ 食×サブスク、プレミアム食材、時短ミール、健康食などは 都市部を起点に検証が合理的。

### インサイト8:「学習・自己啓発」実施(行動者率)は、純流入が大きいほど高い

SSDSE-Dの「学習・自己啓発・訓練(総数)」は、都道府県の純流入と
r=0.72, p<0.00000001 という強い相関。
上位は東京都(52.8)など。
キャリア系・資格・リスキリング・生成AI教育のような市場は、人が集まる県ほど伸びやすい仮説が強いです。 NSTAC

### インサイト9:情報通信業の厚みがある県ほど、学習行動が高い(“需要の土壌”)

都道府県別「情報通信業の従業者/人口1000人」と学習行動は
r=0.63, p=0.000002
情報通信業の厚みは、東京都が突出(人口1000人あたり約77人)。
→ B2CでもB2Bでも、デジタル受容性の高い市場=初期顧客が獲得しやすい可能性が高い。

### インサイト10:高齢化率が高いほど、医療・福祉従業者密度が高い(供給も厚い)

高齢化率×医療福祉従業者(/人口1000人)は
r=0.46, p=0.0011(正の相関)。
→ シニア市場は需要が厚い一方、供給(事業者・人材)も多い=競争や人件費の設計が重要

### インサイト11:市区町村レベルだと「高齢化が極端」な場所は存在するが、市場の“量”は別

高齢化率トップ級は村・町(例:群馬県 南牧村 65.2%)のように母数が小さいケースが多い。
“率が高い”=“売上が大きい”ではないので、B2Cは (率×人口) の両方を見るのが安全。

### インサイト12:中規模都市(人口10万人以上)でも高齢化率35〜41%の“実需が厚い街”がある

人口10万人以上で高齢化率が高い例:

  • 小樽市(40.8%・高齢者約4.5万人)
  • 大牟田市(37.1%・約4.1万人)
  • 一関市(36.9%・約4.1万人)
    介護予防・移動支援・配食・見守りなどは、こうした“中規模×高齢厚め”が相性良い可能性。

### インサイト13:75歳以上は「人口の約14.5%」で、65歳以上の“半分超”

市区町村データ(2020、全国合算)では

  • 75歳以上:約1,825万人(人口の14.5%)
  • 75歳以上 / 65歳以上:約51.6%

→ シニア向けでも、「65+」と「75+」はニーズが別(介護・通院頻度・家族支援の必要度が変わりやすい)なので、ターゲット年齢は分けた方が当たりやすいです。 NSTAC

### インサイト14:“メディア接触時間”は高齢化率と一緒に伸びる

SSDSE-Dの「テレビ・ラジオ・新聞・雑誌(時間)」と高齢化率は
r=0.67, p=0.00000027
→ シニア市場の集客は、デジタルだけに寄せると取りこぼす可能性(紙・テレビ的導線や地域連携の価値が上がる)。 NSTAC


## 4) ターゲット設計:年齢層×地域で“勝ちやすい3案”(市場規模つき)

### 案A:都市部の「単身(20〜40代中心になりやすい)」=市場が大きく、流入で伸びる

  • コア地域:東京・神奈川・埼玉・千葉・大阪・福岡
  • 単独世帯:約1,002万世帯(全国の47.4%)
  • こういう事業と相性:サブスク、宅配、時短、健康、学習/リスキリング、家事代行、住まい周り、FinTech
  • 狙い方:最初はこの6都府県のどれかに絞るだけで、TAMが十分大きい

### 案B:地方〜中規模都市の「75歳以上」=人数は巨大、課題が深い(単価勝負向き)

  • 75歳以上は全国で約1,825万人規模(2020推計・市区町村合算)
  • こういう事業と相性:見守り、通院/買物支援、配食、介護予防、服薬、デジタル弱者向けUI、地域包括と連携するサービス
  • 注意:人口減の県は将来母数が減るので、LTV(継続)や自治体/法人契約もセットで設計すると強い

### 案C:子育て(0〜14)比率が高い地域=数は限定だが“継続課金”を作りやすい

  • 子ども(15歳未満)は全国で約1,417万人(2023)
  • 比率が高い:沖縄(16.1%)、佐賀(13.0%)、滋賀(12.9%)など
  • こういう事業と相性:教育、習い事、食、医療、送迎、家庭内SaaS、写真/イベント
  • 狙い方:市場が“広く薄い”より、コミュニティ濃度が高い地域で勝ち筋を作るのが良い

## 5) 次の一手(検証のしかた:統計→仮説→小さく当てる)

  1. ターゲットを1つ決めて(例:都市単身/75+/子育て)
  2. そのターゲットの TAM→SAM→SOM を、
    • 母数(世帯・人口)×想定利用率×年単価(ARPU)
      で紙に落とす
  3. SSDSEで選んだ上位地域(例:転入超過上位)で
    • LPテスト(CVR)
    • 小額広告(CPA)
    • 既存代替(競合・非消費)のヒアリング
      を回す
      → 統計は「当たりを付ける道具」で、最後は**実測(CVR/CPA/継続)**が勝敗を決めます。

## 参考文献(必須)

e-Stat:家計調査(調査の説明・データ体系) e-Stat+1
独立行政法人 統計センター:SSDSE(教育用標準データセット)概要 NSTAC+1
SSDSE-A(市区町村)解説(SSDSE-A-2025) NSTAC
SSDSE-B(県別推移)解説(SSDSE-B-2025) NSTAC
SSDSE-C(家計消費)解説(SSDSE-C-2025) NSTAC
SSDSE-D(社会生活)解説(SSDSE-D-2023) NSTAC

分析結果を見てみよう

結論としては、

  • 案A:都市部の「単身(20〜40代中心になりやすい)」=市場が大きく、流入で伸びる
  • 案B:地方〜中規模都市の「75歳以上」=人数は巨大、課題が深い(単価勝負向き)
  • 案C:子育て(0〜14)比率が高い地域=数は限定だが“継続課金”を作りやすい

の3つを提案してくれました。

見つけてくれたインサイトとしては、

  • 総人口は減っても、65歳以上は全都道府県で増加(インサイト2)
  • 食料支出が多いのは首都圏・大都市圏(インサイト7)
  • 純流入(転入−転出)が多い県ほど学習意欲が高い(インサイト8)

など、そうだよね、というものから、そうなんだ、というものまで、様々なインサイトを出してくれました。

実際に数字を見てみて、本当にこのインサイトたちが正しいのかを確認していきましょう。


インサイトを軽く検証してみる

ここからが、「AIに任せきりにしない」 パートです。
では早速、確認していきましょう。

インサイト2:総人口は減っても、65歳以上は全都道府県で増加

結論:正しい
元データ:SSDSE-B-2025_県別推移

「総人口」と「65歳以上の人口」を2011年と2022年で比較すると、総人口は300万人ほど減っているのに対して、65歳以上の人口は600万人以上も増えています。

インサイト7:食料支出が多いのは首都圏・大都市圏

結論:正しい
元データ:SSDSE-C-2025_家計消費

人口と食料支出の相関係数は0.66と、人口が多くなるにつれて食料支出も高くなる(正の相関)ことがわかりました。
首都圏・大都市圏は人口が多い都市なので、こちらのインサイトも正しそうです。

インサイト8:純流入(転入−転出)が多い県ほど学習意欲が高い

結論:部分的に正しい(純流入がプラスである県では正しい)
元データ:SSDSE-D-2023_社会生活、SSDSE-E-2025_基本素材

全国で見てみると、相関係数は0.72と高い数字であることがわかりました。

グラフで見てみると、純流入がプラスとマイナスできっぱり傾向が違いそうだということがわかります。では、それぞれで相関係数を見てみましょう。

純流入がプラスな都道府県では純流入が高ければ学習意欲が高い人が多いと言えそう(相関係数:0.93)ですが、純流入がマイナスな都道府県では純流入が高ければ学習意欲が高い人が多いとは言えない(相関係数:0.14)結果となりました。

これは 外れ値が結果を大きく変えてしまう 典型的なケースですね。

今回のプロンプトでは、「外れ値」については言及していないため、全体感での結果を出してくれているようです。


まとめ

今回の記事では、生成AIにデータ分析をお願いしてみました。

  • データの全体感は正しく出してくれた
  • 細かくみていくと怪しいところがある

という結果でしたが、それでも、全体の傾向が知りたいときはサッと出してくれるのでとても頼もしいですね…!

細かい分析をしたいときは、一つずつ深掘って聞いてみたり、プロンプトの中で細かい指示を出すことでより正確な分析をしてくれると思います。

皆さんもぜひ、試していただけたら嬉しいです!

次回予告

次回、生成AIチャレンジ6日目では、
生成AIを使って勉強してみよう! をテーマにしたいと考えています。

では、お楽しみに〜