大河ドラマ「西郷どん」の視聴率を科学的に予測する

藤原 かずえ

明治満150年の2018年のNHK大河ドラマは、明治維新期に日本の礎を築いた西郷隆盛の一生を描く「西郷どん」です。この記事では、統計的手法を用いて「西郷どん」の年間平均視聴率を、あくまでも「予想」ではなく「予測」したいと考えます。

プロローグ

大河ドラマといえば、毎年話題となるのが年間平均視聴率です。

作品自体の出来栄えを評価する上で、必ずしも「視聴率」は有効なインデックスにはならないと私は考えますが、長期にわたる日本人の歴史ドラマへの嗜好性を分析する上では、一つの有効なインデックスになるかと思います。換言すれば、どのような思考回路で、大河ドラマが支持/不支持されるのか?・・・そのメカニズムを把握することは、日本人の歴史観をひも解く鍵といえるかもしれません。

さて思考回路のメカニズムを把握するにあたって有効と思われるのが、質的データを用いて量的データを予測する統計手法である数量化理論Ⅰ類です。

この手法は、「大河ドラマ作品の時代が平安時代/戦国時代/幕末」、「大河ドラマの主人公が男性/女性」といったような質的データ(カテゴリカルデータ)をダミー変数というテクニカルな変数を使って数量化することによって「視聴率」などの量的データ(数値データ)を予測するものです。一般化して言えば、世の中に存在する非線形な因果関係を質的変数の線形結合でモデル化するものです。

この手法のパフォーマンスはかなりパワフルであり、過去にNHK大河ドラマの年間平均視聴率を予測したところ、高精度の予測結果を得ることができました。

[八重の桜] 予測:15.1%→実測:14.6%
[軍師官兵衛] 予測:15.5%→実測:15.8%
[花燃ゆ] 予測:12.7%→実測:12.0%

しかしながら最近2年間は力を発揮できず、次のような結果になっています。

[真田丸] 予測:13.6%→実測:16.6%
[おんな城主直虎] 予測:15.8%→実測:12.8%

実は2年間にわたって冴えない予測結果となった理由を私は自覚しています。

まず「真田丸」については、前年の予測式で精度よく予測できたことをいいことに分析をさぼり、誤差を拡げてしまいました。すなわち、過去の成功体験にアグラをかいた私の驕りと怠惰に起因するものです(笑)。大河ドラマは50年以上続いていますが、統計的なデータ数としてはたかだか50とちょっとに過ぎません。したがって、精度の高い予測のためには、年を重ねる毎に予測式を微修正して行くことが重要です。

一方「おんな城主直虎」については、直虎という人物の本質を私が理解できずに、直虎の性別が女性であるという先入観から「時代に翻弄された人物」としてカテゴライズしてコンピュータに入力したことが誤差の決定的な要因です。直虎は、少なくとも大河ドラマでは自ら好んで武将になったように描かれており、全く時代に翻弄などされていませんでした。実際、この評価をしなければ結果をほぼ的中できてたことから、予測と実測に差が認められた要因は私の無知にあります(笑)。

このように、予測結果が過去2年間にわたって力を発揮できなかったのは、予測システムに問題があったのではなく、私の人間性や無知に問題があったものと考えられます。今年こそ心を入れ替えて「西郷どん」の年間平均視聴率を予測したいと思います(笑)

過去のNHK大河ドラマの視聴率

まず、数量化理論Ⅰ類による統計分析について説明する前に、過去56年分のNHK大河ドラマ作品の初回の視聴率と平均の視聴率(年間平均視聴率)を示したいと思います。

初回視聴率と平均視聴率との間には次の図に示すような正の相関関係があります。この関係によれば、初回視聴率に0.882をかけると、平均視聴率を予測することができます。

「西郷どん」の初回視聴率は史上ワーストの15.4%であるので、平均視聴率は12.6%と予測することができます。ここで、図中のR^2は決定係数(相関係数の2乗)と呼ばれるもので、1に近づくほど2変数(今回の場合は初回&平均視聴率)の関係性が高く、0に近づくほど2つの変数の関係性が低いことを意味します。この関係の場合にはR^2=0.365とかなり相関性が低いといえ、この関係から視聴率を予測するのは信頼性が乏しいといえます。つまり、初回視聴率が史上最低であったからと言って、平均視聴率も史上最低になるとは限らないということです。

平均視聴率の予測手法

「大河ドラマ」の視聴率を予測するにあたっては、数量化理論Ⅰ類という分析手法を用いることにします。なお、以降くどくど手法を説明しますので、面倒くさい方は記事の最後のあたりに示した予測結果まで一気に飛んでいただければ嬉しいです(笑)

数量化理論Ⅰ類による視聴率の予測にあたっては、まず過去の大河作品の視聴率データと番組データをベースにして、作品のいろいろなファクターが視聴率に及ぼす影響を統計学的に求め、その結果を基に視聴率を予測します。

まず各ファクターが視聴率に及ぼす影響を統計学的に求めるにあたっては、視聴率に関連しそうな観点を挙げるともに、その観点に属するファクターを挙げておく必要があります。数量化理論では、この観点を「アイテム」、ファクターを「カテゴリー」と呼びます。

今回の分析で設定したアイテム(赤字)とカテゴリー(カッコ内)は次の通りです。

(1) 時代(平安/鎌倉/室町/戦国/江戸/幕末/近代)
時代をまたぐ作品については、主要な時代を割り当てました。

(2) 主人公の身分(天下人/キーパーソン/庶民)
日本の実質的最高権力者となった人物またはその配偶者を「天下人」、天下人を経験しない政治家・各種指導者を「キーパーソン」、それ以外の人物を「庶民」としました。ちなみに「下級武士」については「庶民」の属性を割り当てています。

(3) 出世度(出世なし/1階級出世/2階級出世)
「庶民」「キーパーソン」「天下人」の各階級をステップアップした場合に、そのステップアップの回数を出世度としました。

(4) 主人公の性別(男/女)
主人公の性別です。夫婦が主人公の場合には、女性の特異性を重視して「女」としました。

(5) 主人公の死因(殺害/床死)
戦死、暗殺、斬首、自害の場合に「殺害」としました。

(6) 主演俳優の大河ドラマ経験(初演/再演)
一度、NHK大河ドラマを経験した俳優が再び主演級を演じる時、「再演」としました。

(7) 主人公の運命・境遇(時代に翻弄/他)
実在の主人公が、その意思にかかわらず強制的に苦労を強いられるような境遇におかれる場合、時代に「翻弄」されたと判断しました。主として血縁や婚姻に起因して生じた苦難を指します。

(8) 主な活躍場所(東北/東日本/中日本/西日本/海外)
東北地方をそこそこ含む場合「東北(北)」、関東甲信越地方が主な活躍場所の場合「東日本(東)」、中部・関西地方が主な活躍場所の場合「中日本(中)」、中国・四国・九州が主な活躍場所の場合「西日本(西)」、海外をそこそこ含む場合「海外(外)」としました。

(9) 放映期(黎明期/平常期/高度成長期/バブル期/不況期/地デジ期)
高度成長期に入る前、大河ドラマが誕生したころを「黎明期」、GNP世界2位となった1968からオイルショック前年の1972を「高度成長期」、日本が栄華を極めたバブル絶頂期の1986年から1988年を「バブル期」、バブル崩壊による不況が顕在化した1994年以降を「不況期」、2011年以降を「地デジ期」としました。

このように各アイテムをカテゴリー区分して過去データに対して適用した結果が次の表です。

このデータをパッケージソフトウェアに入力し、数量化理論I類による統計分析を行い視聴率の予測式を求めました。用いたソフトウェアは誰もがダウンロードして無償で利用することができるオープンソースのプログラミング言語[R]です。数量化理論I類については、web公開されている群馬大学の青木繁伸先生の[プログラム]を利用させていただきました。

平均視聴率の予測モデル

数量化理論I類による統計分析の結果は次の表のとおりです。

各カテゴリー(ファクター)が視聴率に及ぼす影響については、カテゴリースコアの値によって知ることができます。「定数項」の欄に示されている視聴率22.29%を基本値として、カテゴリースコアがマイナスのカテゴリーはその数値だけ視聴率%を下げる影響があり、逆にプラスのカテゴリーはその数値だけ視聴率%を上げる影響があります。つまり、予測視聴率は、各作品に合致するカテゴリースコアの値を定数項22.29%に足していけば求められます。

例えば、「花燃ゆ」は、「時代:幕末、身分:キーパーソン、出世度:1階級出世、性別:女、死因:自然死、俳優:大河初演、運命:翻弄、場所:西日本、放映期:地デジ」であるので、予測視聴率は次のようになります。

22.29-1.55+1.34+1.69-2.94+1.33+0.55+2.64-2.44-10.39=12.52(%)

なお、偏相関やt値が大きいアイテム(観点)は、視聴率に対する影響度合いが大きいアイテムと言えます。これを見ると放映期の影響が最も高く、最終身分・死因・運命がそれに続きます。

ここで、各アイテムごとに分けて、視聴率への影響を概観したいと思います。

(1) 時代
「戦国」「江戸」は視聴率にプラス要因。一方、他の時代は視聴率にマイナス要因となると言えます。やはりドラマ的に魅力的なキャラが多い「戦国」に人気があるのは感覚的に理解できますが、平和な「江戸」に人気が高いのは意外です。「室町」は本当に人気がありません。「幕末」が人気がないのは意外です。

(2) 主人公の最終身分
「庶民」が最低のマイナス要因になっています。「庶民」は歴史のメインストリームに登場しないので、歴史ドラマとして視聴者が期待している大河ドラマの主役のキャラには向いていないのではと推察します。「天下人」よりも「キーパーソン」の方が視聴率を高める傾向が認められます。

(3) 出世度
出世度が高いとやはりプラス要因になります。大河ドラマで1年間観るからには、少しばかし出世してもらいたいという感情移入が生じるのではないでしょうか。庶民から天下人の2階級出世が最も視聴率を高めますが、大河ドラマで該当するのは秀吉とねねだけです。

(4) 主人公の性別
「男」がプラス要因「女」がマイナス要因であることがわかります。

(5) 主人公の死因
主人公が運命の巡り合わせによって「殺害」されたり「自害」する場合、マイナス要因になることがわかります。これも視聴者のハッピーエンド願望によるものと考えられます。「時代」や「主人公の身分」に比べれば影響度合はやや低いものの、けっして少なくない影響度合を示しています。

(6) 主演俳優の大河ドラマ経験
主人公が「大河ドラマ再演」の場合、マイナス要因であることがわかります。NHKとしては過去の実績で優良俳優を再起用するのでしょうけど、視聴者としてみれば「1年間観たあの人がまた・・・」といった感覚やビミョ~な違和感をもつのではと推察します。

(7) 主人公の運命・境遇
主人公(実在の人物に限ります)が時代に「翻弄」される場合、プラス要因であることがわかります。やはり、日本人は、不運にも時代に翻弄されてしまうようなドラマのシチュエーションが好きなようです。

(8) 主な活躍場所
西日本、東北、海外がマイナス要因で、東日本、中日本(中部&関西)がプラスとなりました。やはり、人口が多いだけのことはあります(笑)

(9) 放映期
「バブル期」には視聴率が高く、「不況期」には視聴率が低いという結果が得られました。また「高度成長期」にも視聴率が低いという結果になっています。これは単に経済との関係なのか、時代の風潮に関係するのかについてははっきりしませんが、「高度成長期」や「不況」の時には、大河ドラマなど悠長に観ていられなかったということかと推察します。そして、「地デジ」となって、その傾向はさらに大きくなったようです。番組表がテレビに標準装備されて録画も容易になると、リアルタイムで観る必要もなくなります。いずれにしても、このアイテムの偏相関とt値は最も高く、大河ドラマの視聴率自体が時代に翻弄されていることがわかります。

さて、今回の分析結果が高い精度であることを証明するものが次の表です。この表では、今回得られたカテゴリースコアを実際のデータに適用させた予測結果と実測結果を比較しています。

この表を見ると、予測と実測の差である残差が概ね±3%以内に収まっていると言えます。残差の平均は0%、標準偏差は1.42%であり、求められた予測式は、不偏で有効な推定量であることがわかります。この結果を基に予測視聴率と実測視聴率の関係をプロットしたものが次の図です。

回帰式はy=xに一致し、その決定係数は0.946であり、その平方根である相関係数はなんと約0.97です。このように、予測と実測が極めてよく一致していることから、数量化理論Ⅰ類がNHK大河ドラマの平均視聴率の予測に非常に有効であることがわかります。換言すれば、上述のカテゴリースコアの表を使うだけで過去50年以上にわたる大河ドラマの視聴率の形成メカニズムをしっかりと説明することができるということです。

「西郷どん」の視聴率予測

さて、得られた予測式を用いて、いよいよ2018年NHK大河ドラマ「西郷どん」の年間平均視聴率を予測してみたいと思います。

「西郷どん」の場合、時代は「幕末」、主人公は「キーパーソン」の「男性」で、主として「西日本」で活躍します。出世は「一階級」であり、自ら望んで時代に立ち向かっていったので「時代に翻弄された存在」ではありません。そして最終的には「切腹」して一生を閉じます。主演の鈴木亮平さんは大河ドラマ「初演」、時代は「地デジ」です。

この場合予測視聴率は次式によって求められます。

22.29-1.56+1.34+1.69+0.89-2.81+0.55-0.96-2.44-10.39=8.6

つまり、

年間平均視聴率は、史上最低の一桁台である8.6%と予測されます。

そして95%の確率で5.8~11.4%の間におさまるという結果です。

恐ろしい結果が得られてしまいました。

エピローグ

視聴率というものは多くのファクターが絡み合って最終的な数値となって現れます。一般化していえば、多変量非線形確率過程における一つの実現値であると言えます。さらに正確に言えば、時間軸に対して変化する非定常多変量非線形確率過程であると言えます。この非定常部分については、高度成長期・バブル期・地デジ期などのカテゴリーを設けてなんとか単純化していますが、実際には、いつまたレジームチェンジやパラダイムシフトが起こるかわかりません。

但し、今回の予測結果はショッキングです。視聴率8.6%という値は、けっして私の好き嫌いが反映されたものではなく、過去50年以上にわたる作品の視聴率と整合性がある客観的な定量予測の結果であると言えます。私は個人的に「西郷どん」がダイナミックな時代を描写した素晴らしい作品になることを強く期待しております。それゆえ私の視聴率予測がハズれることを願ってやみません。

なお、この視聴率予測がハズレても、私は一切の罰ゲームをしないことを予め断っておきます。

悲惨にも、
毎年経済予測をハズして、毎年罰ゲームで髪の毛を紫色に染めている人がいますよね(笑)


編集部より:この記事は「マスメディア報道のメソドロジー」2018年1月14日の記事を転載させていただきました。オリジナル原稿をお読みになりたい方はマスメディア報道のメソドロジーをご覧ください。