コロナ、AI、放射線:「正解」のない臨床検査(上)

越智 小枝

acworks/写真AC

「まず検査をしてみましょうか」

具合が悪くて病院を受診した際、そう言われたことの方はたくさんいらっしゃるのでしょうか。疾患の影に検査有り。現在知られているほとんどの疾患は、何らかの検査によって診断されます。これはとても当たり前のことのように聞こえるかもしれません。

では、検査で「インフルエンザ陽性」と出れば熱がなくても本当にインフルエンザなのでしょうか。逆に、家族がインフルエンザで自分も熱や筋肉痛がある方が「インフルエンザ陰性」という結果であれば、その方は確実にインフルエンザでないと言えるのでしょうか?

臨床検査は決して万能ではありません。それどころか、全ての検査は

状況が変われば正解率が変わるもの

なのです。これは検査の精度の問題ではありません。たとえ人工知能(AI)による診断技術が発達したとしても、100%正解となる検査はないのです。そしてこのような検査の不確実性への理解は、医療関係者の間でも決して十分ではないと思います。

多くの検査はその性質上、人を「正常」と「疾患(異常)」に分類してしまいます。それだけに、診断そのものが社会問題を引き起こすような重大な場面において、偽陽性・偽陰性への理解がなされないままに検査が濫用されることは、時に不要な差別や風評を生みかねません。このような問題は福島県で行われた被ばく線量やがんのスクリーニングだけでなく、新型コロナウイルスの診断などについても言えることなのです。

検査が関わる多くの公衆衛生学的問題を議論する際に知っていただきたいことは、以下の3点です。

  • 検査には精度管理が必要であること
  • 検査には偽陽性・偽陰性があること
  • 検査にはその検体を扱う人間が存在していること 

精度管理の重要性:事故直後の被ばく線量測定

福島第一原子力発電所事故の後、福島県では住民の内部被ばく線量を測定するためのホールボディーカウンター(WBC)が早々に導入されたことはよく知られています。

しかしこのWBCの試運転時、明らかに被ばくしていない人、例えば県外からやってきたばかりの方の線量まで高く検出され、密かに大問題となりました。原因は、検査室内に存在する自然放射線量についての補正がされていなかったことです。WBCが置かれた部屋がタイル張りであったため、そのタイルから放出される放射線量を機械の中の人の内部被ばく量として計測してしまった、などというケースもありました。このような測定誤差を除き、正確な線量を測定するためには、様々な環境整備が必要です。

もちろん原発事故の直後の段階では、多少不正確な値が出ても測定を行うことは重要でした。当初の優先事項は、多少の誤差はあっても高線量被ばくの方をなるべく早く見つけることだったからです。

しかし事故からかなりの時間が経った後でも、きちんと精度管理がされない測定器を持ちこみ「福島の線量が高い」と喧伝するような活動があり、数値が独り歩きして社会混乱を引き起こしたことも事実です。

偽陽性と偽陰性

そしてこのような精度管理上の問題がなくても、検査結果が100%正しい、ということはあり得ません。たとえば健康診断で「便潜血陽性」と言われ、大腸カメラの検査を受けた方はたくさんいらっしゃると思います。大腸カメラで良性のポリープや痔が見つかり「がんじゃなかった」と胸をなでおろした方もいらっしゃるのではないでしょうか。

このように

「検査で陽性(疑い)と出たけれども実際にはその疾患でなかった」

という結果を「偽陽性」と言います。たとえば福島県の甲状腺スクリーニングの「先行調査」において、2,293人が精密検査を必要とする「B判定」と判断されました。そのうち、実際にがんまたはがん疑いとされたお子さんは113人。これはB判定の方の4.9%です。つまり95%のお子さんは「偽陽性」であった、と言えます。

なぜ偽陽性がこれだけ多いかといえば、スクリーニングとはそういうものだからです。スクリーニングの目的は診断ではなく「見落としを少なくすること」です。つまり、間違ってもいいからたくさんの疑い症例を網の目にかけることが役割ですから、意図的に偽陽性率が高く設定されているのです。

検査の正診率は疾患の頻度で変わる

この偽陽性や、逆に陽性の患者さんを陰性と判断してしまう「偽陰性」の起こる確率を決めるのは、検査の感度と特異度というものです。感度とは陽性の患者さんをきちんと陽性と診断する確率、特異度とは検査陰性の患者さんを陰性と診断する確率のことです。日常行われる検査では全て、この感度と特異度が計測されています。しかし、この感度・特異度は「正診率」を意味しません

下の表を見てください。これは500人の患者と500人の健常者がいる集団で、感度90%、特異度80%の検査を行った結果です。疾患のある患者さんのうち、正しく「陽性」と診断された方の人数は500人中の90%=450人、健常者のうち正しく「陰性」と診断された方は健常者500人中の80%=400人です。

つまり、100人の健常者は実際に疾患を持たないのに「持っている」と診断されてしまったことになります。この表を横向きに読めば、陽性と診断された550人中100人(11%)が実は健常者であった、ということになります。

しかし普通の集団において、半分の方が同じ病気を持っている、という状態は稀です。では病気を持っている人の割合がり10人に1人、10%であったら、どうなるでしょうか。

この場合も、疾患を持つ方がちゃんと「陽性」と診断される割合、つまり感度は変わりません。

しかし疾患を持っていない人の人数が多いために、その中の20%が偽陽性となれば、その人数も多くなります。その結果、「陽性」と診断された人のうち、本当に疾患を持っている人の割合はなんと3分の1程度まで下がってしまうのです。

つまり稀な疾患をスクリーニングすると、疾患を持っていないのに「陽性」と診断された人の数が、正しく診断された人の数よりもはるかに多くなることがある、ということです

実際の検査はこれよりもずっと高い感度・特異度を持ちます。しかしどんなに感度・特異度が高くても、その疾患の集団における割合(罹患率)が低ければ、誤って陽性と診断される人数が増えてしまいます。福島で行われた甲状腺スクリーニングのように、健常人を大量に含むような網羅的な検査をした時に大量の「B」判定が生じるのは、このためです。

実際に新たな検査が行われる場合、大まかな感度・特異度についての知識は事前に共有しておく必要があります。そして、これはたとえAIのように、非常に精度の高い検査であっても変わりません。

(下に続く:17日朝掲載します)

【訂正9:43】2つ目の図を再計算し、差し替えました。本文の主旨に変わりはありません。