④ 感度(敏感度)*1と特異度*2
検査や各種診断方法によって、本当に疾患や病態を診断しているのかどうかは非常に興味のあるところで、例えば理学テストが陽性ならば、本当にその病気なのか、また逆に陰性ならばその病気でないといえるのかということは診断において根元的な問題である。
一般的なスクリーニング検査において、検査の能力を表現するに種々の指標が用いられる。検査の疾病発見能力を見る指標としては感度(敏感度)*1があり、
感度=検査で正しく発見された罹患患者数/全罹患患者数×100%
検査で正しく発見された罹患患者とは、疾病があって検査で陽性になった者のことをいう。また、逆に実際に疾病にかかってない者が検査で陰性になるかどうかを表す指標としては特異度*2がある。
特異度=検査で陰性となった非罹患患者数/全非罹患患者数×100%
これは、実際に疾病に罹患してないで検査で正しく陰性になった患者の割合を示すもので、感度も特異度も値が高いほど検査能力が高いということを示している。そして、この感度と特異度をあわせて総合的に検査の能力を示す指標として有効度*3がある。
また、実際に検査を受けた者の立場で考えた場合に最も関心があるのは、検査で陽性と出た場合に本当に疾病があるのかどうかの確率である。これは、陽性反応的中度*4といって全陽性所見者の中で実際に疾病を有する者の割合で示す。
また、その逆に検査では陰性と出たけれど本当に疾病に罹患してないのかどうかを示す指標として陰性反応的中度*5がある。
図7は、椎間板ヘルニアの検査として有効性がいわれるSLR(下肢伸展挙上テスト)の有効性についてその検査能力を調べた表(ただし、数字は全く架空のもの)を元にこれらの指標について考えてみよう。
まず、感度は 4/5×100% で80%となり、実際に椎間板ヘルニアの人に対して80%の確率で陽性所見を出すという能力を持っているということになる。また、特異度は89/95×100% で約94%となる。有効度は(4+89)/100×100%で93%となる。同様に陽性反応的中度は40%で陰性反応的中度は99%ということになり、SLRが陽性だからといって実際にヘルニアだという確率はそれほど高くないが、陰性であればまず間違いなくヘルニアで無いというような評価ができるということである。
ここで、検査法の能力を示す指標である感度80%、特異度94%が高い数値がどうかは他の検査との比較で決まるのだが、例えば背部の圧痛の有無やレントゲン所見などと比較して判断することになる。しかし、実際には感度や特異度だけでなく、それらの諸検査の費用・利便さ・副作用などを考慮して総合的に判断することになる。すなわち、もしSLRの感度や特異度がレントゲン所見とあまり変わらないのであれば、利便性とX線の被爆の問題及び費用の問題で明らかにSLRの方が有利となるが、背部の圧痛と比較してSLRの方が良い結果が出ても、SLRを行うことによって患者に強い苦痛を与えたり、悪化させたりすることがあれば、背部の圧痛の方が優れた検査法ということにもなる、ということである。
今までは、沢山の検査法をその優劣を考えずに、沢山行えば行うほど的中率が上がるだろうという発想の元に行ってきた実状がある。しかし、それは全くのナンセンスであって、検査が多いということは診断に混乱を起こす可能性が高いということであり、経済的にも無駄が多いばかりか、患者の肉体的・精神的・経済的・時間的損失を招いているという可能性も高い。診断に混乱を起こす可能性が高いということは、いわゆる総合判断をしなければならないということで、判断する人により診断が食い違う可能性が高いということになる。その2で記述したように、沢山の検査をパラレル(同レベルで並行に)に行うということは現代科学の思惟体系に無い発想であるということでもある。医師であれば誰が行っても同じ結論になるような診断システムが求められるし、コストパフォーマンス(経費を最大限に生かすこと:最小の経費で最大の効果を目指す)が声高にいわれる時代において、医療だけが例外であるわけではなく、経済的に効率的な検査の仕組みが求められるのも当然である。
<鍼灸治療における診断法とEBM>
鍼灸治療においても同様であり、いくら東洋医学的な思惟体系であるからといって沢山の診断をパラレルに行って良いものかどうかは良く吟味する必要がある。四診合参といえばかっこ良いが、判別分析(沢山の診断を幾つかの病名に数学的に判別する多変量解析の一手法)をするというわけでなく、経験と直感のみで行っている実状があり、実際には経絡治療のように六部定位脉診に最大限の重みを置いて、四診合参というより六部定位脉診単一診断ともいえる診断体系を便宜的であってもとらざるを得ないのである。ただし、この経験と直感で行う診断法を排除するというわけでは決してない。後述するように多分熟練者どうしでは、ほぼ同じ結論が出るようになるのであろうが、芸術の世界と違って熟練するまでに患者を練習台にするわけであるから、やはり誰でも学んで少しの経験を積めば同じ結論を出せるようなシステムにすることは重要であろう。熟練しなければわからないというのではなく、熟練しなくてもある一定レベルの水準に達することができて、熟練はその精度を高めるというレベルにすべきである。
そこで、EBMの手法を用いて鍼灸の診断法を整理し、誰でもが同じ結論が出るような診断体系を築くことができないだろうか。
図7でもわかるように、確定診断があって初めて検査法の種々の指標を求めることができる。よって、とりあえずは確定診断が可能なものに限られる。
そうするといわゆる理学テスト(運動負荷テスト)は、それが可能である。
<胸郭出口症候群の理学検査は有用?>
福岡大学医学部整形外科の柴田陽三講師らは、胸郭出口症候群(TOS)の理学所見について、正常人312名617側とTOSの診断が付いた106名108側を対象としてその有用性を検討した1)。対象となったテストは、Adson’s test、Wright’s test、Morley’s test及び3分間テストの4テストである。
図9~図12までがそのデータであり、図13はその総括である。この研究では感度と特異度を指標としている。
それぞれのテスト方法については、成書に譲るとして、陽性について若干異論があるかもしれないので、この研究での陽性の意味を確認する。
Adson’s testは、頸を患側に回旋して深吸気し、吸気を止めたところで橈骨動脈の拍動が減弱・消失したものを陽性とする。
Wright’s test は、肩関節90°外転・外旋位で橈骨動脈の拍動が減弱・消失したものを陽性とする。
Morley’s test は、鎖骨上窩部の圧迫で指先までの放散痛があるものを+3、肩・肘・前胸部・背部への放散痛は+2、圧痛のみを+とするが、ここでは+3と+2を陽性とする(+も陽性とすると、正常者でも28%以上が陽性となるので)。すなわち、圧痛だけでは陰性とし、痛みが放散するもののみを陽性とした。
3分間テストは、肩関節90°外転・外旋位で手指の屈曲・伸展を繰り返さし、上肢の痛みや脱力感などのために3分間手指の屈伸を持続できないものを陽性とする。
この研究におけるデータの、感度、特異度、有効度、陽性反応的中度、陰性反応的中度を計算したものを図14に示す。この中で著しく低い値はWright’s test の陽性反応的中度とAdson’s testの感度である。陽性反応的中度が低いということは、検査で陽性であっても疾患がある確率が13%であり、87%が正常であるということを意味しているので、検査の有用性は低いといわざるを得ない。しかし、陰性であれば96%に疾患がないということなのでこれは意味がありそうである。ただ、疾患がない人で陰性に出る確率(特異度)が54%でかなり低いが、これは正常者でも陽性に出る人が非常に多いために起きる現象である。よって、Wright’s test では、検査陽性には意義はないが、陰性には意味があるという報告の通りと考える。念のために、χ二乗検定を行うと1%水準で有意となり、偶然では起き難い結果といえる。
Adson’s testでは、感度が低い、すなわち疾患があっても陰性と出ることが多い(73%)ので、陰性であったからといって疾患がないとは言えないが、陰性反応的中率は90%あって有用性がないとは言い切れない。しかし、正常者で陽性と出ることが非常に少ない(0.5%)ので、検査で陽性となった場合には有用な検査である。しかし、陽性反応的中率は89%で陰性反応的中率よりも若干だが低い。この論文では、感度と特異度で検討しているので図13のような結論となったと考えるが、私は陽性の場合も陰性の場合もAdson’s testの有用性は同様の評価であり、ともにそれほど高いとはいえないと考える。元々の陽性率(全体で陽性になる確率)が低いのでこういう結果となったではないかと考えられる。検査の意義を考える場合には、感度や特異度及び有効度が重要であるが、我々は、患者も含めて検査の結果から病態を判断していく立場であるから、感度や特異度よりも陽性反応的中度と陰性反応的中度の方が興味がある。
次にMorley’s test を考察してみる。図11のように2+以上を陽性とした場合、感度は63%と低くなるが、+1迄陽性とすると感度は84%となる。しかし、特異度は2+以上の場合94%であるが、+以上とすると72%に下がる。また、有効度は陽性2+以上の場合は90%であるが、+以上の場合は76%にさがってしまう。同様に、陽性反応的中度は、陽性2+の66%から+の場合には34%に下がり、陰性反応的中度は2+の94%から+の96%に若干上がるに過ぎない。感度と特異度だけを見るとどちらともいえないが、有効度を見ると明らかに2+迄を陽性とした場合の方が良いようであるし、陽性反応的中度と陰性反応的中度を比較しても同様に2+迄を陽性とした方が検査の信頼性は高まる。この陽性反応的中度と陰性反応的中度を合わせた、検査反応的中度なる指標を考えてみるとそれはまさに有効度と一致する。ちなみに、3+だけを陽性とした場合の有効度は90%で2+以上の場合と変わらない。しかし、感度が非常に小さくなり(25%)Adson’s testと同様に有用な検査とは言い難くなるだろう。
さて、Morley’s test の陽性を2+以上とした場合に、この検査の有用性はどうであろうか。感度は63%、陽性反応的中率66%は決して高くはないので意義はないとはいえ無いが信頼性は乏しいといわざるを得ない。すなわち陽性だからといって、前斜角筋症候群である可能性は2/3程度しかないということであるし、陰性だからといっても6%程度は疾患を有している可能性があるということである。同様にいえば、Adson’s testでは、陽性であっても陰性であっても10%程度誤診があるという前提で90%程度信頼できる検査ともいうことができる。
では3分間テストはどうであろうか、この検査は他の3つの検査と比べて、あらゆる評価値が最も高く、この4つの検査では最も有用性・信頼性が高い検査であるということができる。ただ、Morley’s test も同様(痛みや放散の有無を患者に問う)だが、患者の我慢強さという患者の主観に左右されるのが欠点といえば欠点である。
この研究には、おもしろい材料がもう一つある。それは同じ福岡大学整形外科で1982年に「胸郭出口症候群における諸検査の陽性率の統計的考察」と題する論文が出されており、その時のデータと今回のデータは同じであるを推察される2)。しかし、当時はEBMの手法が応用されておらず、ただ単に陽性率のみを検討材料としていた点が全く違う。また、自覚症状との相関も検討材料としていた。
その時の結論は、
1、Morley’s test (2+以上)と3分間テストの陽性例は診断的価値が高い。
2、Wright’s test は正常でも約半数近くが陽性であるため、脈拍の減弱のみ にとらわれることなく、手指の痺れ感、痛みの出現に注意を払う必要がある。
(定義上の陽性だけでなく症状の再現も陽性として考慮すべき:小川注)
3、Adson’s testの陽性率は低いが、TOSの診断上有用である。
というようにまとめられている。今回のまとめであるところの図13の結論とはやや違った結論となっている。また、今回と同じくAdson’s testの陽性時にはその診断的価値を認めているが、陽性反応的中度と陰性反応的中度を見る限りにおいては、陽性でも陰性でも同様の価値であるということがいえるので、陽性のみに診断的価値があるとはいえないと考える。
1982年の論文では、陽性率だけで検討していたが、1998年の論文では、感度と特異度を考慮して検討されているために、一歩踏み込んだ結論が出ている。しかし、それに有効度、陽性反応的中度及び陰性反応的中度を考慮するともう少し違った結論になることを今回のデータから知らされた。改めて、EBMの知識が論文を読む際に必要であることを認識させられた感がある。
ただいずれにしても、今回の二つの論文においてもそうであるが、ただテストの結果だけで判断せず、自覚症状の有無と程度を考慮しながら判断しなければいけないと結論している。すなわち、テストが陽性であっても、自覚症状が全くなければ、疾患を疑う必要がない(可能性が低いと判断)し、テストで陰性であっても自覚症状が強く、疾患への疑いが強く示唆されているときは疾患無しと判断してはならないということである。そして特に重要なのは、テストによる陽性反応(例えば脈拍の減弱・消失)だけでなく、症状の再現が重要な要素であり、症状の再現があればテストの定義上の陽性でなくとも陽性と判断する方が良いということである。
そして、この二つの論文では、疾患がないのにテストが陽性になったり、疾患があるのにテストが陰性になったりすることが多いことから、TOSは筋骨格系の何らかの異常により脈管系に異常を起こして起きる病態というよりは、神経系に異常を起こす(神経絞扼)病態であることが示唆されていると述べている。
この二つの論文は、筑波大学の濱田淳講師に提供していただいた。全日本鍼灸学会東京地方会では『愁訴からのアプローチ』が一段落付いたので、本年度は研究会のテーマとして、様々な試みを行っていく方針であり、その一環に理学テストの見直しがある。それは濱田講師が中心となって進めているわけでなので、資料の提供をお願いした次第である。情報が非常に多く、個人の力ではなかなか必要な情報を集めることは困難である。それは、インターネットやCD-ROMが普及しても本質的にはそう変わらない。確かにインターネットは国際化及びSOHO*7を進めたし、CD-ROMは情報の集約化を進め、ともに情報入手のスピードアップを進めたが、CD-ROMは高額であり個人では入手が困難であるし、ともにキーワードの選択を含めて検索に難がある。やはり、英語力と情報入手ののために時間が必要である。できたら、チームを組んで情報の獲得に努める必要がある。本来は学会の学術部などで行う仕事かもしれないが、予算が限られているし、役員・委員一同皆本職を持ち、その他に手弁当で行っている仕事なので元々限界がある。英語力があり、コンピューターリタラシーがある人が何人か協力していただければできる仕事であるのだが。 つづく
<今回のキーワード>
*1 感度(敏感度、sensitivity):実際に疾病にかかっている者が検査で陽性 になる割合で、検査による疾病発見の能力を表している。
図8でいえば、 a/(a+c)×100% となる。
*2 特異度(specificity):実際に疾病にかかってなくて、検査でも陰性に出 る者の割合で、感度と同様に検査の能力を示す指標。
図8でいえば、 d/(b+d)×100% となる。
*3 有効度(efficiency):検査が疾病の有無を正しく反映したかどうかを示 す指標で、図8でいえば (a+d)/N×100% となる。
すなわち検査をした全部の数の内、陽性であってかつ疾病があった数と陰 性であってかつ疾病がなかった数を加えた者の割合ということになる。
*4 陽性反応的中度(positive preductuve value ):全陽性所見の内で実際 に疾病に罹患している者の割合を示す指標で検査の能力を示す数値ではない。
図8でいえば、 a/(a+b)×100% となる。この数値は、疾病 の有病率に影響されるために、有病率が違う集団間のスクリーニング検査の 有効性を比較する指標にはならない。
*5 陰性反応的中度(negative preductuve value ):全陰性所見者の中で実 際に疾病に罹患してない者の割合を示す指標。
図8でいえば、 d/(c+d)×100% となる。陽性反応的中率も、 陰性反応的中率も検査を行った結果に基づいて新たに分かった確率という意 味で、事後確率ともいう。
*6 有病率(事前確率:prevalence)対象集団中に疾病罹患患者が存在する割 合で、検査前より疾病が存在する確率を示すことから事前確率ともいう。
図8でいえば、 (a+c)/N となる。
*7 SOHO:Small Office Home Officeの略で、小さな事務所及び自宅での 仕事を意味しており、書類や資料の山がいらなくなり(ハードディスクやC D-ROM等に入れる)、通勤しなくても自宅で仕事ができるようになって きている(Eメールやインターネット及び電話会議などで)こと等。
<引用文献>
1)柴田陽三 他 「胸郭出口症候群の臨床症状及び理学所見」
MB Orthopedics 11巻7号 p7-10 1998年
2)古賀哲二 他 「胸郭出口症候群における諸検査の陽性率の統計的考察」
整形外科と災害外科 第30巻3号 p448-451 1982年
1)と2)の文献は筑波大学の濱田淳講師から資料を提供いただいた。
コメント