FC2ブログ

記事一覧

307. まじめに考えようよ(AI)

  • カテゴリ:AIを丸々は信じない
  • NHKスペシャルの
    AIに聞いてみた
    どうすんのよ!?ニッポン
    」を
    遅ればせながらオンデマンドで見たんですよ。
    (1つめの例までですけれど)

    何せ、
    299. 防犯とうんこドリル?がありましたんで、
    僕的裏番組になってしまっていて、
    リアルタイムに見れなかったんですよ。

    で、見たんですよ。(途中までですが、1例は完結しました。)
    水を差すようなのですが。

    30年分の都道府県のデータから導き出される数字、
    つまり、ある項目に関する経年変化のグラフ同士を比べて
    ある項目が増えたときに数年後に増えたか減ったかした項目というのを見つけ出して、
    とりあえず該当しそうな項目を数え上げて、
    何か因果関係があったらいいな

    というアプローチだそうですね。

    いいんですけれど、
    何かの変化が原因で他の何かの変化が起きていると
    必ずしもわかるんでしょうか?


    そもそも複数の原因の要素による相殺
    ということについて考えられていないよう
    なんですが。
    つまり、ある原因で結果となる項目の値が大きくなったとしても、
    別の原因が同時に働いて、その原因によってその結果と成る項目の値が小さくなるように影響した場合、
    グラフはどちらの原因とも異なる形になることは容易に予想が付きます。
    その場合関連付けられません。
    ひろし君の頭の中の線が引かれないことになります。
    そのため、この手法では全ての原因について考え尽くすことができないため、
    穴だらけの考察になってしまいます。


    まず、一見すると大丈夫そうな例を含む例を挙げます。
    例えば、
    「バナナの購入額(1人あたり1年分)」について考えてみましょう。
    「バナナの購入額=バナナの単価×バナナの本数」ということになりますので、
    (結果Z=A×B、 A,Bは原因)
    「バナナの単価」が増えた場合に食べる「バナナの本数」を変えなければ
    「バナナの購入額」は「バナナの単価」が増えると増えるという関係になります。

    しかし、1ヶ月の支出の内訳として、「バナナの購入額」を一定にしたい(これ以上は出せないなど)場合、
    「バナナの本数」を控える(減少させる)でしょうから、
    結果として「バナナの購入額」は、「バナナの単価」が上がったとしても変化しないということになります。
    つまり、「バナナの単価」が上がったからと言って「バナナの購入額(1人あたり1年分)」は変化せず関係ないということになります。
    この事象の原因として、「バナナの購入額」を一定にしたいという人の気持ちが働いたからと考えられます。
    もし、「バナナの購入額」が「バナナの単価」が上がったとしても変化しないということが
    意外に感じられた場合、
    大切な事象と因果関係が発見されたと感じる
    でしょう。
    (線は引かれませんが)

    しかし、逆に、「バナナの単価」が減り、
    これ以上はバナナに出せないという金額で、
    おなか一杯になる以上のバナナを買えてしまった場合、
    そこまで買いませんから、
    結果として「バナナの購入額(1人あたり1年分)」は「バナナの単価」が下がったことで、減少するに違いありません。
    (この場合線は引かれます)
    「バナナの購入額(1人あたり1年分)」と「バナナの単価」の間にはこのように複雑な関係があることになります。
    (ここまできちんと見えるんですかね?)

    グラフにすると、

    ということになります。
    上の議論中にかっこで書きましたが、
    ひろし君の頭の中の線が引かれる場合と
    引かれない場合の両方がある事象

    となります。

    また、
    相殺が起こっている場合は絶対に無理ですけれども、
    式にすると
    結果Z=A+B+・・・
    (原因A,B,・・・は共に無関係な物を含む)
    の場合はダメですし、
    結果Z=A×B+C×D
    (原因A,B,・・・は共に無関係な物を含む)
    などの場合もさらに原因究明が困難になると思います。

    つまり、議論の精度が低いんじゃないかと思うんですよね。

    原理的な欠陥といえるものが含まれている理屈を用いての解析ですので、
    大規模計算をするのは、人間の時間とお金とマシンタイムと電力が無駄になると思います。

    普通は、
    基本的に大規模に一気に計算する前に、小規模なテストをして確からしい、有意であるとわかってから、
    大規模計算に移る
    と思うんですけれど。

    さらに、すでにある統計データの項目が全てのこの世にある項目を網羅していないと、
    意味のないことになります。

    さらに、出てきたもので論じているのでインパクトがあり、正しそうに見えるのですが、
    数え落とされた項目に対してフォローはできませんので、
    数え落とすのが前提となります。
    (「ひっかかったら、ラッキーだよね」という姿勢自体はそういうことです。)
    そして、数え落とされた物は無関係と意味づけられていることになります。

    結局何が言いたいのかというと、
    考え尽くせてない場合、考えが偏り、失敗する確率が増えますので、
    結果を精査し直さないといけず、
    間違えた結論を導きそうなデータが出てきているんじゃないかということなんです。
    (頼りにならないデータマンみたいな感じですね。)

    だから、「何か結果が出てきたよ~、面白いね~」という余興にはなりそうですけれども、
    信じて行政計画を立てて実行することは僕はしなさそうですね。

    どうも、一見すると因果関係のない物同士が結びつくかも~ということで、
    出てきたデータは意味不明なのが当たり前であるかのように考え、
    (「ほら、AIは完璧じゃないからさ~」的に)
    さらに、人間の側でとりあえず冗長的に考えて何でも網羅しようよ的に考える事で、
    (思考するのをそこでやめちゃったんですかね?)
    番組を作ったようですが、
    きちんと物事の原理を追えていないようですので、
    番組で出てきた結果を信じて何かを論じることはできません。

    そうは言っても、現実に対応させたものを1つも考えないと
    怒られそうですから、
    番組で取り上げた事例を1個だけ考えてみます。

    病床数が減ると、人は健康になっているみたいと言うデータがあるようですが、
    医療が十分でないところでは、
    心配で病気がちの人はそこでは暮らせないから、その地域から出ていったというデータはないのでしょうか?
    (バナナと体を動かすのは、健康を保ちたいためであることはわかりますが)
    体を動かすというのは、病院のせいではなく、
    行政サービスに当てることのできるお金がなくなったからというのが
    直接の原因な気がします。
    (お金がないから、運動して楽しむと言うこともあるでしょうし。)
    病床数が減ったのも、医療にあてるお金がなくなったからですしねぇ。
    この議論は
    病床数(町医者さんの数、クリニックの数などとは関係ないそうですから)を
    議論の発端(そもそもの全ての原因)にして良いのかもわからず、
    データを改めてそろえて別の点からも考えたい議論ですよね。
    物事の本質を捉えられているか、別の見方からの検証が必要になると思います。
    (そうは言っても、一般的に元々のできの悪い物を頑張って添削しても、
    できが悪かったりするじゃないですか。
    そうならないか心配ですね。)

    とにもかくにも、
    AIのオペレーション自体に問題がありそうな
    データの土台の上では
    きちんとした議論はできないですよね。


    議論の原理的な物とは異なるのですが、
    もう1点考えておかないといけないことがあります。
    データの精度についてになりますので、議論の原理的な物とは異なりますが、
    例えば、ある項目の30個ある点の1年分、つまり1点が何らかの原因でイレギュラーな動きをしていた場合に、
    取り除いて大規模計算をしないと、その1点に引きずられて結果がおかしくなることがあります。
    きちんと精査されているといいと思いますが。
    (していないとは言っていませんが、重要なポイントです。)

    膨大な量の統計データ(700万個ですって)がデジタルデータになったのはめでたいので、
    研究者の人が扱えるように公開してくださるとありがたいんじゃないかと思うんです。
    (イレギュラーの物も入れておいてくださいね。研究者自身が自分の判断で取り除くか決めますから。)

    <追記>2017.08.06
    すみません。追記です。
    「ひろし君」とは、今回の番組のAIの名前だそうです。
    人じゃありません。

    プロフィール

    高久 真生(たかく まさお)

    Author:高久 真生(たかく まさお)

    ブログのポリシー私ってこんな人に準じます。(コピペができてしまいますが)
    各自正しいか、妥当か確認の上情報を取り入れてください。
    ブログの名前の由来(その2)
    カテゴリー分けの由来
    「おこさま、いらっしゃ~い」 2020.10.18更新
    音関連動画まとめ
    「私の作品 パワーステッカー」一覧
    English Edition of This Blog

    カテゴリ