mixiユーザー(id:46040)

2020年02月06日19:38

50 view

初めてのPandas

最近、病院でがん研究をやっている先生に頼まれて、データの作成をしています。

作業に取り組む前に、現在のデータに欠落が無いかをチェックして欲しいとのことでしたので、登録されているデータと病理検査データを比較することにしましたが、登録データからの突合せは簡単ですが、検査結果データに登録データから漏れている人がいるかどうかのチェックは至難の技のようです。

検査結果データをそれらしいキーワードで探しても9700件も抽出され、もっと絞り込みが必要です。

そこで思いついたのが、AIプログラマ御用達のPandasの利用。以前から興味はあったのですが、業務で使うのは初めてです。

まずは、2つのデータをそれぞれ読み込んで、患者IDをキーにしてマージ。マージしたデータを病名別の集計と、検査結果判定データ別の集計をCSVで出力するスクリプトを作成。ここまで、10ステップ以内の記述でOK、素晴らしいです。

ある患者の結果を見ると、何年ものデータが並び、最終的にがんと判定された時期とキーワードが一致しており、このキーワードで病理検査データを探したらがん登録されていない患者が発見されました。(ただし、対象期間外)

なるほど、こうしてAIは微細なデータを抽出していくのでしょうね。今後は、前記後半部分の登録漏れ患者発見の手順をスクリプト化してみる予定です。

0 0

コメント

mixiユーザー

ログインしてコメントを確認・投稿する

<2020年02月>
      1
2345678
9101112131415
16171819202122
23242526272829