pandasで読み込んだCSVの値がNaNだったときの対処方法

Posted on 28th 4月 2019 by press

DjangoのWEBプリケーションでCSVをpandasで読み込んでforで一行ずつループ処理をしたところ、毎回決まったところで決まったエラーが出たのでPyCharmのデバッグ機能を使って原因を調べた内容です。

プログラムはCSVから読み込んだ文字列が既にデータベースにあるか調べて、存在しなければ処理をして保存するといった内容です。メインの処理は以下のコードの”# 通常の処理”以降に始まりますが、内容とは関係が薄いので今回は割愛します。

最初のコード

import pandas as pd
from information.models import Information


def text_information(request):
    datasets = pd.read_csv("/csv/title.csv", encoding="utf_8")

    for title in datasets.TITLE:
        title_count = Information.objects.filter(title=title).count()

        if title_count < 1:
            # 通常の処理

CSVのデータが欠損していたり、空白だったりすると読み込んだデータがNaNになってしまいます。上記のコードでは受け取ったtitleが存在するかどうかを判定するので、NaNというtitleがデータベースに存在するかどうかを調べます。この場合、存在しないのでtitle_count = 0となり通常の処理が走ります。通常の処理以降でtitleを文字列として処理すると文字列ではないためエラーが発生します。

読み込んだデータがNaNの時にはクエリをしない様に変更した最終的なコードになります。

import pandas as pd
from information.models import Information


def text_information(request):
    datasets = pd.read_csv("/csv/title.csv", encoding="utf_8")

    for title in datasets.TITLE:
        if title != title:
            # nanの時の処理
            title_count = 1

        else:
            title_count = Information.objects.filter(title=title).count()

        if title_count < 1:
            # 通常の処理
            # 実際にはここから文字列の処理をしています。

datasets = pd.read_csv(“/csv/title.csv”, encoding=”utf_8″)
CSVのデータをdatasetsに代入します。

for title in datasets.TITLE:
読み込んだCSVからカラム名がTITLEのデータを繰り返し処理します。

if title != title:
NaNは自分同士を比較するとFalseとなるので、ここでNaNかどうかを判定しています。もしNaNならtitle_count = 1にしています。

title_count = Information.objects.filter(title=title).count()
データベースに存在するかを調べます。

if title_count < 1:
もし存在しなければ、続きの処理をします。

株式会社ファントムへのお問い合わせ

群馬県でPythonを使ったAIやソフトウェアを開発している株式会社ファントムが運営しています。

Show Comments (0)

Comments

Cancel Reply

コメントを投稿するにはログインしてください。

Related Articles