pandasのDataFrameの基礎を理解する

2022年7月5日

皆さん、こんにちは。

南波真之（なんばさねゆき）と申します。

私はエンジニアではない文系の人間ですが、Pythonの可能性やデータ分析を使った仕事に興味があります。

前回はPythonの標準機能に追加しての数値計算や多次元配列を利用できるNumPyの機能であるユニバーサルファンクションとブロードキャストについて取り上げてきました。

ユニバーサルファンクションは一括で配列内のデータを変換してくれる機能、ブロードキャストは配列の内部データに直接演算を行える機能です。

さて、今回はpandas（パンダス）です。私が勉強しているPythonによるあたらしいデータ分析の教科書（翔泳社）の、P133.〜P.143の部分にある、pandasのDataFrame（データフレーム）について学習してみました。

pandasとは？

pandasとは、Pythonでのデータ分析を容易にするような機能のライブラリです。データ分析のツールとしてはとてもよく使われているものです。

データ分析をする際には、手元にあるデータをまず整理するところから始まります。これを前処理と呼ぶこともありますがこのデータ整理で大きく効力を発揮します。

pandasは、NumPyを基盤にして2つのデータ型があります。1次元データのSeries（シリーズ）と2次元データのDataFrame（データフレーム）です。今回はよく使われるDataFrameについて学習します。

初めてpandasを使う場合は、まずpipを使ってインストールするところから始めます。

pip install pandas

pandasを使うには NumPy同様に以下のようにインポートを行います。

import pandas as pd

DataFrame（データフレーム）

DataFrameは2次元のラベル付きのデータ構造のことです。表のような形式になるため、ExcelやSpreadsheetのようなイメージが作れます。

まずは例を見てみます。

import pandas as pd
df = pd.DataFrame({
    # ディクショナリ型でデータを入れてみる
    ‘名前’ :[‘田中一郎’, ‘山田次郎’, ‘高橋三郎’],
    ‘社員ID’ : [32, 103, 3],
    ‘役割’ : [‘営業本部長’, ‘マーケティング部’, ‘COO’],
    ‘趣味’ : [‘マラソン’, ‘ソロキャンプ’, ‘海外旅行’]
    })

df

この出力結果はこちらです。

Excelのような表の形式になっていますね。

この表の0~2の縦部分をindex（インデックス）、名前〜趣味までの横のことをcolumns（カラム）といい、知っておくと便利です。

それは、様々な記述方法において、indexとcolumnsを指定することができるからです。

１．上記のソースコードにてindexを編集する

df = pd.DataFrame({
    # ディクショナリ型で入れてみる
    “名前” :[“田中一郎”, “山田次郎”, “高橋三郎”],
    “社員ID” : [32, 103, 3],
    “役割” : [“営業本部長”, “マーケティング部”, “COO”],
    “趣味” : [“マラソン”, “ソロキャンプ”, “海外旅行”]
    })
df.index = [“001”, “002”, “003”]
df

２．リストを使って表現

df = pd.DataFrame([[“田中一郎”, 32, “営業本部長”, “マラソン”],
[“山田次郎”, 103, “マーケティング部”, “ソロキャンプ”],
[“高橋三郎”, 3, “COO”, “海外旅行”]])
df.index = [“001”, “002”, “003”]
df.columns = [“名前”, “社員ID”, “役割”, “趣味”]

df

このように、indexとcolumnsは指定できるためよりわかりやすく表示を編集することができます。

pandasのデータ型 object型について

先程のソースコードで出力されたデータの中で、社員IDだけが整数（int型）で、その他がobject型という扱いになります。それを確認してみます。

import pandas as pd
df = pd.DataFrame({
    # ディクショナリ型で入れてみる
    ‘名前’ :[‘田中一郎’, ‘山田次郎’, ‘高橋三郎’],
    ‘社員ID’ : [32, 103, 3],
    ‘役割’ : [‘営業本部長’, ‘マーケティング部’, ‘COO’],
    ‘趣味’ : [‘マラソン’, ‘ソロキャンプ’, ‘海外旅行’]
    })
print(df.dtypes)

データタイプを見てみます。

名前      object
社員ID     int64
役割      object
趣味      object
dtype: object

整数の社員IDがint型、それ以外がobject型になっています。

pandasは列ごとにデータ型を持っており、これはpandas特有のデータ型です。文字列を含むデータは、object型に指定されます。1つの列に整数と文字列が混在している場合もobject型になります。