pandasのデータの読み書き編集を理解する

2022年7月5日

皆さん、こんにちは。

南波真之（なんばさねゆき）と申します。

私はエンジニアではない文系の人間ですが、Pythonの可能性やデータ分析を使った仕事に興味があります。

前回はPythonでのデータ分析を容易にする機能のライブラリであるpandasについて取り上げてきました。Pandasを使う際の特有のデータ型DataFrameを使った多次元のデータの出力や取り出しをすることでデータの分析を行うことができる部分まで一緒に見ていきました。

ご興味ある方はぜひご覧ください。

さて、今回もpandas（パンダス）です。私が勉強しているPythonによるあたらしいデータ分析の教科書（翔泳社）の、P143.〜P.158の部分にある、pandasを使った外部データの読み書きやデータの編集について学習してみました。

pandasでのデータ読み書き

pandasとは、Pythonでのデータ分析を容易にするような機能のライブラリです。データ分析のツールとしてはとてもよく使われているものです。データ分析をする際には、手元にあるデータをまず整理するところから始まります。これを前処理と呼ぶこともありますがこのデータ整理で大きく効力を発揮します。pandasは、NumPyを基盤にして2つのデータ型があります。1次元データのSeries（シリーズ）と2次元データのDataFrame（データフレーム）です。

分析をするデータというのは、1から作るよりは外部のツールやファイルから出力されたデータという場合が多いかと思います。主流なところでいうと、CSVやExcelになるでしょう。例えば自分のPCにあるCSVファイルをpandasを使って読み込んでみて出力をし、そのデータをpandasで整理しNumPyなども使って分析していくというような流れが取れます。

pandasでのデータ読み込み

まずは、データの読み込みについてです。試しにCSVファイルを読み込ませてみます。

import pandas as pd
## pandasで特定のCSVファイルの読み込み
df = pd.read_csv(‘data/202204health-data.csv’, encoding=”utf-8″)
df

CSVの中のデータが読み込まれて出力されました。

この読み込みで躓くところはCSVファイルの指定の部分になります。ファイルが見つからない事によるエラーはよく出ますので、読み込ませたいファイルをしっかりパス指定できているのかを確認しましょう。一番確実なのは絶対パス（Macであれば、/Users/ユーザー名/〜のなどのようになる）で指定してあげるといいです。

この手法はExcelでも可能で、Excelの場合はpd.read_csvの部分がpd.read_excelとなるだけです。

その他にもスクレイピングのような方法でWebサイトのHTMLを読み込んでデータを取り込むという方法もあります。

例えば、WikipediaのURLを指定してそこにある特定のテーブルを取得するなどです。

## WebページのHTMLからDataFrameに取り込み
url = “https://ja.wikipedia.org/wiki/Python”
tables = pd.read_html(url)

## インデックス番号4番（5番目）の表を取得
df = tables[4]
df

pandasでのデータ書き込み

次はデータの書き込みです。作成したDataFrameをCSVファイルで書き出すこともpandasを使うと可能です。

## CSVに書き出し
df.to_csv(“’data/202204-new-data.csv’)
## Excelに書き出し
df.to_excel(“’data/202204-new-data.xlsx’)

これで該当の場所にファイルが出来上がることになります。

pandasを使って特定のWebページから読み込みを行ったDataFrameを編集して最終的にCSVファイルなどの形で書き出すという一連の流れができるようになります。

DataFrameをそのままファイルとして保存する

pandasには、今まで紹介してきたExcelやCSVの形式で書き出す他に、DataFrameそのままをファイル保存しておいて再利用させることも可能です。こちらのほうが手軽な気がします。

それは、pickleモジュールを使う方法です。

例えば、巨大サイズのCSVファイルを読み込み、データに手を加えていたとすると、CSVファイルの読み込みにも時間がかかってしまうことがあります。この場合に、1度CSVファイルを読み込んで、手を加えたところでファイルに保存しておくということを行います。これによって、

その後はそのファイルを読み込むだけで以前の作業結果を復元できるということです。

## Excelファイルを読み込み
import pandas as pd
df = pd.read_excel(“data/sampleデータベース.xlsx”)
## 出力
df

出力は以下のようになります。

## pickleを使い、.pickleとして保存する
df.to_pickle(“data/sampleデータベース.pickle”)

## 保存した.pickleのDataFrameを読み込み、dfに代入
df = pd.read_pickle(“data/sampleデータベース.pickle”)
## 出力
df

出力は以下のようになります。