Pandasに関する世界観です。PythonでAI入門や人工知能・AI・機械学習・データマイニングも参照のこと。
Pandasはデータ解析用のライブラリ。
実際、データマイニングやデータサイエンスをしたいなら、Pandasが便利です。
データフレームという二次元のラベル付きデータ構造を使いながら、表形式のデータ分析ができる。CSVやExcel、RDBMSとの連携が可能で、SQLなどのデータベース管理システムでできることもできる。ピボット処理や統計計算も可能。
SQLやExcelとも、Railsでやるマイグレーションとも似ているところがある。僕個人の感想としては、UNIXのツールと同様のメソッドをPythonから使う感覚である。
Pandasの詳細を知りたい方は、Python[完全]入門という書籍を読むことがおすすめです。
この本では、Pythonの丁寧な解説とともに、さまざまなPythonの外部モジュールの解説がなされており、NumPy、Pandas、Matplotlib、scikit-learnなどを使ったデータ解析・機械学習の簡単な説明を理解することができます。
具体例として、まず、PandasとMatplotlibをインストールします。これはpipあるいはAnacondaで導入します。
たとえば、データフレームをCSVファイルから読み込み、物理の点数が80点以上のものを抽出するには以下のようにします。
import pandas science_score = pandas.read_csv('science_score.csv', encoding='utf_8') science_score.query('Physics >= 80')
また、Matplotlibを用いて物理の点数のヒストグラムを表示するには以下のようにします。
import pandas from matplotlib import pyplot science_score = pandas.read_csv('science_score.csv', encoding='utf_8') pyplot.figure('Physics') pyplot.hist(science_score['Physics']) pyplot.savefig('physics_hist.png') pyplot.show()
詳しくは書籍Python[完全]入門を読んでください。
Python入門(応用・モジュール)も参照のこと。
(Python[完全]入門を参考に執筆しました。)
Pandasの基本は、データフレームです。
データフレームとは、二次元のラベル付きデータ構造で、Pandasではデータフレームを分かりやすくビジュアルで表示してくれます。
また、さまざまなメソッドやインデックス操作によって、データフレームを操作することが可能です。
特に、CSVファイルを読み書きするためのread_csv()メソッドとto_csv()メソッド、[]を使用したインデックスによる選択、条件式で抜き出すquery()メソッドはよく使います。
Pandasと相性がいいグラフ表示のライブラリがMatplotlibです。特にpyplotモジュールをよく使います。
pyplotでは、図を作るfigure(), X軸のラベルxlabel(), Y軸のラベルylabel(), ヒストグラムの表示hist(), ファイルへのセーブsavefig(), 画面への表示show()などの関数をよく使います。
2023.01.19
R言語も参照のこと。