Pythonを勉強し始めると、データ分析のためのライブラリ「pandas」を使うことが一般的です。しかし、初心者の方にとっては、練習用のデータセットを見つけるのが大変なこともあります。そこで、本記事では、Python初心者の方が簡単に利用できる20レコードと50レコードの2種類のデータセットを提供します。これらのデータを使って、pandasの基本操作を練習しましょう。
はじめに
Pythonを使ってデータ分析を始めたいと思っている方へ。このページでは、pandasを使ったデータ分析の練習に最適なデータセットを提供します。初心者の方でも安心して使えるように、コピー&ペーストで簡単に使える形式で用意しました。この記事を参考にして、データ分析の第一歩を踏み出しましょう!
pandasとは
pandas は Pythonでデータ操作を行うための強力なライブラリで、データの読み込み、操作、分析を簡単に行うことができます。特に、データサイエンスや機械学習の分野で広く使われています。
データセットの紹介
以下に、Python の pandas で利用できるデータセットを提供します。データはテキスト形式で記載していますので、コピーしてご自身のコードに貼り付けて使用してください。
20レコードのデータセット
import pandas as pd
from io import StringIO
data_20 = """
ID,名前,年齢,都市,給料
1,山田 太郎,28,東京,70000
2,鈴木 花子,34,大阪,80000
3,高橋 健太,45,名古屋,65000
4,佐藤 桜,29,京都,72000
5,田中 翔太,37,福岡,68000
6,中村 優太,24,札幌,54000
7,小林 愛,31,仙台,59000
8,加藤 大地,26,広島,53000
9,斎藤 直子,33,神戸,76000
10,渡辺 誠,40,横浜,62000
11,井上 美咲,27,さいたま,58000
12,山本 拓也,35,千葉,78000
13,伊藤 彩花,42,新潟,81000
14,木村 陸,30,岡山,60000
15,松本 美香,38,鹿児島,75000
16,石井 奈央,25,長崎,55000
17,清水 大輔,32,松山,61000
18,橋本 玲子,36,富山,64000
19,山口 真司,41,金沢,77000
20,森本 理沙,28,熊本,71000
"""
df_20 = pd.read_csv(StringIO(data_20))
20レコードのデータセットの結果
print(df_20)
ID 名前 年齢 都市 給料
0 1 山田 太郎 28 東京 70000
1 2 鈴木 花子 34 大阪 80000
2 3 高橋 健太 45 名古屋 65000
3 4 佐藤 桜 29 京都 72000
4 5 田中 翔太 37 福岡 68000
5 6 中村 優太 24 札幌 54000
6 7 小林 愛 31 仙台 59000
7 8 加藤 大地 26 広島 53000
8 9 斎藤 直子 33 神戸 76000
9 10 渡辺 誠 40 横浜 62000
10 11 井上 美咲 27 さいたま 58000
11 12 山本 拓也 35 千葉 78000
12 13 伊藤 彩花 42 新潟 81000
13 14 木村 陸 30 岡山 60000
14 15 松本 美香 38 鹿児島 75000
15 16 石井 奈央 25 長崎 55000
16 17 清水 大輔 32 松山 61000
17 18 橋本 玲子 36 富山 64000
18 19 山口 真司 41 金沢 77000
19 20 森本 理沙 28 熊本 71000
50レコードのデータセット
import pandas as pd
from io import StringIO
data_50 = """
ID,名前,年齢,都市,給料
1,山田 太郎,28,東京,70000
2,鈴木 花子,34,大阪,80000
3,高橋 健太,45,名古屋,65000
4,佐藤 桜,29,京都,72000
5,田中 翔太,37,福岡,68000
6,中村 優太,24,札幌,54000
7,小林 愛,31,仙台,59000
8,加藤 大地,26,広島,53000
9,斎藤 直子,33,神戸,76000
10,渡辺 誠,40,横浜,62000
11,井上 美咲,27,さいたま,58000
12,山本 拓也,35,千葉,78000
13,伊藤 彩花,42,新潟,81000
14,木村 陸,30,岡山,60000
15,松本 美香,38,鹿児島,75000
16,石井 奈央,25,長崎,55000
17,清水 大輔,32,松山,61000
18,橋本 玲子,36,富山,64000
19,山口 真司,41,金沢,77000
20,森本 理沙,28,熊本,71000
21,藤田 裕二,39,那覇,69000
22,佐々木 晴美,23,福島,53000
23,岡本 英子,29,青森,68000
24,島田 勇気,31,長野,72000
25,近藤 和子,35,岐阜,60000
26,村上 俊介,33,徳島,76000
27,高木 純子,27,高知,57000
28,竹内 洋介,45,宮崎,80000
29,新垣 奈々,34,沖縄,70000
30,萩原 徹,40,山梨,75000
31,小島 香織,36,群馬,62000
32,久保田 智,28,鳥取,54000
33,大橋 麗,31,島根,58000
34,青木 達也,26,秋田,56000
35,川崎 愛美,38,山形,74000
36,吉村 武,25,和歌山,55000
37,三浦 真,32,香川,71000
38,古川 賢一,29,三重,67000
39,西田 佳奈,33,奈良,62000
40,安田 剛,36,愛媛,73000
41,長谷川 美里,30,佐賀,70000
42,池田 弘,28,石川,64000
43,森 彩乃,34,大分,75000
44,篠田 和也,27,滋賀,58000
45,木下 舞,39,兵庫,69000
46,大久保 涼,31,山口,61000
47,田辺 桜,32,福井,72000
48,石橋 拓馬,37,愛知,73000
49,大川 麻美,29,岩手,68000
50,藤原 和馬,34,栃木,74000
"""
df_50 = pd.read_csv(StringIO(data_50))
データセットの使い方
- 上記のコードをコピーして、Pythonの実行環境(Jupyter NotebookやPyCharmなど)に貼り付けてください。
- df_20 および df_50 という変数にデータが読み込まれます。
- これらのデータフレームを使って、pandasの基本操作(フィルタリング、ソート、グループ化など)を練習しましょう。
pandasの基本操作例
データの表示
# 20レコードのデータセットを表示
print(df_20.head())
# 50レコードのデータセットを表示
print(df_50.head())
特定の列を抽出
# 20レコードのデータセットから名前と都市列を抽出
print(df_20[['名前', '都市']])
# 50レコードのデータセットから名前と給料列を抽出
print(df_50[['名前', '給料']])
データのフィルタリング
# 20レコードのデータセットから給料が60000以上の行を抽出
print(df_20[df_20['給料'] >= 60000])
# 50レコードのデータセットから年齢が30以上の行を抽出
print(df_50[df_50['年齢'] >= 30])
from io import StringIOのメリット
StringIO モジュールを使うことで、文字列データをファイルのように扱うことができます。これにより、以下のようなメリットがあります。
- 手軽にテストデータを作成: 実際のファイルを作成せずに、簡単にデータを読み込むことができます。これにより、データセットを素早くテストすることができます。
- 柔軟なデータ操作: テキストデータを直接操作できるため、データの生成や変更が簡単に行えます。
- 効率的なリソース管理: ファイル操作を伴わないため、ディスクのリソースを節約できます。
特に学習の初期段階では、テストデータを用意するのに多くの時間を割くことは避けたいものです。このような場合に StringIOを使ってテキストデータを手軽に読み込むことができます。これは、データ分析やプログラミングの学習をスムーズに進めるために非常に便利な方法です。
Pythonを使うことのメリット
Python と pandas を使うことで、データの読み込みから分析、可視化までを一貫して行うことができます。手動で行うよりもはるかに効率的で、時間を大幅に節約できます。また、プログラムとして保存しておけば、同じ処理を何度でも再利用できるため、業務の自動化にも役立ちます。
まとめ
Pythonとpandasを使ったデータ分析は、効率的かつ効果的にデータを処理するための強力な手段です。本記事で提供した20レコードと50レコードのデータセットを利用することで、基本的な操作から応用的なデータ分析までを学ぶことができます。StringIOを用いることで、テキストデータを簡単に操作し、学習の効率をさらに高めることができます。これからもPythonを使ってデータ分析を進めていきましょう。
コメント