MENU

Pandasを使ったPythonの勉強に最適なデータセットの提供

Pythonを勉強し始めると、データ分析のためのライブラリ「pandas」を使うことが一般的です。しかし、初心者の方にとっては、練習用のデータセットを見つけるのが大変なこともあります。そこで、本記事では、Python初心者の方が簡単に利用できる20レコードと50レコードの2種類のデータセットを提供します。これらのデータを使って、pandasの基本操作を練習しましょう。

目次

はじめに

Pythonを使ってデータ分析を始めたいと思っている方へ。このページでは、pandasを使ったデータ分析の練習に最適なデータセットを提供します。初心者の方でも安心して使えるように、コピー&ペーストで簡単に使える形式で用意しました。この記事を参考にして、データ分析の第一歩を踏み出しましょう!

pandasとは

pandas は Pythonでデータ操作を行うための強力なライブラリで、データの読み込み、操作、分析を簡単に行うことができます。特に、データサイエンスや機械学習の分野で広く使われています。

データセットの紹介

以下に、Python の pandas で利用できるデータセットを提供します。データはテキスト形式で記載していますので、コピーしてご自身のコードに貼り付けて使用してください。

20レコードのデータセット

import pandas as pd
from io import StringIO

data_20 = """
ID,名前,年齢,都市,給料
1,山田 太郎,28,東京,70000
2,鈴木 花子,34,大阪,80000
3,高橋 健太,45,名古屋,65000
4,佐藤 桜,29,京都,72000
5,田中 翔太,37,福岡,68000
6,中村 優太,24,札幌,54000
7,小林 愛,31,仙台,59000
8,加藤 大地,26,広島,53000
9,斎藤 直子,33,神戸,76000
10,渡辺 誠,40,横浜,62000
11,井上 美咲,27,さいたま,58000
12,山本 拓也,35,千葉,78000
13,伊藤 彩花,42,新潟,81000
14,木村 陸,30,岡山,60000
15,松本 美香,38,鹿児島,75000
16,石井 奈央,25,長崎,55000
17,清水 大輔,32,松山,61000
18,橋本 玲子,36,富山,64000
19,山口 真司,41,金沢,77000
20,森本 理沙,28,熊本,71000
"""

df_20 = pd.read_csv(StringIO(data_20))

 

20レコードのデータセットの結果

print(df_20)

    ID     名前  年齢    都市     給料
0    1  山田 太郎  28    東京  70000
1    2  鈴木 花子  34    大阪  80000
2    3  高橋 健太  45   名古屋  65000
3    4   佐藤 桜  29    京都  72000
4    5  田中 翔太  37    福岡  68000
5    6  中村 優太  24    札幌  54000
6    7   小林 愛  31    仙台  59000
7    8  加藤 大地  26    広島  53000
8    9  斎藤 直子  33    神戸  76000
9   10   渡辺 誠  40    横浜  62000
10  11  井上 美咲  27  さいたま  58000
11  12  山本 拓也  35    千葉  78000
12  13  伊藤 彩花  42    新潟  81000
13  14   木村 陸  30    岡山  60000
14  15  松本 美香  38   鹿児島  75000
15  16  石井 奈央  25    長崎  55000
16  17  清水 大輔  32    松山  61000
17  18  橋本 玲子  36    富山  64000
18  19  山口 真司  41    金沢  77000
19  20  森本 理沙  28    熊本  71000

50レコードのデータセット

import pandas as pd
from io import StringIO

​data_50 = """
ID,名前,年齢,都市,給料
1,山田 太郎,28,東京,70000
2,鈴木 花子,34,大阪,80000
3,高橋 健太,45,名古屋,65000
4,佐藤 桜,29,京都,72000
5,田中 翔太,37,福岡,68000
6,中村 優太,24,札幌,54000
7,小林 愛,31,仙台,59000
8,加藤 大地,26,広島,53000
9,斎藤 直子,33,神戸,76000
10,渡辺 誠,40,横浜,62000
11,井上 美咲,27,さいたま,58000
12,山本 拓也,35,千葉,78000
13,伊藤 彩花,42,新潟,81000
14,木村 陸,30,岡山,60000
15,松本 美香,38,鹿児島,75000
16,石井 奈央,25,長崎,55000
17,清水 大輔,32,松山,61000
18,橋本 玲子,36,富山,64000
19,山口 真司,41,金沢,77000
20,森本 理沙,28,熊本,71000
21,藤田 裕二,39,那覇,69000
22,佐々木 晴美,23,福島,53000
23,岡本 英子,29,青森,68000
24,島田 勇気,31,長野,72000
25,近藤 和子,35,岐阜,60000
26,村上 俊介,33,徳島,76000
27,高木 純子,27,高知,57000
28,竹内 洋介,45,宮崎,80000
29,新垣 奈々,34,沖縄,70000
30,萩原 徹,40,山梨,75000
31,小島 香織,36,群馬,62000
32,久保田 智,28,鳥取,54000
33,大橋 麗,31,島根,58000
34,青木 達也,26,秋田,56000
35,川崎 愛美,38,山形,74000
36,吉村 武,25,和歌山,55000
37,三浦 真,32,香川,71000
38,古川 賢一,29,三重,67000
39,西田 佳奈,33,奈良,62000
40,安田 剛,36,愛媛,73000
41,長谷川 美里,30,佐賀,70000
42,池田 弘,28,石川,64000
43,森 彩乃,34,大分,75000
44,篠田 和也,27,滋賀,58000
45,木下 舞,39,兵庫,69000
46,大久保 涼,31,山口,61000
47,田辺 桜,32,福井,72000
48,石橋 拓馬,37,愛知,73000
49,大川 麻美,29,岩手,68000
50,藤原 和馬,34,栃木,74000
"""

df_50 = pd.read_csv(StringIO(data_50))

データセットの使い方

  1. 上記のコードをコピーして、Pythonの実行環境(Jupyter NotebookやPyCharmなど)に貼り付けてください。
  2.  df_20 および df_50 という変数にデータが読み込まれます。
  3. これらのデータフレームを使って、pandasの基本操作(フィルタリング、ソート、グループ化など)を練習しましょう。

pandasの基本操作例

データの表示

# 20レコードのデータセットを表示
print(df_20.head())

# 50レコードのデータセットを表示
print(df_50.head())

特定の列を抽出

# 20レコードのデータセットから名前と都市列を抽出
print(df_20[['名前', '都市']])

# 50レコードのデータセットから名前と給料列を抽出
print(df_50[['名前', '給料']])

データのフィルタリング

# 20レコードのデータセットから給料が60000以上の行を抽出
print(df_20[df_20['給料'] >= 60000])

# 50レコードのデータセットから年齢が30以上の行を抽出
print(df_50[df_50['年齢'] >= 30])

from io import StringIOのメリット

StringIO モジュールを使うことで、文字列データをファイルのように扱うことができます。これにより、以下のようなメリットがあります。

  • 手軽にテストデータを作成: 実際のファイルを作成せずに、簡単にデータを読み込むことができます。これにより、データセットを素早くテストすることができます。
  • 柔軟なデータ操作: テキストデータを直接操作できるため、データの生成や変更が簡単に行えます。
  • 効率的なリソース管理: ファイル操作を伴わないため、ディスクのリソースを節約できます。

特に学習の初期段階では、テストデータを用意するのに多くの時間を割くことは避けたいものです。このような場合に StringIOを使ってテキストデータを手軽に読み込むことができます。これは、データ分析やプログラミングの学習をスムーズに進めるために非常に便利な方法です。

Pythonを使うことのメリット

Python と pandas を使うことで、データの読み込みから分析、可視化までを一貫して行うことができます。手動で行うよりもはるかに効率的で、時間を大幅に節約できます。また、プログラムとして保存しておけば、同じ処理を何度でも再利用できるため、業務の自動化にも役立ちます。


まとめ

Pythonとpandasを使ったデータ分析は、効率的かつ効果的にデータを処理するための強力な手段です。本記事で提供した20レコードと50レコードのデータセットを利用することで、基本的な操作から応用的なデータ分析までを学ぶことができます。StringIOを用いることで、テキストデータを簡単に操作し、学習の効率をさらに高めることができます。これからもPythonを使ってデータ分析を進めていきましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次