Import
import pandas as pd
import numpy as np
read csv
df = pd.read_csv('filename') # 回傳型態是dataframe, 資料第一列會作為column name
read_csv 參數
colNames = ['feature1','feature2','feature3','label']
df = pd.read_csv('filename',
sep=" ", # 分隔資料的字元, 預設為逗號
skiprows=1, # 省略前面多少列
usecols=[0,1,2], # 以names讀入後, 選擇要存到df內的column
iterator = True, # 若True, 則回傳型態 reader, 不是dataframe, df.get_chunk(k) 才會回傳dataframe
names=colNames # 指定column name(就是header) 可是若colName不夠, 讀資料好像會從右邊讀, 缺失左邊欄位
header = 1 # 選擇第一列作為header, 預設為第0列, 若csv中不含header, 則可設為None
)
DataFrame
f1 = df.feature1 # 回傳型態dataframe.series, 取得feature1那行
f1 = df['feature1'] # 同上
header = df.columns # 取得df的header, 型態為index
header = df.columns.values # 取得df的header, 型態為array
df_onehot = pd.get_dummies(df) # 做 one hot encoding
dfArray = df.values # 回傳型態numpy.array(詳見Numpy), 一列一列的資料
dfArray = df.head(20) # 前20列的資料
df.plot() # 作圖