Powered by GitBook

Import

import pandas as pd
import numpy as np

read csv

df = pd.read_csv('filename') # 回傳型態是dataframe, 資料第一列會作為column name

read_csv 參數

colNames = ['feature1','feature2','feature3','label']
df = pd.read_csv('filename', 
                 sep=" ", # 分隔資料的字元, 預設為逗號
                 skiprows=1, # 省略前面多少列
                 usecols=[0,1,2], # 以names讀入後, 選擇要存到df內的column
                 iterator = True, # 若True, 則回傳型態 reader, 不是dataframe, df.get_chunk(k) 才會回傳dataframe
                 names=colNames # 指定column name(就是header) 可是若colName不夠, 讀資料好像會從右邊讀, 缺失左邊欄位
                 header = 1 # 選擇第一列作為header, 預設為第0列, 若csv中不含header, 則可設為None
                 )

DataFrame

f1 = df.feature1 # 回傳型態dataframe.series, 取得feature1那行
f1 = df['feature1'] # 同上
header = df.columns # 取得df的header, 型態為index
header = df.columns.values # 取得df的header, 型態為array

df_onehot = pd.get_dummies(df) # 做 one hot encoding

dfArray = df.values # 回傳型態numpy.array(詳見Numpy), 一列一列的資料
dfArray = df.head(20) # 前20列的資料


df.plot() # 作圖

results matching ""

No results matching ""