林芳如python的AI模式,pandas dataframe
Pandas DataFrame 是 Python 中最核心的雙維度表格型資料結構,包含列標籤(Index)與欄標籤(Columns)。它類似於 Excel 試算表或 SQL 資料庫表格,每欄可以儲存不同型態的資料(如整數、字串、浮點數)。 [1, 2, 3, 4]
1. 建立 DataFrame [1]
- 使用字典建立:鍵(Key)為欄位名,值(Value)為資料串列。python
import pandas as pd data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]} df = pd.DataFrame(data)請謹慎使用程式碼。 - 讀取 CSV 檔案:最常見的外部資料匯入方式。[1, 2, 3, 4, 5]python
df = pd.read_csv('data.csv')請謹慎使用程式碼。
2. 核心屬性檢查
快速了解資料結構與維度的基本屬性: [1]
df.shape:回傳資料列數與欄數的元組(Tuple)。df.columns:檢視或修改所有的欄位名稱。df.index:檢視或修改列索引標籤。df.dtypes:檢查各個欄位的資料型態。 [1, 2, 3, 4, 5]
3. 資料選取與篩選
Pandas 提供標籤與座標兩種資料選取機制: [1]
df['Name']:選取單一欄位,回傳為 Series 物件。df.loc[]:使用「列/欄標籤」選取特定區塊資料。df.iloc[]:使用「整數座標位置」選取特定區塊資料。- 條件篩選:利用布林值過濾出符合條件的資料列。[1, 2, 3, 4, 5, 6]python
df[df['Age'] > 25]請謹慎使用程式碼。
4. 常用運算與操作
清洗與分析資料必備的基礎函數: [1]
df.head(n):查看前 \(n\) 筆資料。df.info():顯示資料結構、非空值計數與記憶體用量。df.describe():產生數值欄位的敘述性統計摘要(平均值、標準差等)。df.drop():刪除指定的欄位或資料列。
留言
張貼留言