亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

如何結合其他Pandas函數使用duplicated()進行數據處理

小樊
82
2024-09-12 18:35:56
欄目: 編程語言

duplicated() 是 Pandas 中的一個函數,用于檢查 DataFrame 或 Series 中的重復項

  1. 刪除重復行:

    使用 drop_duplicates() 函數可以直接刪除 DataFrame 中的重復行。這個函數會返回一個新的 DataFrame,其中不包含重復項。你可以選擇只保留第一次出現的重復項,或者只保留最后一次出現的重復項。

    import pandas as pd
    
    # 創建一個包含重復數據的 DataFrame
    data = {'A': [1, 2, 2, 3], 'B': [4, 5, 5, 6]}
    df = pd.DataFrame(data)
    
    # 刪除重復行,只保留第一次出現的重復項
    df_no_duplicates = df.drop_duplicates()
    
    # 刪除重復行,只保留最后一次出現的重復項
    df_no_duplicates_last = df.drop_duplicates(keep='last')
    
  2. 根據特定列查找重復項:

    你可以使用 duplicated() 函數來查找 DataFrame 中特定列的重復項。例如,如果你想要找到列 ‘A’ 中的重復值,可以這樣做:

    import pandas as pd
    
    # 創建一個包含重復數據的 DataFrame
    data = {'A': [1, 2, 2, 3], 'B': [4, 5, 5, 6]}
    df = pd.DataFrame(data)
    
    # 查找列 'A' 中的重復項
    duplicates = df.duplicated(subset=['A'])
    
    # 打印重復項的布爾值
    print(duplicates)
    
  3. 根據多個列查找重復項:

    要根據多個列查找重復項,只需將這些列名作為列表傳遞給 duplicated() 函數的 subset 參數。例如,如果你想要找到同時在列 ‘A’ 和 ‘B’ 中有重復值的行,可以這樣做:

    import pandas as pd
    
    # 創建一個包含重復數據的 DataFrame
    data = {'A': [1, 2, 2, 3], 'B': [4, 5, 5, 6]}
    df = pd.DataFrame(data)
    
    # 查找列 'A' 和 'B' 中的重復項
    duplicates = df.duplicated(subset=['A', 'B'])
    
    # 打印重復項的布爾值
    print(duplicates)
    
  4. 使用 duplicated() 結果進行篩選:

    你可以將 duplicated() 函數的結果與布爾索引結合起來,以僅選擇重復的行或非重復的行。例如,要選擇所有重復的行,可以這樣做:

    import pandas as pd
    
    # 創建一個包含重復數據的 DataFrame
    data = {'A': [1, 2, 2, 3], 'B': [4, 5, 5, 6]}
    df = pd.DataFrame(data)
    
    # 查找重復項
    duplicates = df.duplicated()
    
    # 選擇重復的行
    duplicate_rows = df[duplicates]
    
    # 打印重復的行
    print(duplicate_rows)
    

通過結合 Pandas 的其他函數,你可以輕松地使用 duplicated() 對數據進行處理。

0
通化县| 德州市| 田林县| 金乡县| 伊宁市| 荣成市| 尼勒克县| 无为县| 安吉县| 青冈县| 武冈市| 平乐县| 赤壁市| 隆德县| 定南县| 革吉县| 阿拉善盟| 庆城县| 肇源县| 澄城县| 克什克腾旗| 友谊县| 新兴县| 当雄县| 临漳县| 南昌市| 太仓市| 鹿邑县| 赤水市| 五指山市| 平顺县| 武山县| 恭城| 上思县| 扶余县| 南投市| 黔西县| 珲春市| 博客| 明光市| 陇川县|