資料處理是資料探勘和分析中非常重要的一環。 資料處理一般結合實際業務進行,為後續的機器習建模做準備。 例如,如果資料中存在缺失值,則需要填充或刪除缺失值資料建模需要將資料儲存在不同的表或源中,需要進行相應的融合操作你得到的資料是詳細資料,但實際建模需要聚合資料等等。
一般情況下,建模資料是基於清理後的寬表資料的整合,因此需要提前準備要分析的寬表資料。 如果沒有,則需要通過DF將資料進行整合,形成寬表,或者通過AI擴充套件程式設計對資料進行整合,形成寬表進行儲存,並將其與建模過程分離,以防止後期建模過程出現周期長、執行慢等問題。
除了上面提到的缺失值和異常值及其處理外,平台中還有許多資料處理節點可以實現建模和分析的前期準備。
資料複製
對於資料重複問題,可以使用的資料處理節點是重複資料刪除和程序查詢分析器。
重複資料刪除節點有兩種使用場景,一種是去除所有列的精確重複資料,另一種是去除指定列的精確重複資料。
在 Process Query Analyzer 中,僅支援選擇不同的行來實現重複資料刪除。
資料融合
可以使用的資料處理節點包括“資料連線”、“資料拆分”、“資料追加”、“資料差異”、“資料分解”和“過程查詢分析器”節點。
乙個資料連線節點可以融合多個表。 在多個資料表中,支援內連線、完全外連線、左連線、右連線等多種方式,支援多個資料表中兩個表之間的乙個或多個字段。
資料追加節點支援連線多個表中的行。
在連線多個資料集時,可以點選表連線,配置多個表的連線配置,從而達到連線表的目的。
排序
可以使用的資料處理節點包括“排序”和“過程查詢分析器”節點。
Process Query Analyzer 節點是通過資料排序功能實現的。
排序者可以按公升序或降序對單個欄位或字段組合進行排序。
雜項
分類彙總節點可以根據某個分類變數和需要分析的資料進行分類計算,將原始資料分類製作成**的形式,便於直觀地觀察資料的大致分布情況。 數值資料可以通過以下方式進行計數:計數、最大值、最小值、平均值、總和、方差、標準差、唯一計數、上四分位數、下四分位數、中位數、變異係數和百分位數字符資料可以計數和唯一計數。 您也可以選擇單獨輸出彙總結果,也可以選擇與彙總結果拼接的原始表資料。
資料平衡節點可以通過丟棄不平衡資料來減少多值對應物的數量,或者通過複製來增加低值對應物的數量,從而使不同值的樣本數大致相同。 該節點提供兩種模式,一種用於按絕對量進行資料平衡,另一種用於調整因子。
隨機抽樣節點支援無回放抽樣、回放抽樣、分層抽樣、n-of-1 抽樣等抽樣方式,還提供絕對數量(近似)和相對比例取樣。
綜合節點
除了上述資料處理方式外,平台還支援一些綜合節點,支援實現更複雜的資料處理場景。
流程查詢分析器根據指定條件從連線的資料表中提取資料,支援表連線、計算列、資料選擇、資料過濾、資料排序、彙總、去重等操作,實現對連線資料的查詢和分析過程。
自動資料處理可以根據內建的資料處理規則,自動處理使用者輸入的資料,提高使用者的資料處理效率。 它包括缺失值處理、異常值處理、標準差判斷處理、單類別比例判斷處理和單類別行號判斷處理。
以上就是對使用tempo人工智慧平台進行資料探勘、分析和建模過程中的資料處理方法的介紹。