Data Quality Scoring

Titanic: https://github.com/datasciencedojo/datasets/blob/master/titanic.csv

ติดตั้ง Package pandas เพื่อใช้ในการจัดการข้อมูล (ในกรณีที่ใช้ Poetry)

poetry add pandas

หรือใช้คำสั่ง

pip install pandas

ไฟล์ quality_scoring.py คำนวณค่า Completeness

import pandas as pd

df = pd.read_csv("titanic.csv")
print(df.head())

# วิธีการเรียกดูค่าใน Column
# df["Survived"]
# df.Survived

df.info()

age_not_null = df.Age.notnull()
dq_age = age_not_null.sum() / len(df)
print(f"Data Quality of Age: {dq_age}")

cabin_not_null = df.Cabin.notnull()
dq_cabin = cabin_not_null.sum() / len(df)
print(f"Data Quality of Cabin: {dq_cabin}")

embarked_not_null = df.Embarked.notnull()
dq_embarked = embarked_not_null.sum() / len(df)
print(f"Data Quality of Embarked: {dq_embarked}")

print(f"Completeness: {(dq_age + dq_cabin + dq_embarked) / 3}")

รัน (ในกรณีที่ใช้ Poetry)

poetry run python quality_scoring.py

หรือรัน

python quality_scoring.py

Great Expectations

ติดตั้ง Package great_expectations เพื่อใช้ในการตรวจสอบ Data Quality

poetry add great_expectations

หรือ

pip install great_expectations