Titanic: https://github.com/datasciencedojo/datasets/blob/master/titanic.csv
ติดตั้ง Package pandas
เพื่อใช้ในการจัดการข้อมูล (ในกรณีที่ใช้ Poetry)
poetry add pandas
หรือใช้คำสั่ง
pip install pandas
ไฟล์ quality_scoring.py
คำนวณค่า Completeness
import pandas as pd
df = pd.read_csv("titanic.csv")
print(df.head())
# วิธีการเรียกดูค่าใน Column
# df["Survived"]
# df.Survived
df.info()
age_not_null = df.Age.notnull()
dq_age = age_not_null.sum() / len(df)
print(f"Data Quality of Age: {dq_age}")
cabin_not_null = df.Cabin.notnull()
dq_cabin = cabin_not_null.sum() / len(df)
print(f"Data Quality of Cabin: {dq_cabin}")
embarked_not_null = df.Embarked.notnull()
dq_embarked = embarked_not_null.sum() / len(df)
print(f"Data Quality of Embarked: {dq_embarked}")
print(f"Completeness: {(dq_age + dq_cabin + dq_embarked) / 3}")
รัน (ในกรณีที่ใช้ Poetry)
poetry run python quality_scoring.py
หรือรัน
python quality_scoring.py
ติดตั้ง Package great_expectations
เพื่อใช้ในการตรวจสอบ Data Quality
poetry add great_expectations
หรือ
pip install great_expectations