ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ


ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ - @nitya ಅವರ ಸ್ಕೆಚ್ ನೋಟ್

ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಡೇಟಾ ಜೀವನಚಕ್ರದಲ್ಲಿ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ, ಡೇಟಾ ಪ್ರಸ್ತಾಪಿಸಿದ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಬಹುದೇ ಅಥವಾ ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಬಹುದೇ ಎಂದು ದೃಢೀಕರಿಸುವುದು. ಈ ಹಂತವು ಮಾದರಿಯು ಈ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಸರಿಯಾಗಿ ಪರಿಹರಿಸುತ್ತಿದೆಯೇ ಎಂದು ದೃಢೀಕರಿಸುವುದರ ಮೇಲೂ ಕೇಂದ್ರೀಕರಿಸಬಹುದು. ಈ ಪಾಠವು ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಅಥವಾ EDA ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದೆ, ಇದು ಡೇಟಾದೊಳಗಿನ ಲಕ್ಷಣಗಳು ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು ನಿರ್ಧರಿಸುವ ತಂತ್ರಗಳು ಮತ್ತು ಮಾದರಿಗಾಗಿ ಡೇಟಾವನ್ನು ಸಿದ್ಧಪಡಿಸಲು ಬಳಸಬಹುದು.

ನಾವು Kaggle ನಿಂದ ಉದಾಹರಣಾ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ, ಇದನ್ನು Python ಮತ್ತು Pandas ಗ್ರಂಥಾಲಯದೊಂದಿಗೆ ಹೇಗೆ ಅನ್ವಯಿಸಬಹುದು ಎಂದು ತೋರಿಸಲು. ಈ ಡೇಟಾಸೆಟ್ ಇಮೇಲ್‌ಗಳಲ್ಲಿ ಕಂಡುಬರುವ ಕೆಲವು ಸಾಮಾನ್ಯ ಪದಗಳ ಎಣಿಕೆಯನ್ನು ಹೊಂದಿದೆ, ಈ ಇಮೇಲ್‌ಗಳ ಮೂಲಗಳು ಅನಾಮಧೇಯವಾಗಿವೆ. ಈ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿರುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ಅನುಸರಿಸಿ.

ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಜೀವನಚಕ್ರದ ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಡೇಟಾ ಮತ್ತು ಸಮಸ್ಯೆಗಳು ಮತ್ತು ಪ್ರಶ್ನೆಗಳು ಪಡೆಯಲ್ಪಡುತ್ತವೆ, ಆದರೆ ಡೇಟಾ ಅಂತಿಮ ಫಲಿತಾಂಶವನ್ನು ಬೆಂಬಲಿಸಬಹುದೆಂದು ನಾವು ಹೇಗೆ ತಿಳಿದುಕೊಳ್ಳಬಹುದು?
ಡೇಟಾ ವಿಜ್ಞಾನಿ ಡೇಟಾ ಪಡೆಯುವಾಗ ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಬಹುದು ಎಂದು ನೆನಪಿಸಿಕೊಳ್ಳಿ:

ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನನಗೆ ಸಾಕಷ್ಟು ಡೇಟಾ ಇದೆಯೇ?
ಈ ಸಮಸ್ಯೆಗೆ ಡೇಟಾ ಸ್ವೀಕಾರ್ಯ ಗುಣಮಟ್ಟದಿದೆಯೇ?
ಈ ಡೇಟಾದ ಮೂಲಕ ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಕಂಡುಹಿಡಿದರೆ, ಗುರಿಗಳನ್ನು ಬದಲಾಯಿಸುವ ಅಥವಾ ಮರುನಿರ್ಧರಿಸುವ ಬಗ್ಗೆ ಪರಿಗಣಿಸಬೇಕೇ?
ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ ಆ ಡೇಟಾವನ್ನು ತಿಳಿದುಕೊಳ್ಳುವ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಈ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು, ಜೊತೆಗೆ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸವಾಲುಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬಹುದು. ಇದನ್ನು ಸಾಧಿಸಲು ಬಳಸುವ ಕೆಲವು ತಂತ್ರಗಳ ಮೇಲೆ ಗಮನಹರಿಸೋಣ.

ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್, ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು Pandas

ನಾವು ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಸಾಕಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೇವೆ ಎಂದು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು? ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮ್ಮ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸಿ ಸಾರಾಂಶ ನೀಡಬಹುದು, ಇದು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳ ತಂತ್ರಗಳ ಮೂಲಕ ಸಾಧ್ಯ. ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮಗೆ ಲಭ್ಯವಿರುವುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಮತ್ತು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ನಮಗೆ ಎಷ್ಟು ವಸ್ತುಗಳು ಲಭ್ಯವಿವೆ ಎಂದು ತಿಳಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.

ಹಿಂದಿನ ಕೆಲವು ಪಾಠಗಳಲ್ಲಿ, ನಾವು Pandas ನ describe() ಫಂಕ್ಷನ್ ಅನ್ನು ಬಳಸಿದ್ದೇವೆ. ಇದು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾದ ಮೇಲೆ ಎಣಿಕೆ, ಗರಿಷ್ಠ ಮತ್ತು ಕನಿಷ್ಠ ಮೌಲ್ಯಗಳು, ಸರಾಸರಿ, ಮಾನಕ ವ್ಯತ್ಯಾಸ ಮತ್ತು ಕ್ವಾಂಟೈಲ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. describe() ಫಂಕ್ಷನ್ ಹೋಲುವ ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನೀವು ಎಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೀರಿ ಮತ್ತು ಇನ್ನಷ್ಟು ಬೇಕೇ ಎಂದು ಅಂದಾಜು ಮಾಡಬಹುದು.

ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮತ್ತು ಕ್ವೆರಿಂಗ್

ದೊಡ್ಡ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿನ ಎಲ್ಲವನ್ನೂ ಅನ್ವೇಷಿಸುವುದು ಬಹಳ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಕಂಪ್ಯೂಟರ್‌ಗೆ ಬಿಟ್ಟುಕೊಡಲಾಗುವ ಕೆಲಸ. ಆದಾಗ್ಯೂ, ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯಕ ಸಾಧನವಾಗಿದೆ ಮತ್ತು ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಏನಿದೆ ಮತ್ತು ಅದು ಏನನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಎಂಬುದರ ಉತ್ತಮ ಅರ್ಥವನ್ನು ನೀಡುತ್ತದೆ. ಸ್ಯಾಂಪಲ್ ಮೂಲಕ, ನೀವು ಪ್ರಾಬಬಿಲಿಟಿ ಮತ್ತು ಅಂಕಿಅಂಶಗಳನ್ನು ಅನ್ವಯಿಸಿ ನಿಮ್ಮ ಡೇಟಾ ಬಗ್ಗೆ ಸಾಮಾನ್ಯ ನಿರ್ಣಯಗಳಿಗೆ ಬರಬಹುದು. ನೀವು ಎಷ್ಟು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಬೇಕು ಎಂಬುದಕ್ಕೆ ನಿರ್ದಿಷ್ಟ ನಿಯಮವಿಲ್ಲ, ಆದರೆ ಹೆಚ್ಚು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಿದರೆ, ಡೇಟಾ ಬಗ್ಗೆ ನೀವು ಮಾಡಬಹುದಾದ ಸಾಮಾನ್ಯೀಕರಣ ಹೆಚ್ಚು ನಿಖರವಾಗಿರುತ್ತದೆ.
Pandas ನಲ್ಲಿ sample() ಫಂಕ್ಷನ್ ಇದೆ, ಇದರಲ್ಲಿ ನೀವು ಎಷ್ಟು ಯಾದೃಚ್ಛಿಕ ಸ್ಯಾಂಪಲ್‌ಗಳನ್ನು ಪಡೆಯಲು ಇಚ್ಛಿಸುತ್ತೀರಿ ಎಂಬ ಆರ್ಗ್ಯುಮೆಂಟ್ ಅನ್ನು ಪಾಸ್ ಮಾಡಬಹುದು.

ಡೇಟಾದ ಸಾಮಾನ್ಯ ಕ್ವೆರಿಗಳು ನಿಮಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಿದ್ಧಾಂತಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು ಸಹಾಯ ಮಾಡಬಹುದು. ಸ್ಯಾಂಪ್ಲಿಂಗ್‌ಗೆ ವಿರುದ್ಧವಾಗಿ, ಕ್ವೆರಿಗಳು ನಿಮಗೆ ನಿಯಂತ್ರಣ ಮತ್ತು ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳಿರುವ ಡೇಟಾದ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಲು ಅವಕಾಶ ನೀಡುತ್ತವೆ.
Pandas ಗ್ರಂಥಾಲಯದ query() ಫಂಕ್ಷನ್ ನಿಮಗೆ ಕಾಲಮ್‌ಗಳನ್ನು ಆಯ್ಕೆಮಾಡಲು ಮತ್ತು ಪಡೆಯಲಾದ ಸಾಲುಗಳ ಮೂಲಕ ಡೇಟಾ ಬಗ್ಗೆ ಸರಳ ಉತ್ತರಗಳನ್ನು ಪಡೆಯಲು ಅನುಮತಿಸುತ್ತದೆ.

ದೃಶ್ಯೀಕರಣಗಳೊಂದಿಗೆ ಅನ್ವೇಷಣೆ

ಡೇಟಾ ಸಂಪೂರ್ಣವಾಗಿ ಶುದ್ಧೀಕರಿಸಿ ವಿಶ್ಲೇಷಿಸುವವರೆಗೆ ಕಾಯಬೇಕಾಗಿಲ್ಲ, ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸೃಷ್ಟಿಸುವುದನ್ನು ಪ್ರಾರಂಭಿಸಲು. ವಾಸ್ತವದಲ್ಲಿ, ಅನ್ವೇಷಿಸುವಾಗ ದೃಶ್ಯಾತ್ಮಕ ಪ್ರತಿನಿಧಾನವು ಮಾದರಿಗಳು, ಸಂಬಂಧಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಜೊತೆಗೆ, ದೃಶ್ಯೀಕರಣಗಳು ಡೇಟಾ ನಿರ್ವಹಣೆಯಲ್ಲಿ ಭಾಗವಹಿಸದವರೊಂದಿಗೆ ಸಂವಹನದ ಮಾರ್ಗವನ್ನು ಒದಗಿಸುತ್ತವೆ ಮತ್ತು ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಸ್ಪರ್ಶಿಸಲ್ಪಟ್ಟಿಲ್ಲದ ಹೆಚ್ಚುವರಿ ಪ್ರಶ್ನೆಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ಮತ್ತು ಸ್ಪಷ್ಟಪಡಿಸಲು ಅವಕಾಶ ನೀಡಬಹುದು. ದೃಶ್ಯೀಕರಣಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ದೃಶ್ಯೀಕರಣಗಳ ವಿಭಾಗ ಅನ್ನು ನೋಡಿ.

ಅಸಂಗತಿಗಳನ್ನು ಗುರುತಿಸಲು ಅನ್ವೇಷಣೆ

ಈ ಪಾಠದ ಎಲ್ಲಾ ವಿಷಯಗಳು ಕಳೆದುಹೋಗಿದ ಅಥವಾ ಅಸಂಗತ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ Pandas ಕೆಲವು ಫಂಕ್ಷನ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. isna() ಅಥವಾ isnull() ಕಳೆದುಹೋಗಿದ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಶೀಲಿಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾದೊಳಗಿನ ಈ ಮೌಲ್ಯಗಳನ್ನು ಅನ್ವೇಷಿಸುವ ಪ್ರಮುಖ ಭಾಗವೆಂದರೆ ಅವು ಮೊದಲಿಗೆ ಏಕೆ ಹಾಗಾಗಿವೆ ಎಂದು ಅನ್ವೇಷಿಸುವುದು. ಇದು ಅವುಗಳನ್ನು ಪರಿಹರಿಸಲು ತೆಗೆದುಕೊಳ್ಳಬೇಕಾದ ಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ನಿರ್ಧಾರ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಅಸೈನ್‌ಮೆಂಟ್

ಉತ್ತರಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು Co-op Translator ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ

ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್, ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು Pandas

ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮತ್ತು ಕ್ವೆರಿಂಗ್

ದೃಶ್ಯೀಕರಣಗಳೊಂದಿಗೆ ಅನ್ವೇಷಣೆ

ಅಸಂಗತಿಗಳನ್ನು ಗುರುತಿಸಲು ಅನ್ವೇಷಣೆ

ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಅಸೈನ್‌ಮೆಂಟ್

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ

ಪೂರ್ವ-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್, ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು Pandas

ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮತ್ತು ಕ್ವೆರಿಂಗ್

ದೃಶ್ಯೀಕರಣಗಳೊಂದಿಗೆ ಅನ್ವೇಷಣೆ

ಅಸಂಗತಿಗಳನ್ನು ಗುರುತಿಸಲು ಅನ್ವೇಷಣೆ

ಪೋಸ್ಟ್-ಲೇಕ್ಚರ್ ಕ್ವಿಜ್

ಅಸೈನ್‌ಮೆಂಟ್