Skip to content

Latest commit

 

History

History
51 lines (34 loc) · 13.6 KB

File metadata and controls

51 lines (34 loc) · 13.6 KB

ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ

 (@sketchthedocs) ಅವರ ಸ್ಕೆಚ್ ನೋಟ್
ಡೇಟಾ ಸೈನ್ಸ್ ಜೀವನಚಕ್ರ: ವಿಶ್ಲೇಷಣೆ - @nitya ಅವರ ಸ್ಕೆಚ್ ನೋಟ್

ಡೇಟಾ ಜೀವನಚಕ್ರದಲ್ಲಿ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ, ಡೇಟಾ ಪ್ರಸ್ತಾಪಿಸಿದ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಬಹುದೇ ಅಥವಾ ನಿರ್ದಿಷ್ಟ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಬಹುದೇ ಎಂದು ದೃಢೀಕರಿಸುವುದು. ಈ ಹಂತವು ಮಾದರಿಯು ಈ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಸರಿಯಾಗಿ ಪರಿಹರಿಸುತ್ತಿದೆಯೇ ಎಂದು ದೃಢೀಕರಿಸುವುದರ ಮೇಲೂ ಕೇಂದ್ರೀಕರಿಸಬಹುದು. ಈ ಪಾಠವು ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಅಥವಾ EDA ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿದೆ, ಇದು ಡೇಟಾದೊಳಗಿನ ಲಕ್ಷಣಗಳು ಮತ್ತು ಸಂಬಂಧಗಳನ್ನು ನಿರ್ಧರಿಸುವ ತಂತ್ರಗಳು ಮತ್ತು ಮಾದರಿಗಾಗಿ ಡೇಟಾವನ್ನು ಸಿದ್ಧಪಡಿಸಲು ಬಳಸಬಹುದು.

ನಾವು Kaggle ನಿಂದ ಉದಾಹರಣಾ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಬಳಸುತ್ತೇವೆ, ಇದನ್ನು Python ಮತ್ತು Pandas ಗ್ರಂಥಾಲಯದೊಂದಿಗೆ ಹೇಗೆ ಅನ್ವಯಿಸಬಹುದು ಎಂದು ತೋರಿಸಲು. ಈ ಡೇಟಾಸೆಟ್ ಇಮೇಲ್‌ಗಳಲ್ಲಿ ಕಂಡುಬರುವ ಕೆಲವು ಸಾಮಾನ್ಯ ಪದಗಳ ಎಣಿಕೆಯನ್ನು ಹೊಂದಿದೆ, ಈ ಇಮೇಲ್‌ಗಳ ಮೂಲಗಳು ಅನಾಮಧೇಯವಾಗಿವೆ. ಈ ಡೈರೆಕ್ಟರಿಯಲ್ಲಿರುವ ನೋಟ್ಬುಕ್ ಅನ್ನು ಅನುಸರಿಸಿ.

ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಜೀವನಚಕ್ರದ ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಡೇಟಾ ಮತ್ತು ಸಮಸ್ಯೆಗಳು ಮತ್ತು ಪ್ರಶ್ನೆಗಳು ಪಡೆಯಲ್ಪಡುತ್ತವೆ, ಆದರೆ ಡೇಟಾ ಅಂತಿಮ ಫಲಿತಾಂಶವನ್ನು ಬೆಂಬಲಿಸಬಹುದೆಂದು ನಾವು ಹೇಗೆ ತಿಳಿದುಕೊಳ್ಳಬಹುದು?
ಡೇಟಾ ವಿಜ್ಞಾನಿ ಡೇಟಾ ಪಡೆಯುವಾಗ ಕೆಳಗಿನ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಬಹುದು ಎಂದು ನೆನಪಿಸಿಕೊಳ್ಳಿ:

  • ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನನಗೆ ಸಾಕಷ್ಟು ಡೇಟಾ ಇದೆಯೇ?
  • ಈ ಸಮಸ್ಯೆಗೆ ಡೇಟಾ ಸ್ವೀಕಾರ್ಯ ಗುಣಮಟ್ಟದಿದೆಯೇ?
  • ಈ ಡೇಟಾದ ಮೂಲಕ ಹೆಚ್ಚುವರಿ ಮಾಹಿತಿಯನ್ನು ಕಂಡುಹಿಡಿದರೆ, ಗುರಿಗಳನ್ನು ಬದಲಾಯಿಸುವ ಅಥವಾ ಮರುನಿರ್ಧರಿಸುವ ಬಗ್ಗೆ ಪರಿಗಣಿಸಬೇಕೇ?
    ಅನ್ವೇಷಣಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಎಂದರೆ ಆ ಡೇಟಾವನ್ನು ತಿಳಿದುಕೊಳ್ಳುವ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಈ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು, ಜೊತೆಗೆ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಸವಾಲುಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬಹುದು. ಇದನ್ನು ಸಾಧಿಸಲು ಬಳಸುವ ಕೆಲವು ತಂತ್ರಗಳ ಮೇಲೆ ಗಮನಹರಿಸೋಣ.

ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್, ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ಮತ್ತು Pandas

ನಾವು ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ಸಾಕಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೇವೆ ಎಂದು ಹೇಗೆ ಮೌಲ್ಯಮಾಪನ ಮಾಡಬಹುದು? ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮ್ಮ ಡೇಟಾಸೆಟ್ ಬಗ್ಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಮಾಹಿತಿಯನ್ನು ಸಂಗ್ರಹಿಸಿ ಸಾರಾಂಶ ನೀಡಬಹುದು, ಇದು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳ ತಂತ್ರಗಳ ಮೂಲಕ ಸಾಧ್ಯ. ಡೇಟಾ ಪ್ರೊಫೈಲಿಂಗ್ ನಮಗೆ ಲಭ್ಯವಿರುವುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಮತ್ತು ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು ನಮಗೆ ಎಷ್ಟು ವಸ್ತುಗಳು ಲಭ್ಯವಿವೆ ಎಂದು ತಿಳಿಯಲು ಸಹಾಯ ಮಾಡುತ್ತವೆ.

ಹಿಂದಿನ ಕೆಲವು ಪಾಠಗಳಲ್ಲಿ, ನಾವು Pandas ನ describe() ಫಂಕ್ಷನ್ ಅನ್ನು ಬಳಸಿದ್ದೇವೆ. ಇದು ಸಂಖ್ಯಾತ್ಮಕ ಡೇಟಾದ ಮೇಲೆ ಎಣಿಕೆ, ಗರಿಷ್ಠ ಮತ್ತು ಕನಿಷ್ಠ ಮೌಲ್ಯಗಳು, ಸರಾಸರಿ, ಮಾನಕ ವ್ಯತ್ಯಾಸ ಮತ್ತು ಕ್ವಾಂಟೈಲ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. describe() ಫಂಕ್ಷನ್ ಹೋಲುವ ವರ್ಣನಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳನ್ನು ಬಳಸಿಕೊಂಡು ನೀವು ಎಷ್ಟು ಡೇಟಾ ಹೊಂದಿದ್ದೀರಿ ಮತ್ತು ಇನ್ನಷ್ಟು ಬೇಕೇ ಎಂದು ಅಂದಾಜು ಮಾಡಬಹುದು.

ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಮತ್ತು ಕ್ವೆರಿಂಗ್

ದೊಡ್ಡ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿನ ಎಲ್ಲವನ್ನೂ ಅನ್ವೇಷಿಸುವುದು ಬಹಳ ಸಮಯ ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಕಂಪ್ಯೂಟರ್‌ಗೆ ಬಿಟ್ಟುಕೊಡಲಾಗುವ ಕೆಲಸ. ಆದಾಗ್ಯೂ, ಸ್ಯಾಂಪ್ಲಿಂಗ್ ಡೇಟಾವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯಕ ಸಾಧನವಾಗಿದೆ ಮತ್ತು ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಏನಿದೆ ಮತ್ತು ಅದು ಏನನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ ಎಂಬುದರ ಉತ್ತಮ ಅರ್ಥವನ್ನು ನೀಡುತ್ತದೆ. ಸ್ಯಾಂಪಲ್ ಮೂಲಕ, ನೀವು ಪ್ರಾಬಬಿಲಿಟಿ ಮತ್ತು ಅಂಕಿಅಂಶಗಳನ್ನು ಅನ್ವಯಿಸಿ ನಿಮ್ಮ ಡೇಟಾ ಬಗ್ಗೆ ಸಾಮಾನ್ಯ ನಿರ್ಣಯಗಳಿಗೆ ಬರಬಹುದು. ನೀವು ಎಷ್ಟು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಬೇಕು ಎಂಬುದಕ್ಕೆ ನಿರ್ದಿಷ್ಟ ನಿಯಮವಿಲ್ಲ, ಆದರೆ ಹೆಚ್ಚು ಡೇಟಾ ಸ್ಯಾಂಪಲ್ ಮಾಡಿದರೆ, ಡೇಟಾ ಬಗ್ಗೆ ನೀವು ಮಾಡಬಹುದಾದ ಸಾಮಾನ್ಯೀಕರಣ ಹೆಚ್ಚು ನಿಖರವಾಗಿರುತ್ತದೆ.
Pandas ನಲ್ಲಿ sample() ಫಂಕ್ಷನ್ ಇದೆ, ಇದರಲ್ಲಿ ನೀವು ಎಷ್ಟು ಯಾದೃಚ್ಛಿಕ ಸ್ಯಾಂಪಲ್‌ಗಳನ್ನು ಪಡೆಯಲು ಇಚ್ಛಿಸುತ್ತೀರಿ ಎಂಬ ಆರ್ಗ್ಯುಮೆಂಟ್ ಅನ್ನು ಪಾಸ್ ಮಾಡಬಹುದು.

ಡೇಟಾದ ಸಾಮಾನ್ಯ ಕ್ವೆರಿಗಳು ನಿಮಗೆ ಕೆಲವು ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು ಮತ್ತು ಸಿದ್ಧಾಂತಗಳಿಗೆ ಉತ್ತರ ನೀಡಲು ಸಹಾಯ ಮಾಡಬಹುದು. ಸ್ಯಾಂಪ್ಲಿಂಗ್‌ಗೆ ವಿರುದ್ಧವಾಗಿ, ಕ್ವೆರಿಗಳು ನಿಮಗೆ ನಿಯಂತ್ರಣ ಮತ್ತು ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳಿರುವ ಡೇಟಾದ ನಿರ್ದಿಷ್ಟ ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಲು ಅವಕಾಶ ನೀಡುತ್ತವೆ.
Pandas ಗ್ರಂಥಾಲಯದ query() ಫಂಕ್ಷನ್ ನಿಮಗೆ ಕಾಲಮ್‌ಗಳನ್ನು ಆಯ್ಕೆಮಾಡಲು ಮತ್ತು ಪಡೆಯಲಾದ ಸಾಲುಗಳ ಮೂಲಕ ಡೇಟಾ ಬಗ್ಗೆ ಸರಳ ಉತ್ತರಗಳನ್ನು ಪಡೆಯಲು ಅನುಮತಿಸುತ್ತದೆ.

ದೃಶ್ಯೀಕರಣಗಳೊಂದಿಗೆ ಅನ್ವೇಷಣೆ

ಡೇಟಾ ಸಂಪೂರ್ಣವಾಗಿ ಶುದ್ಧೀಕರಿಸಿ ವಿಶ್ಲೇಷಿಸುವವರೆಗೆ ಕಾಯಬೇಕಾಗಿಲ್ಲ, ದೃಶ್ಯೀಕರಣಗಳನ್ನು ಸೃಷ್ಟಿಸುವುದನ್ನು ಪ್ರಾರಂಭಿಸಲು. ವಾಸ್ತವದಲ್ಲಿ, ಅನ್ವೇಷಿಸುವಾಗ ದೃಶ್ಯಾತ್ಮಕ ಪ್ರತಿನಿಧಾನವು ಮಾದರಿಗಳು, ಸಂಬಂಧಗಳು ಮತ್ತು ಸಮಸ್ಯೆಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಜೊತೆಗೆ, ದೃಶ್ಯೀಕರಣಗಳು ಡೇಟಾ ನಿರ್ವಹಣೆಯಲ್ಲಿ ಭಾಗವಹಿಸದವರೊಂದಿಗೆ ಸಂವಹನದ ಮಾರ್ಗವನ್ನು ಒದಗಿಸುತ್ತವೆ ಮತ್ತು ಕ್ಯಾಪ್ಚರ್ ಹಂತದಲ್ಲಿ ಸ್ಪರ್ಶಿಸಲ್ಪಟ್ಟಿಲ್ಲದ ಹೆಚ್ಚುವರಿ ಪ್ರಶ್ನೆಗಳನ್ನು ಹಂಚಿಕೊಳ್ಳಲು ಮತ್ತು ಸ್ಪಷ್ಟಪಡಿಸಲು ಅವಕಾಶ ನೀಡಬಹುದು. ದೃಶ್ಯೀಕರಣಗಳ ಬಗ್ಗೆ ಹೆಚ್ಚು ತಿಳಿಯಲು ದೃಶ್ಯೀಕರಣಗಳ ವಿಭಾಗ ಅನ್ನು ನೋಡಿ.

ಅಸಂಗತಿಗಳನ್ನು ಗುರುತಿಸಲು ಅನ್ವೇಷಣೆ

ಈ ಪಾಠದ ಎಲ್ಲಾ ವಿಷಯಗಳು ಕಳೆದುಹೋಗಿದ ಅಥವಾ ಅಸಂಗತ ಮೌಲ್ಯಗಳನ್ನು ಗುರುತಿಸಲು ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ Pandas ಕೆಲವು ಫಂಕ್ಷನ್‌ಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. isna() ಅಥವಾ isnull() ಕಳೆದುಹೋಗಿದ ಮೌಲ್ಯಗಳನ್ನು ಪರಿಶೀಲಿಸಬಹುದು. ನಿಮ್ಮ ಡೇಟಾದೊಳಗಿನ ಈ ಮೌಲ್ಯಗಳನ್ನು ಅನ್ವೇಷಿಸುವ ಪ್ರಮುಖ ಭಾಗವೆಂದರೆ ಅವು ಮೊದಲಿಗೆ ಏಕೆ ಹಾಗಾಗಿವೆ ಎಂದು ಅನ್ವೇಷಿಸುವುದು. ಇದು ಅವುಗಳನ್ನು ಪರಿಹರಿಸಲು ತೆಗೆದುಕೊಳ್ಳಬೇಕಾದ ಕ್ರಿಯೆಗಳ ಬಗ್ಗೆ ನಿರ್ಧಾರ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಅಸೈನ್‌ಮೆಂಟ್

ಉತ್ತರಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು


ಅಸ್ವೀಕರಣ:
ಈ ದಸ್ತಾವೇಜು Co-op Translator ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿ ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ಶುದ್ಧತೆಯತ್ತ ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ತಪ್ಪುಗಳು ಅಥವಾ ಅಸತ್ಯತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನಿಸಿ. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಸ್ತಾವೇಜನ್ನು ಅಧಿಕೃತ ಮೂಲವೆಂದು ಪರಿಗಣಿಸಬೇಕು. ಮಹತ್ವದ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿಕೆ ಅಥವಾ ತಪ್ಪು ವಿವರಣೆಗಳಿಗೆ ನಾವು ಹೊಣೆಗಾರರಾಗುವುದಿಲ್ಲ.