મુખ્ય સામગ્રી પર જાઓ
  1. સંસાધનો/
  2. અભ્યાસ સામગ્રી/
  3. ઇન્ફોર્મેશન ટેકનોલોજી એન્જિનિયરિંગ/
  4. આઈટી સેમેસ્ટર 4/
  5. મશીન લર્નિંગના મૂળભૂત સિદ્ધાંતો (4341603)/

મશીન લર્નિંગનાં મૂળતત્વો (4341603) - શિયાળો 2023 સોલ્યુશન

·
અભ્યાસ-સામગ્રી સોલ્યુશન મશીન-લર્નિંગ 4341603 2023 શિયાળો
મિલવ ડબગર
લેખક
મિલવ ડબગર
ઇલેક્ટ્રિકલ અને ઇલેક્ટ્રોનિક મેન્યુફેક્ચરિંગ ઉદ્યોગમાં અનુભવી લેક્ચરર. એમ્બેડેડ સિસ્ટમ્સ, ઈમેજ પ્રોસેસિંગ, ડેટા સાયન્સ, મેટલેબ, પાયથન, STM32માં કુશળ. એલ.ડી. કોલેજ ઓફ એન્જિનિયરિંગ - અમદાવાદથી કમ્યુનિકેશન સિસ્ટમ્સ એન્જિનિયરિંગમાં માસ્ટર્સ ડિગ્રી ધરાવતા મજબૂત શિક્ષણ વ્યાવસાયિક.
અનુક્રમણિકા

પ્રશ્ન 1(અ) [3 ગુણ]
#

Human learning વ્યાખ્યાયિત કરો અને સમજાવો કે machine learning human learning થી કેવી રીતે અલગ છે?

જવાબ:

Human Learning વિ Machine Learning કોષ્ટક:

પાસાંHuman LearningMachine Learning
પદ્ધતિઅનુભવ, પ્રયાસ અને ભૂલડેટા અને અલ્ગોરિધમ
ઝડપધીમી, ક્રમશઃઝડપી પ્રોસેસિંગ
ડેટા જરૂરિયાતમર્યાદિત ઉદાહરણો જોઈએમોટા ડેટાસેટ જરૂરી
  • Human Learning: અનુભવ, અવલોકન અને તર્ક દ્વારા જ્ઞાન મેળવવાની પ્રક્રિયા
  • Machine Learning: ડેટામાં પેટર્ન ઓળખવા માટે અલ્ગોરિધમનો ઉપયોગ કરીને આપોઆપ શીખવાની પ્રક્રિયા

મેમરી ટ્રીક: “Humans Experience, Machines Analyze Data” (HEMAD)


પ્રશ્ન 1(બ) [4 ગુણ]
#

ફાઇનાન્સ અને બેંકિંગમાં મશીન લર્નિંગના ઉપયોગનું વર્ણન કરો.

જવાબ:

ફાઇનાન્સ અને બેંકિંગમાં ઉપયોગો:

ઉપયોગહેતુફાયદો
Fraud Detectionશંકાસ્પદ ટ્રાન્ઝેક્શન ઓળખવાનાણાકીય નુકસાન ઘટાડવું
Credit Scoringલોન ડિફોલ્ટ રિસ્ક આંકવીવધુ સારા લેન્ડિંગ નિર્ણયો
Algorithmic Tradingઆપોઆપ ટ્રેડિંગ નિર્ણયોઝડપી માર્કેટ રિસ્પોન્સ
  • Risk Assessment: ગ્રાહકની ક્રેડિટવર્થીનેસની આગાહી માટે ML ડેટાનું વિશ્લેષણ કરે છે
  • Customer Service: NLP નો ઉપયોગ કરીને ચેટબોટ્સ 24/7 સપોર્ટ આપે છે
  • Regulatory Compliance: શંકાસ્પદ પ્રવૃત્તિઓ માટે આપોઆપ મોનિટરિંગ

મેમરી ટ્રીક: “Finance Needs Smart Analysis” (FNSA)


પ્રશ્ન 1(ક) [7 ગુણ]
#

સુપરવાઇઝ્ડ લર્નિંગ, અનસુપરવાઇઝ્ડ લર્નિંગ અને રિઇન્ફોર્સમેન્ટ લર્નિંગ વચ્ચે તફાવત આપો.

જવાબ:

તુલનાત્મક કોષ્ટક:

લક્ષણSupervised LearningUnsupervised LearningReinforcement Learning
ડેટા પ્રકારલેબલ્ડ ડેટાઅનલેબલ્ડ ડેટાપર્યાવરણ ઇન્ટરેક્શન
લક્ષ્યઆઉટપુટની આગાહીપેટર્નો શોધવારિવોર્ડ વધારવા
ઉદાહરણોClassification, RegressionClustering, AssociationGame playing, Robotics
Feedbackતાત્કાલિકકંઈ નહીંવિલંબિત પુરસ્કારો

મુખ્ય લાક્ષણિકતાઓ:

  • Supervised Learning: સાચા જવાબો સાથે શિક્ષક દ્વારા માર્ગદર્શિત શીખવું
  • Unsupervised Learning: ડેટામાં છુપાયેલા પેટર્નોની સ્વ-શોધ
  • Reinforcement Learning: પુરસ્કાર/દંડ સાથે ટ્રાયલ અને એરર દ્વારા શીખવું

મેમરી ટ્રીક: “Supervised Teachers, Unsupervised Explores, Reinforcement Rewards” (STUER)


પ્રશ્ન 1(ક OR) [7 ગુણ]
#

મશીન લર્નિંગમાં વપરાતા વિવિધ TOOLS અને ટેકનોલોજી સમજાવો.

જવાબ:

ML Tools અને Technologies:

કેટેગરીToolsહેતુ
ProgrammingPython, R, Javaઅલ્ગોરિધમ ઇમ્પ્લિમેન્ટેશન
LibrariesScikit-learn, TensorFlowતૈયાર અલ્ગોરિધમ
VisualizationMatplotlib, Seabornડેટા વિઝ્યુઅલાઇઝેશન
Data ProcessingPandas, NumPyડેટા મેનિપ્યુલેશન

મુખ્ય ટેકનોલોજીઓ:

  • Cloud Platforms: AWS, Google Cloud સ્કેલેબલ કમ્પ્યુટિંગ માટે
  • Development Environments: Jupyter Notebook, Google Colab
  • Big Data Tools: મોટા ડેટાસેટ માટે Spark, Hadoop

મેમરી ટ્રીક: “Python Libraries Visualize Data Effectively” (PLVDE)


પ્રશ્ન 2(અ) [3 ગુણ]
#

એક ઉદાહરણ સાથે outliers ને વ્યાખ્યાયિત કરો.

જવાબ:

વ્યાખ્યા: Outliers એવા ડેટા પોઇન્ટ્સ છે જે ડેટાસેટમાં અન્ય અવલોકનોથી નોંધપાત્ર રીતે અલગ હોય છે.

ઉદાહરણ કોષ્ટક:

વિદ્યાર્થીઓની ઊંચાઈ (cm)વર્ગીકરણ
165, 170, 168, 172સામાન્ય મૂલ્યો
195Outlier (ખૂબ ઊંચું)
140Outlier (ખૂબ નીચું)
  • શોધ: Quartiles થી 1.5 × IQR થી વધુ મૂલ્યો
  • અસર: આંકડાકીય વિશ્લેષણ અને મોડલ પર્ફોર્મન્સને અસર કરી શકે

મેમરી ટ્રીક: “Outliers Stand Apart” (OSA)


પ્રશ્ન 2(બ) [4 ગુણ]
#

રીગ્રેશન સ્ટેપ્સ વિગતવાર સમજાવો.

જવાબ:

રીગ્રેશન પ્રોસેસ સ્ટેપ્સ:

flowchart TD
    A[Data Collection] --> B[Data Preprocessing]
    B --> C[Feature Selection]
    C --> D[Model Training]
    D --> E[Model Evaluation]
    E --> F[Prediction]

વિગતવાર સ્ટેપ્સ:

  • Data Collection: ઇનપુટ-આઉટપુટ જોડી સાથે સંબંધિત ડેટાસેટ એકત્રિત કરવું
  • Preprocessing: ડેટા સાફ કરવું, ખોવાયેલા મૂલ્યો સંભાળવા, features ને normalize કરવા
  • Feature Selection: લક્ષ્યને અસર કરતા સંબંધિત variables પસંદ કરવા
  • Model Training: આગાહીની ભૂલો ન્યૂનતમ કરવા માટે રીગ્રેશન લાઇન ફિટ કરવી

મેમરી ટ્રીક: “Data Preprocessing Features Train Evaluation Predicts” (DPFTEP)


પ્રશ્ન 2(ક) [7 ગુણ]
#

ચોકસાઈ વ્યાખ્યાયિત કરો અને નીચેના binary classifier ની confusion matrix માટે વિવિધ માપન પરિમાણો શોધો જેમ કે 1. Accuracy 2. Precision.

જવાબ:

Confusion Matrix વિશ્લેષણ:

અનુમાનિત નાઅનુમાનિત હા
વાસ્તવિક ના10 (TN)3 (FP)
વાસ્તવિક હા2 (FN)15 (TP)

ગણતરીઓ:

મેટ્રિકફોર્મ્યુલાગણતરીપરિણામ
Accuracy(TP+TN)/(TP+TN+FP+FN)(15+10)/(15+10+3+2)83.33%
PrecisionTP/(TP+FP)15/(15+3)83.33%

વ્યાખ્યાઓ:

  • Accuracy: કુલ આગાહીઓમાંથી સાચી આગાહીઓનું પ્રમાણ
  • Precision: બધી positive આગાહીઓમાંથી true positive આગાહીઓનું પ્રમાણ

મેમરી ટ્રીક: “Accuracy Counts All, Precision Picks Positives” (ACAPP)


પ્રશ્ન 2(અ OR) [3 ગુણ]
#

Feature સબસેટ પસંદગીના મૂળભૂત પગલાઓને ઓળખો.

જવાબ:

Feature Subset Selection સ્ટેપ્સ:

flowchart LR
    A[Original Features] --> B[Generate Subsets]
    B --> C[Evaluate Subsets]
    C --> D[Select Best Subset]

મૂળભૂત પગલાઓ:

  • Generation: Features ના વિવિધ સંયોજનો બનાવવા
  • Evaluation: પ્રત્યેક સબસેટને પર્ફોર્મન્સ મેટ્રિક્સ વાપરીને ટેસ્ટ કરવા
  • Selection: માપદંડોના આધારે શ્રેષ્ઠ સબસેટ પસંદ કરવા

મેમરી ટ્રીક: “Generate, Evaluate, Select” (GES)


પ્રશ્ન 2(બ OR) [4 ગુણ]
#

KNN અલ્ગોરિધમની તાકાત અને નબળાઈની ચર્ચા કરો.

જવાબ:

KNN અલ્ગોરિધમ વિશ્લેષણ:

તાકાતોનબળાઈઓ
સમજવામાં સરળકમ્પ્યુટેશનલી મોંઘું
Training ની જરૂર નથીઅપ્રસ્તુત features ને સંવેદનશીલ
Non-linear ડેટા સાથે કામ કરેHigh dimensions સાથે performance ઘટે
નાના ડેટાસેટ માટે અસરકારકશ્રેષ્ઠ K value પસંદગી જરૂરી

મુખ્ય મુદ્દાઓ:

  • Lazy Learning: સ્પષ્ટ training phase ની જરૂર નથી
  • Distance-Based: પડોશીની નજીકતા આધારિત વર્ગીકરણ
  • Memory-Intensive: સંપૂર્ણ training ડેટાસેટ સ્ટોર કરે છે

મેમરી ટ્રીક: “Simple but Slow, Effective but Expensive” (SBSEBE)


પ્રશ્ન 2(ક OR) [7 ગુણ]
#

ભૂલ-દર વ્યાખ્યાયિત કરો અને નીચેના binary classifier ની confusion matrix માટે વિવિધ માપન પરિમાણો શોધો જેમ કે 1. Error value 2. Recall.

જવાબ:

Confusion Matrix વિશ્લેષણ:

અનુમાનિત નાઅનુમાનિત હા
વાસ્તવિક ના20 (TN)3 (FP)
વાસ્તવિક હા2 (FN)15 (TP)

ગણતરીઓ:

મેટ્રિકફોર્મ્યુલાગણતરીપરિણામ
Error Rate(FP+FN)/(TP+TN+FP+FN)(3+2)/(15+20+3+2)12.5%
RecallTP/(TP+FN)15/(15+2)88.24%

વ્યાખ્યાઓ:

  • Error Rate: કુલ આગાહીઓમાંથી ખોટી આગાહીઓનું પ્રમાણ
  • Recall: વાસ્તવિક positives માંથી સાચી રીતે ઓળખાયેલાનું પ્રમાણ

મેમરી ટ્રીક: “Error Excludes, Recall Retrieves” (EERR)


પ્રશ્ન 3(અ) [3 ગુણ]
#

Unsupervised learning ના કોઈ પણ ત્રણ ઉદાહરણો આપો.

જવાબ:

Unsupervised Learning ઉદાહરણો:

ઉદાહરણવર્ણનઉપયોગ
Customer Segmentationવર્તન દ્વારા ગ્રાહકોને જૂથબદ્ધ કરવામાર્કેટિંગ વ્યૂહરચના
Document Classificationવિષયો દ્વારા દસ્તાવેજો ગોઠવવામાહિતી પુનઃપ્રાપ્તિ
Gene Sequencingસમાન DNA પેટર્ન જૂથબદ્ધ કરવાતબીબી સંશોધન
  • Market Basket Analysis: ઉત્પાદન ખરીદીના પેટર્ન શોધવા
  • Social Network Analysis: સમુદાયની રચનાઓ ઓળખવી
  • Anomaly Detection: ડેટામાં અસામાન્ય પેટર્ન શોધવા

મેમરી ટ્રીક: “Customers, Documents, Genes Group Automatically” (CDGGA)


પ્રશ્ન 3(બ) [4 ગુણ]
#

નીચેના ડેટા માટે સરેરાશ અને મધ્યક શોધો: 4,6,7,8,9,12,14,15,20

જવાબ:

આંકડાકીય ગણતરીઓ:

આંકડાગણતરીપરિણામ
સરેરાશ (Mean)(4+6+7+8+9+12+14+15+20)/910.56
મધ્યક (Median)મધ્ય મૂલ્ય (5મી સ્થિતિ)9

પગલું-દર-પગલું:

  • ડેટા: પહેલેથી જ સૉર્ટ થયેલ: 4,6,7,8,9,12,14,15,20
  • સરેરાશ: બધા મૂલ્યોનો સરવાળો ÷ ગણતરી = 95 ÷ 9 = 10.56
  • મધ્યક: સૉર્ટ કરેલ યાદીમાં મધ્ય મૂલ્ય = 9 (5મી સ્થિતિ)

મેમરી ટ્રીક: “Mean Averages All, Median Middle Value” (MAAMV)


પ્રશ્ન 3(ક) [7 ગુણ]
#

k-ફોલ્ડ ક્રોસ વેલિડેશન પદ્ધતિનું વિગતવાર વર્ણન કરો.

જવાબ:

K-Fold Cross Validation પ્રોસેસ:

flowchart TD
    A[Original Dataset] --> B[Split into K folds]
    B --> C[Train on K-1 folds]
    C --> D[Test on 1 fold]
    D --> E[Repeat K times]
    E --> F[Average Results]

પ્રોસેસ સ્ટેપ્સ:

પગલુંવર્ણનહેતુ
1. ડેટા વિભાજનડેટાને K સમાન ભાગોમાં વહેંચવુંસંતુલિત પરીક્ષણ સુનિશ્ચિત કરવું
2. પુનરાવર્તિત TrainingTraining માટે K-1 folds નો ઉપયોગમહત્તમ ડેટા ઉપયોગ
3. Validationબાકીના fold પર ટેસ્ટ કરવુંનિષ્પક્ષ મૂલ્યાંકન
4. સરેરાશસરેરાશ performance ગણવુંમજબૂત performance અંદાજ

ફાયદાઓ:

  • નિષ્પક્ષ અંદાજ: દરેક ડેટા પોઇન્ટ training અને testing બંને માટે વાપરાય
  • Overfitting ઘટાડવું: અનેક validation રાઉન્ડ વિશ્વસનીયતા વધારે
  • કાર્યક્ષમ ડેટા ઉપયોગ: બધો ડેટા training અને validation બંને માટે ઉપયોગ

મેમરી ટ્રીક: “K-fold Keeps Keen Knowledge” (KKKK)


પ્રશ્ન 3(અ OR) [3 ગુણ]
#

Multiple linear રીગ્રેશનની કોઈ પણ ત્રણ એપ્લિકેશન આપો.

જવાબ:

Multiple Linear Regression એપ્લિકેશન:

એપ્લિકેશનVariablesહેતુ
House Price PredictionSize, location, ageરિયલ એસ્ટેટ વેલ્યુએશન
Sales ForecastingMarketing spend, season, economyબિઝનેસ પ્લાનિંગ
Medical DiagnosisSymptoms, age, historyરોગની આગાહી
  • Stock Market Analysis: અનેક આર્થિક સૂચકાંકો શેર કિંમતોની આગાહી કરે
  • Academic Performance: અભ્યાસના કલાકો, હાજરી, અગાઉના ગ્રેડ સ્કોરની આગાહી
  • Marketing ROI: વિવિધ માર્કેટિંગ ચેનલો વેચાણ આવક પર અસર કરે

મેમરી ટ્રીક: “Houses, Sales, Medicine Predict Multiple Variables” (HSMPV)


પ્રશ્ન 3(બ OR) [4 ગુણ]
#

નીચેના ડેટા માટે માનક વિચલન શોધો: 4,15,20,28,35,45

જવાબ:

માનક વિચલન ગણતરી:

પગલુંગણતરીમૂલ્ય
સરેરાશ(4+15+20+28+35+45)/624.5
VarianceΣ(xi-mean)²/n178.92
Std Dev√Variance13.38

વિગતવાર ગણતરી:

  • સરેરાશથી વિચલન: (-20.5)², (-9.5)², (-4.5)², (3.5)², (10.5)², (20.5)²
  • વર્ગ વિચલન: 420.25, 90.25, 20.25, 12.25, 110.25, 420.25
  • સરવાળો: 1073.5
  • Variance: 1073.5/6 = 178.92
  • માનક વિચલન: √178.92 = 13.38

મેમરી ટ્રીક: “Deviation Measures Data Spread” (DMDS)


પ્રશ્ન 3(ક OR) [7 ગુણ]
#

બેગિંગ અને બૂસ્ટિંગને વિગતવાર સમજાવો.

જવાબ:

Ensemble Methods તુલના:

પાસુંBaggingBoosting
વ્યૂહરચનાસમાંતર trainingક્રમિક training
ડેટા સેમ્પલિંગરેન્ડમ with replacementવેઇટેડ સેમ્પલિંગ
સંયોજનસરળ સરેરાશ/votingવેઇટેડ સંયોજન
Bias-VarianceVariance ઘટાડેBias ઘટાડે

Bagging (Bootstrap Aggregating):

flowchart LR
    A[Original Data] --> B[Bootstrap Sample 1]
    A --> C[Bootstrap Sample 2]
    A --> D[Bootstrap Sample n]
    B --> E[Model 1]
    C --> F[Model 2]
    D --> G[Model n]
    E --> H[Final Prediction]
    F --> H
    G --> H

Boosting પ્રોસેસ:

  • ક્રમિક શીખવું: દરેક મોડલ અગાઉના મોડલની ભૂલોમાંથી શીખે છે
  • વેઇટ એડજસ્ટમેન્ટ: ખોટા વર્ગીકૃત ઉદાહરણોનું વેઇટ વધારવું
  • અંતિમ આગાહી: બધા મોડલ્સનું વેઇટેડ સંયોજન

મુખ્ય તફાવતો:

  • Bagging: સ્વતંત્ર મોડલ્સ સમાંતરમાં trained, overfitting ઘટાડે
  • Boosting: આશ્રિત મોડલ્સ ક્રમિક trained, accuracy સુધારે

મેમરી ટ્રીક: “Bagging Builds Parallel, Boosting Builds Sequential” (BBPBS)


પ્રશ્ન 4(અ) [3 ગુણ]
#

વ્યાખ્યાયિત કરો: Support, Confidence.

જવાબ:

Association Rule મેટ્રિક્સ:

મેટ્રિકવ્યાખ્યાફોર્મ્યુલા
Supportટ્રાન્ઝેક્શનમાં itemset ની આવર્તનSupport(A) = Count(A)/કુલ ટ્રાન્ઝેક્શન
Confidenceનિયમની શરતી સંભાવનાConfidence(A→B) = Support(A∪B)/Support(A)

ઉદાહરણ:

  • Support(Bread) = 0.6 (60% ટ્રાન્ઝેક્શનમાં બ્રેડ છે)
  • Confidence(Bread→Butter) = 0.8 (80% બ્રેડ ખરીદનારા બટર પણ ખરીદે છે)

ઉપયોગો:

  • Market Basket Analysis: ઉત્પાદન સંબંધો શોધવા
  • Recommendation Systems: સંબંધિત વસ્તુઓ સૂચવવી

મેમરી ટ્રીક: “Support Shows Frequency, Confidence Shows Connection” (SSFC)


પ્રશ્ન 4(બ) [4 ગુણ]
#

લોજિસ્ટિક રીગ્રેશનની કોઈ પણ બે એપ્લિકેશનને સમજાવો.

જવાબ:

Logistic Regression એપ્લિકેશન:

એપ્લિકેશનInput VariablesOutputઉપયોગનો કેસ
Email Spam Detectionશબ્દ આવર્તન, sender, subjectSpam/Not SpamEmail filtering
Medical Diagnosisલક્ષણો, ઉંમર, ટેસ્ટ પરિણામોરોગ/કોઈ રોગ નથીઆરોગ્યસેવા

મુખ્ય લાક્ષણિકતાઓ:

  • Binary Classification: 0 અને 1 વચ્ચે સંભાવના આગાહી કરે છે
  • S-shaped Curve: સંભાવના અંદાજ માટે sigmoid function વાપરે છે
  • Linear Decision Boundary: linear boundary સાથે વર્ગો અલગ કરે છે

વાસ્તવિક જીવનના ઉદાહરણો:

  • Marketing: demographics આધારે ગ્રાહક ખરીદીની સંભાવના
  • Finance: ક્રેડિટ હિસ્ટ્રી અને આવક આધારે ક્રેડિટ મંજૂરી

મેમરી ટ્રીક: “Logistic Limits Linear Logic” (LLLL)


પ્રશ્ન 4(ક) [7 ગુણ]
#

Machine learning માં Numpy અને Pandas ના મુખ્ય હેતુની ચર્ચા કરો.

જવાબ:

ML માં NumPy અને Pandas:

Libraryહેતુમુખ્ય લાક્ષણિકતાઓ
NumPyNumerical computingArrays, mathematical functions
PandasData manipulationDataFrames, data cleaning

NumPy Functions:

graph LR
    A[NumPy] --> B[Array Operations]
    A --> C[Mathematical Functions]
    A --> D[Linear Algebra]
    A --> E[Random Numbers]

Pandas ક્ષમતાઓ:

  • Data Import/Export: CSV, Excel, JSON ફાઇલો વાંચવી
  • Data Cleaning: ખોવાયેલા મૂલ્યો, duplicates સંભાળવા
  • Data Transformation: Group, merge, pivot operations
  • Statistical Analysis: વર્ણનાત્મક આંકડા, correlation

ML સાથે Integration:

  • Data Preprocessing: અલ્ગોરિધમ માટે ડેટા સાફ અને તૈયાર કરવો
  • Feature Engineering: હાલના ડેટામાંથી નવા features બનાવવા
  • Model Input: ML અલ્ગોરિધમ દ્વારા જરૂરી ફોર્મેટમાં ડેટા કન્વર્ટ કરવો

મુખ્ય ફાયદાઓ:

  • Performance: ઝડપ માટે C/C++ backend optimized
  • Memory Efficiency: કાર્યક્ષમ ડેટા સ્ટોરેજ અને manipulation
  • Ecosystem Integration: scikit-learn, matplotlib સાથે seamlessly કામ કરે

મેમરી ટ્રીક: “NumPy Numbers, Pandas Processes Data” (NNPD)


પ્રશ્ન 4(અ OR) [3 ગુણ]
#

સુપરવાઇઝ્ડ લર્નિંગના કોઈ પણ ત્રણ ઉદાહરણો આપો.

જવાબ:

Supervised Learning ઉદાહરણો:

ઉદાહરણપ્રકારInput → Output
Email ClassificationClassificationEmail features → Spam/Not Spam
House Price PredictionRegressionHouse features → કિંમત
Image RecognitionClassificationPixel values → Object class
  • Medical Diagnosis: દર્દીના લક્ષણો → રોગ વર્ગીકરણ
  • Stock Price Prediction: માર્કેટ સૂચકાંકો → ભાવિ કિંમત
  • Speech Recognition: Audio signals → Text transcription

મેમરી ટ્રીક: “Emails, Houses, Images Learn Supervised” (EHILS)


પ્રશ્ન 4(બ OR) [4 ગુણ]
#

એપ્રિઓરી અલ્ગોરિધમના કોઈ પણ બે એપ્લિકેશનો સમજાવો.

જવાબ:

Apriori Algorithm એપ્લિકેશન:

એપ્લિકેશનવર્ણનબિઝનેસ વેલ્યુ
Market Basket Analysisએકસાથે ખરીદાતા ઉત્પાદનો શોધવાCross-selling વ્યૂહરચના
Web Usage Miningવેબસાઇટ navigation પેટર્ન શોધવાવપરાશકર્તા અનુભવ સુધારવો

Market Basket Analysis:

  • ઉદાહરણ: “બ્રેડ અને મિલ્ક ખરીદનારા ગ્રાહકો ઈંડા પણ ખરીદે છે”
  • બિઝનેસ અસર: ઉત્પાદન પ્લેસમેન્ટ, પ્રમોશનલ ઓફર
  • Implementation: frequent itemsets શોધવા માટે transaction ડેટાનું વિશ્લેષણ

Web Usage Mining:

  • ઉદાહરણ: “પેજ A visit કરનારા users ઘણીવાર આગળ પેજ B visit કરે છે”
  • વેબસાઇટ Optimization: navigation સુધારવી, content recommend કરવું
  • User Experience: વ્યક્તિગત વેબસાઇટ layouts

Algorithm પ્રોસેસ:

  • Generate Candidates: frequent itemsets બનાવવા
  • Prune: infrequent items દૂર કરવા
  • Generate Rules: confidence સાથે association rules બનાવવા

મેમરી ટ્રીક: “Apriori Analyzes Associations Automatically” (AAAA)


પ્રશ્ન 4(ક OR) [7 ગુણ]
#

Matplotlib ની વિશેષતાઓ અને એપ્લિકેશનો સમજાવો.

જવાબ:

Matplotlib Features અને Applications:

Feature કેટેગરીક્ષમતાઓએપ્લિકેશન
Plot TypesLine, bar, scatter, histogramડેટા exploration
Customizationરંગો, labels, stylesવ્યવસાયિક presentations
Subplotsએક figure માં અનેક plotsતુલનાત્મક વિશ્લેષણ
3D Plottingત્રિ-પરિમાણીય visualizationsવૈજ્ઞાનિક modeling

મુખ્ય Features:

graph TD
    A[Matplotlib] --> B[2D Plotting]
    A --> C[3D Plotting]
    A --> D[Interactive Plots]
    A --> E[Publication Quality]
    B --> F[Line Charts]
    B --> G[Bar Charts]
    B --> H[Scatter Plots]
    C --> I[Surface Plots]
    C --> J[3D Scatter]

Machine Learning માં Applications:

  • Data Exploration: ડેટા વિતરણ અને પેટર્ન visualize કરવા
  • Model Performance: training દરમિયાન accuracy, loss curves plot કરવા
  • Result Presentation: predictions vs actual values દેખાડવા
  • Feature Analysis: Correlation matrices, feature importance plots

અદ્યતન ક્ષમતાઓ:

  • Animation: time-series ડેટા માટે animated plots બનાવવા
  • Interactive Widgets: વપરાશકર્તા interaction માટે sliders, buttons ઉમેરવા
  • Integration: Jupyter notebooks, web applications સાથે કામ કરે છે

ફાયદાઓ:

  • Flexibility: અત્યંત customizable plotting options
  • Community: વ્યાપક documentation સાથે મોટો વપરાશકર્તા આધાર
  • Compatibility: NumPy, Pandas સાથે seamlessly integrate થાય છે

મેમરી ટ્રીક: “Matplotlib Makes Meaningful Visual Displays” (MMVD)


પ્રશ્ન 5(અ) [3 ગુણ]
#

Numpy ના મુખ્ય features ની યાદી બનાવો.

જવાબ:

NumPy મુખ્ય Features:

Featureવર્ણનફાયદો
N-dimensional Arraysકાર્યક્ષમ array operationsઝડપી mathematical computations
Broadcastingવિવિધ size ના arrays પર operationsલવચીક array manipulation
Linear AlgebraMatrix operations, decompositionsવૈજ્ઞાનિક computing support
  • Universal Functions: arrays પર element-wise operations
  • Memory Efficiency: ઝડપ માટે contiguous memory layout
  • C/C++ Integration: compiled languages સાથે interface

મેમરી ટ્રીક: “NumPy Numbers Need Neat Operations” (NNNNO)


પ્રશ્ન 5(બ) [4 ગુણ]
#

પ્રોગ્રામમાં iris ડેટાસેટ Pandas Dataframe કેવી રીતે લોડ કરવો? ઉદાહરણ સાથે સમજાવો.

જવાબ:

Iris ડેટાસેટ લોડ કરવું:

import pandas as pd

# પદ્ધતિ 1: ફાઇલમાંથી લોડ કરવું
df = pd.read_csv('iris.csv')

# પદ્ધતિ 2: sklearn માંથી લોડ કરવું
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target

# મૂળભૂત માહિતી દેખાડવી
print(df.head())
print(df.info())
print(df.describe())

કોડ સમજાવટ:

  • pd.read_csv(): CSV ફાઇલને DataFrame માં વાંચે છે
  • columns parameter: column નામો assign કરે છે
  • head(): પ્રથમ 5 rows બતાવે છે
  • info(): data types અને memory usage બતાવે છે

મેમરી ટ્રીક: “Pandas Reads CSV Files Easily” (PRCFE)


પ્રશ્ન 5(ક) [7 ગુણ]
#

સુપરવાઇઝ્ડ લર્નિંગ અને અનસુપરવાઇઝ્ડ લર્નિંગની સરખામણી કરો અને કોન્ટ્રાસ્ટ કરો.

જવાબ:

વ્યાપક તુલના:

પાસુંSupervised LearningUnsupervised Learning
ડેટા પ્રકારLabeled (input-output જોડી)Unlabeled (માત્ર input)
શીખવાનું લક્ષ્યTarget variable ની આગાહી કરવીછુપાયેલા પેટર્ન શોધવા
મૂલ્યાંકનAccuracy, precision, recallSilhouette score, inertia
જટિલતામૂલ્યાંકન માટે ઓછું જટિલvalidate કરવું વધુ જટિલ
એપ્લિકેશનClassification, regressionClustering, dimensionality reduction

વિગતવાર તુલના:

graph LR
    A[Machine Learning] --> B[Supervised]
    A --> C[Unsupervised]
    B --> D[Classification]
    B --> E[Regression]
    C --> F[Clustering]
    C --> G[Association Rules]

Supervised Learning લાક્ષણિકતાઓ:

  • Training પ્રોસેસ: જાણીતા સાચા જવાબો સાથેના ઉદાહરણોમાંથી શીખવું
  • Performance Measurement: વાસ્તવિક પરિણામો સાથે સીધી તુલના
  • સામાન્ય Algorithms: Decision trees, SVM, neural networks
  • બિઝનેસ એપ્લિકેશન: Fraud detection, medical diagnosis, price prediction

Unsupervised Learning લાક્ષણિકતાઓ:

  • Exploration: માર્ગદર્શન વિના અજાણ્યા પેટર્ન શોધવા
  • Validation Challenges: સીધી તુલના માટે ground truth નથી
  • સામાન્ય Algorithms: K-means, hierarchical clustering, PCA
  • બિઝનેસ એપ્લિકેશન: Customer segmentation, market research, anomaly detection

મુખ્ય કોન્ટ્રાસ્ટ:

  • Feedback: Supervised માં તાત્કાલિક feedback, unsupervised domain expertise પર આધાર રાખે
  • ડેટા જરૂરિયાતો: Supervised ને મોંઘા labeled ડેટાની જરૂર, unsupervised સહેલાઈથી ઉપલબ્ધ unlabeled ડેટા વાપરે
  • સમસ્યાના પ્રકારો: Supervised prediction સમસ્યાઓ હલ કરે, unsupervised discovery સમસ્યાઓ હલ કરે

મેમરી ટ્રીક: “Supervised Seeks Specific Solutions, Unsupervised Uncovers Unknown” (SSSUU)


પ્રશ્ન 5(અ OR) [3 ગુણ]
#

Pandas ની એપ્લિકેશન્સની યાદી બનાવો.

જવાબ:

Pandas એપ્લિકેશન:

એપ્લિકેશનવર્ણનઇન્ડસ્ટ્રી
Data Cleaningખોવાયેલા મૂલ્યો, duplicates સંભાળવાબધા industries
Financial AnalysisStock market, trading ડેટાફાઇનાન્સ
Business IntelligenceSales reports, KPI analysisબિઝનેસ
  • Scientific Research: પ્રાયોગિક ડેટા વિશ્લેષણ
  • Web Analytics: વેબસાઇટ ટ્રાફિક, વપરાશકર્તા વર્તન વિશ્લેષણ
  • Healthcare: દર્દીના રેકોર્ડ, clinical trial ડેટા

મેમરી ટ્રીક: “Pandas Processes Data Perfectly” (PPDP)


પ્રશ્ન 5(બ OR) [4 ગુણ]
#

Matplotlib લાઇબ્રેરીનો ઉપયોગ કરીને આકૃતિ કેવી રીતે બનાવવી? ઉદાહરણ સાથે સમજાવો.

જવાબ:

Matplotlib Line Plotting:

import matplotlib.pyplot as plt
import numpy as np

# સેમ્પલ ડેટા બનાવવું
x = np.linspace(0, 10, 100)
y = np.sin(x)

# મુખ્ય curve plot કરવું
plt.plot(x, y, label='sin(x)')

# x = 5 પર વર્ટિકલ લાઇન
plt.axvline(x=5, color='red', linestyle='--', label='Vertical Line')

# y = 0.5 પર હોરિઝોન્ટલ લાઇન
plt.axhline(y=0.5, color='green', linestyle=':', label='Horizontal Line')

# ફોર્મેટિંગ
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.legend()
plt.title('Vertical અને Horizontal Lines')
plt.grid(True)
plt.show()

મુખ્ય Functions:

  • axvline(): નિર્દિષ્ટ x-coordinate પર vertical line બનાવે
  • axhline(): નિર્દિષ્ટ y-coordinate પર horizontal line બનાવે
  • Parameters: color, linestyle, linewidth, alpha

મેમરી ટ્રીક: “Matplotlib Makes Lines Easily” (MMLE)


પ્રશ્ન 5(ક OR) [7 ગુણ]
#

યોગ્ય વાસ્તવિક વિશ્વ ઉદાહરણોનો ઉપયોગ કરીને clustering ના concept નું વર્ણન કરો.

જવાબ:

Clustering Concept અને Applications:

Clustering પ્રકારવાસ્તવિક જીવનનું ઉદાહરણબિઝનેસ અસર
Customer Segmentationખરીદી વર્તન દ્વારા ગ્રાહકોને જૂથબદ્ધ કરવાTargeted marketing campaigns
Image Segmentationગાંઠ શોધવા માટે medical imagingસુધારેલ નિદાન accuracy
Gene Analysisસમાન expression સાથે genes ને જૂથબદ્ધ કરવાદવા શોધ અને સારવાર

Clustering પ્રોસેસ:

flowchart TD
    A[Raw Data] --> B[Feature Selection]
    B --> C[Distance Calculation]
    C --> D[Cluster Formation]
    D --> E[Cluster Validation]
    E --> F[Business Insights]

વિગતવાર ઉદાહરણો:

1. Customer Segmentation:

  • ડેટા: ખરીદીનો ઇતિહાસ, demographics, વેબસાઇટ વર્તન
  • Clusters: ઉચ્ચ-મૂલ્યના ગ્રાહકો, કિંમત-સંવેદનશીલ ખરીદદારો, પ્રસંગોપાત દુકાનદારો
  • બિઝનેસ વેલ્યુ: કસ્ટમાઇઝ્ડ માર્કેટિંગ, ઉત્પાદન સિફારિશો, retention વ્યૂહરચના

2. Social Media Analysis:

  • ડેટા: વપરાશકર્તા interactions, post topics, engagement પેટર્ન
  • Clusters: Influencers, casual users, brand advocates
  • એપ્લિકેશન: Viral marketing, content વ્યૂહરચના, community management

3. Market Research:

  • ડેટા: Survey responses, ઉત્પાદન પસંદગીઓ, demographics
  • Clusters: સમાન જરૂરિયાતો સાથેના માર્કેટ segments
  • Insights: ઉત્પાદન વિકાસ, કિંમત વ્યૂહરચના, માર્કેટ positioning

Clustering Algorithms:

  • K-Means: ડેટાને k clusters માં વિભાજિત કરે છે
  • Hierarchical: વૃક્ષ-જેવું cluster structure બનાવે છે
  • DBSCAN: વિવિધ ઘનતાના clusters શોધે છે

Validation પદ્ધતિઓ:

  • Silhouette Score: cluster ગુણવત્તા માપે છે
  • Elbow Method: optimal clusters ની સંખ્યા નક્કી કરે છે
  • Domain Expertise: બિઝનેસ જ્ઞાન validation

ફાયદાઓ:

  • Pattern Discovery: છુપાયેલ ડેટા structures જાહેર કરે છે
  • Decision Support: બિઝનેસ નિર્ણયો માટે insights પ્રદાન કરે છે
  • Automation: manual ડેટા વિશ્લેષણનો પ્રયાસ ઘટાડે છે

મેમરી ટ્રીક: “Clustering Creates Clear Categories” (CCCC)

સંબંધિત

લિનિયર ઇન્ટિગ્રેટેડ સર્કિટ (4341105) - શિયાળો 2023 સોલ્યુશન
14 મિનિટ
અભ્યાસ-સામગ્રી સોલ્યુશન લિનિયર-ઇન્ટિગ્રેટેડ-સર્કિટ 4341105 2023 શિયાળો
ઔદ્યોગિક ઇલેક્ટ્રોનિક્સ (4331103) - શિયાળો 2023 સોલ્યુશન
અભ્યાસ-સામગ્રી સોલ્યુશન ઔદ્યોગિક-ઇલેક્ટ્રોનિક્સ 4331103 2023 શિયાળો
એસેન્શિયલ્સ ઓફ ડિજિટલ માર્કેટિંગ (4341601) - શિયાળો 2023 સોલ્યુશન
અભ્યાસ-સામગ્રી સોલ્યુશન ડિજિટલ-માર્કેટિંગ 4341601 2023 શિયાળો
ડેટાબેઝ મેનેજમેન્ટ સિસ્ટમ (1333204) - વિન્ટર 2023 સોલ્યુશન
16 મિનિટ
અભ્યાસ-સામગ્રી સોલ્યુશન ડેટાબેઝ 1333204 2023 વિન્ટર
ડેટા સ્ટ્રક્ચર અને એપ્લિકેશન (1333203) - વિન્ટર 2023 સોલ્યુશન
24 મિનિટ
અભ્યાસ-સામગ્રી સોલ્યુશન ડેટા-સ્ટ્રક્ચર 1333203 2023 વિન્ટર
પાયથોન પ્રોગ્રામિંગ (1323203) - સમર 2023 સોલ્યુશન
21 મિનિટ
અભ્યાસ-સામગ્રી સોલ્યુશન પાયથોન-પ્રોગ્રામિંગ 1323203 2023 સમર