Choose Language

Understand ⏱ 134 min

The spelled-out intro to language modeling: building makemore

What You Will Learn

  • चैरेक्टर लेवल लैंग्वेज मॉडल की मूल बातें समझना
  • बिग्राम लैंग्वेज मॉडल का निर्माण और इसका उपयोग
  • पाइथन में टorch लाइब्रेरी का उपयोग करके लैंग्वेज मॉडल बनाना

Key Concepts

चैरेक्टर लेवल लैंग्वेज मॉडल एक ऐसा मॉडल है जो अक्षरों के अनुक्रम को संभालता है और अगले अक्षर की भविष्यवाणी करता है। बिग्राम लैंग्वेज मॉडल एक सरल मॉडल है जो केवल दो अक्षरों के अनुक्रम को देखता है और अगले अक्षर की भविष्यवाणी करता है। टorch लाइब्रेरी एक पाइथन लाइब्रेरी है जो गहरे शिक्षण मॉडल बनाने में मदद करती है। हमें एक डिक्शनरी या 2डी आरे का उपयोग करके बिग्राम काउंट्स को संग्रहीत करना होगा।

Code Examples

for character_one, character_two in zip(w, w[1:]):
    print(character_one, character_two)

यह कोड दो अक्षरों के अनुक्रम को बनाने के लिए उपयोग किया जाता है।

n = torch.zeros(28, 28, dtype=torch.int32)

यह कोड एक 2डी आरे बनाने के लिए उपयोग किया जाता है जो बिग्राम काउंट्स को संग्रहीत करेगा।

p = n[0] / n[0].sum()

यह कोड पहले अक्षर के लिए एक प्रोबेबिलिटी वेक्टर बनाने के लिए उपयोग किया जाता है।

Lesson Summary

इस पाठ में, हमने चैरेक्टर लेवल लैंग्वेज मॉडल और बिग्राम लैंग्वेज मॉडल की मूल बातें सीखीं। हमने देखा कि कैसे हम पाइथन में टorch लाइब्रेरी का उपयोग करके एक बिग्राम लैंग्वेज मॉडल बना सकते हैं। हमने एक डिक्शनरी या 2डी आरे का उपयोग करके बिग्राम काउंट्स को संग्रहीत करना सीखा। हमने पहले अक्षर के लिए एक प्रोबेबिलिटी वेक्टर बनाने के लिए भी सीखा। यह पाठ लैंग्वेज मॉडलिंग की मूल बातों को समझने के लिए एक अच्छा प्रारंभिक बिंदु है।

Practice Exercise

एक बिग्राम लैंग्वेज मॉडल बनाएं जो एक दिए गए डेटासेट पर प्रशिक्षित हो। पहले अक्षर के लिए एक प्रोबेबिलिटी वेक्टर बनाएं और इसका उपयोग करके एक नया अक्षर अनुक्रम बनाएं।

What Is Next

अगले पाठ में, हम अधिक जटिल लैंग्वेज मॉडल्स पर चर्चा करेंगे और देखेंगे कि कैसे हम उन्हें पाइथन में लागू कर सकते हैं। हम वोर्ड लेवल लैंग्वेज मॉडल्स और ट्रांसफॉर्मर मॉडल्स पर भी चर्चा करेंगे।