The spelled-out intro to language modeling: building makemore
What You Will Learn
- चैरेक्टर लेवल लैंग्वेज मॉडल की मूल बातें समझना
- बिग्राम लैंग्वेज मॉडल का निर्माण और इसका उपयोग
- पाइथन में टorch लाइब्रेरी का उपयोग करके लैंग्वेज मॉडल बनाना
Key Concepts
चैरेक्टर लेवल लैंग्वेज मॉडल एक ऐसा मॉडल है जो अक्षरों के अनुक्रम को संभालता है और अगले अक्षर की भविष्यवाणी करता है। बिग्राम लैंग्वेज मॉडल एक सरल मॉडल है जो केवल दो अक्षरों के अनुक्रम को देखता है और अगले अक्षर की भविष्यवाणी करता है। टorch लाइब्रेरी एक पाइथन लाइब्रेरी है जो गहरे शिक्षण मॉडल बनाने में मदद करती है। हमें एक डिक्शनरी या 2डी आरे का उपयोग करके बिग्राम काउंट्स को संग्रहीत करना होगा।
Code Examples
for character_one, character_two in zip(w, w[1:]):
print(character_one, character_two)
यह कोड दो अक्षरों के अनुक्रम को बनाने के लिए उपयोग किया जाता है।
n = torch.zeros(28, 28, dtype=torch.int32)
यह कोड एक 2डी आरे बनाने के लिए उपयोग किया जाता है जो बिग्राम काउंट्स को संग्रहीत करेगा।
p = n[0] / n[0].sum()
यह कोड पहले अक्षर के लिए एक प्रोबेबिलिटी वेक्टर बनाने के लिए उपयोग किया जाता है।
Lesson Summary
इस पाठ में, हमने चैरेक्टर लेवल लैंग्वेज मॉडल और बिग्राम लैंग्वेज मॉडल की मूल बातें सीखीं। हमने देखा कि कैसे हम पाइथन में टorch लाइब्रेरी का उपयोग करके एक बिग्राम लैंग्वेज मॉडल बना सकते हैं। हमने एक डिक्शनरी या 2डी आरे का उपयोग करके बिग्राम काउंट्स को संग्रहीत करना सीखा। हमने पहले अक्षर के लिए एक प्रोबेबिलिटी वेक्टर बनाने के लिए भी सीखा। यह पाठ लैंग्वेज मॉडलिंग की मूल बातों को समझने के लिए एक अच्छा प्रारंभिक बिंदु है।
Practice Exercise
एक बिग्राम लैंग्वेज मॉडल बनाएं जो एक दिए गए डेटासेट पर प्रशिक्षित हो। पहले अक्षर के लिए एक प्रोबेबिलिटी वेक्टर बनाएं और इसका उपयोग करके एक नया अक्षर अनुक्रम बनाएं।
What Is Next
अगले पाठ में, हम अधिक जटिल लैंग्वेज मॉडल्स पर चर्चा करेंगे और देखेंगे कि कैसे हम उन्हें पाइथन में लागू कर सकते हैं। हम वोर्ड लेवल लैंग्वेज मॉडल्स और ट्रांसफॉर्मर मॉडल्स पर भी चर्चा करेंगे।