Back to Question Center
0

सुन्दरसोप वेबपेज सामग्री लिने पाँच मिनेटमा - सेमील्ट विशेषज्ञ

1 answers:

सुन्दर सूपले XML र एचटीएमएल कागजात पार्स गर्नका लागि प्रयोग गरिएको प्याजन प्याकेज हो।. यसले वेब पेजहरूका लागि पेर्स पार्सल सिर्जना गर्दछ र पाइजोन 2 र पाइजोन 3 को लागि उपलब्ध छ. यदि तपाइँसँग एक वेबसाइट छ जुन राम्ररी स्क्रैप गर्न सकिँदैन, तपाईं फरक BeautifulSoup ढाँचा प्रयोग गर्न सक्नुहुनेछ - purple and silver wedding hats. निकालिएका डेटाहरू व्यापक, पढ्न योग्य, र स्केलेबल हुने छोटो छोटो ढङ्ग र लामो-पूरै कुञ्जीशब्दहरू हुनेछन्.

जस्तै सुन्दरसुप जस्तै, lxml HTML सँग एकीकृत गर्न सकिन्छ. parser module conveniently. यस प्रोग्रामिंग भाषा को एक भन्दा विशिष्ट विशेषताहरु मध्ये एक छ कि यो स्पैम सुरक्षा र वास्तविक-समय डेटा को लागि बेहतर परिणाम प्रदान गर्दछ. Lxml र सुन्दरसप्रो दुवै सजिलैसँग सिक्ने र तीन प्रमुख प्रकार्यहरू प्रदान गर्नुहोस्: ढाँचा, पार्सिङ र रूख रूपान्तरित. यो ट्यूटोरियलमा, हामी तपाईंलाई कसरी सिकाउने BeautifulSoup कसरी विभिन्न वेब पृष्ठहरूको पाठ हान्ने छ.

स्थापना

पहिलो कदम पाइपको प्रयोग गरेर BeautifulSoup 4 स्थापना गर्न हो. यो प्याकेजले पाइजोन 2 र 3 मा काम गर्दछ. सुन्दरसुप प्याजन 2 कोडको रूपमा प्याकेज गरिएको छ; र जब हामी यसलाई Python 3 को साथ प्रयोग गर्दछ, यो नवीनतम संस्करण मा स्वचालित रूप देखि अद्यतन हुन्छ, तर कोड पूर्ण अद्यतन छैन जब सम्म हामी पूर्ण पाइथोन पैकेज.

पार्सर स्थापना गर्दै

तपाईले उपयुक्त पार्सर स्थापना गर्न सक्नुहुन्छ, जस्तै html5lib, lxml, र HTML. पार्सर. यदि तपाईंले पिप स्थापना गर्नुभयो भने, तपाईंलाई bs4 बाट आयात गर्न आवश्यक छ. यदि तपाइँ स्रोत डाउनलोड गर्नुहुन्छ भने, तपाईंलाई फेथोन लाइब्रेरीबाट आयात गर्न आवश्यक छ. कृपया सम्झनुहोस् कि lxml पार्सर दुई फरक संस्करणमा आउँछ: XML पार्सर र HTML पार्सर. एचटीटीएल पार्सर पाइजोनको पुरानो संस्करणहरूसँग राम्ररी कार्य गर्दैन। त्यसो भए, तपाईं XML पार्सर स्थापना गर्न सक्नुहुनेछ यदि HTML पार्सर जवाफ फर्काउँछ वा ठीकसँग स्थापित हुँदैन. Lxml पार्सर अपेक्षाकृत छिटो र विश्वसनीय छ र सही परिणाम दिन्छ.

प्रयोग गर्नुहोस् BeautifulSoup टिप्पणीहरू पहुँच गर्नका लागि

सुन्दरस्पको साथ, तपाईं इच्छित वेब पृष्ठको टिप्पणीहरूमा पहुँच प्राप्त गर्न सक्नुहुन्छ।. टिप्पणी सामान्यतया टिप्पणी वस्तु खण्डमा भण्डारण गरिन्छ र वेबपृष्ठ सामग्री ठीकसँग प्रतिनिधित्व गर्न प्रयोग गरिन्छ.

शीर्षकहरू, लिङ्कहरू, र हेडिंगहरू

तपाईले सजिलैसँग सुन्दर स्टोपको साथ पृष्ठ शीर्षकहरू, लिङ्कहरू र शीर्षकहरू हटाउन सक्नुहुनेछ।. तपाईंले भर्खरैको कोडको मार्कअप प्राप्त गर्नु पर्छ. मार्कअप प्राप्त भएपछि, तपाईं शीर्षकहरू र subheadings बाट पनि स्क्रैप डाटा गर्न सक्नुहुनेछ.

DOM

नेभिगेट गर्नुहोस्

हामी सुंदर एसपपको प्रयोग गरेर DOM रूखहरू मार्फत नेभिगेट गर्न सक्छौं।. ट्याग शृंखलाले एसईओ उद्देश्यका लागि डेटा हटाउन मद्दत गर्नेछ.

निष्कर्ष:

माथि उल्लेख गरिएका चरणहरू पूर्ण भएपछि, तपाइँ सजिलै संग वेबपेज पाठ ह्यान्डल गर्न सक्नुहुनेछ।. सम्पूर्ण प्रक्रियाले पाँच मिनेट भन्दा बढी लाग्दैन र गुणवत्ता परिणामको प्रतिज्ञा गर्नेछैन. यदि तपाईं एचटीएमएल कागजात वा पीडीएफ फाईलहरूबाट डेटा निकाल्न खोज्दै हुनुहुन्छ भने, न त सुन्दरसेउप र नजदोनले तपाईंलाई मद्दत गर्नेछ. त्यस्ता परिस्थितिहरूमा, तपाईले एचटीएमएल स्क्रैटर प्रयास गर्नुपर्छ र तपाईंको वेब कागजातहरू सजिलैसँग विश्लेषण गर्नुपर्छ. तपाईंले एसईओ उद्देश्यका लागि डाटा स्क्रैप गर्न BeautifulSoup को सुविधाहरूको पूरा फायदा लिनुपर्छ. यदि हामी lxml को HTML पार्सरहरू मनपर्छ भने, हामी अझै पनि BeautifulSoup समर्थन प्रणालीको फाइदा लिन सक्छौं र मिनेटको कुरामा गुणस्तर परिणाम प्राप्त गर्न सक्दछौं।.

December 22, 2017