Back to Question Center
0

सुन्दरसोप वेबपेज सामग्री लिने पाँच मिनेटमा - सेमील्ट विशेषज्ञ

1 answers:

सुन्दर सूपले XML र एचटीएमएल कागजात पार्स गर्नका लागि प्रयोग गरिएको प्याजन प्याकेज हो।. यसले वेब पेजहरूका लागि पेर्स पार्सल सिर्जना गर्दछ र पाइजोन 2 र पाइजोन 3 को लागि उपलब्ध छ. यदि तपाइँसँग एक वेबसाइट छ जुन राम्ररी स्क्रैप गर्न सकिँदैन, तपाईं फरक BeautifulSoup ढाँचा प्रयोग गर्न सक्नुहुनेछ. निकालिएका डेटाहरू व्यापक, पढ्न योग्य, र स्केलेबल हुने छोटो छोटो ढङ्ग र लामो-पूरै कुञ्जीशब्दहरू हुनेछन्.

जस्तै सुन्दरसुप जस्तै, lxml HTML सँग एकीकृत गर्न सकिन्छ. parser module conveniently - protein tozu kac kalori. यस प्रोग्रामिंग भाषा को एक भन्दा विशिष्ट विशेषताहरु मध्ये एक छ कि यो स्पैम सुरक्षा र वास्तविक-समय डेटा को लागि बेहतर परिणाम प्रदान गर्दछ. Lxml र सुन्दरसप्रो दुवै सजिलैसँग सिक्ने र तीन प्रमुख प्रकार्यहरू प्रदान गर्नुहोस्: ढाँचा, पार्सिङ र रूख रूपान्तरित. यो ट्यूटोरियलमा, हामी तपाईंलाई कसरी सिकाउने BeautifulSoup कसरी विभिन्न वेब पृष्ठहरूको पाठ हान्ने छ.

स्थापना

पहिलो कदम पाइपको प्रयोग गरेर BeautifulSoup 4 स्थापना गर्न हो. यो प्याकेजले पाइजोन 2 र 3 मा काम गर्दछ. सुन्दरसुप प्याजन 2 कोडको रूपमा प्याकेज गरिएको छ; र जब हामी यसलाई Python 3 को साथ प्रयोग गर्दछ, यो नवीनतम संस्करण मा स्वचालित रूप देखि अद्यतन हुन्छ, तर कोड पूर्ण अद्यतन छैन जब सम्म हामी पूर्ण पाइथोन पैकेज.

पार्सर स्थापना गर्दै

तपाईले उपयुक्त पार्सर स्थापना गर्न सक्नुहुन्छ, जस्तै html5lib, lxml, र HTML. पार्सर. यदि तपाईंले पिप स्थापना गर्नुभयो भने, तपाईंलाई bs4 बाट आयात गर्न आवश्यक छ. यदि तपाइँ स्रोत डाउनलोड गर्नुहुन्छ भने, तपाईंलाई फेथोन लाइब्रेरीबाट आयात गर्न आवश्यक छ. कृपया सम्झनुहोस् कि lxml पार्सर दुई फरक संस्करणमा आउँछ: XML पार्सर र HTML पार्सर. एचटीटीएल पार्सर पाइजोनको पुरानो संस्करणहरूसँग राम्ररी कार्य गर्दैन। त्यसो भए, तपाईं XML पार्सर स्थापना गर्न सक्नुहुनेछ यदि HTML पार्सर जवाफ फर्काउँछ वा ठीकसँग स्थापित हुँदैन. Lxml पार्सर अपेक्षाकृत छिटो र विश्वसनीय छ र सही परिणाम दिन्छ.

प्रयोग गर्नुहोस् BeautifulSoup टिप्पणीहरू पहुँच गर्नका लागि

सुन्दरस्पको साथ, तपाईं इच्छित वेब पृष्ठको टिप्पणीहरूमा पहुँच प्राप्त गर्न सक्नुहुन्छ।. टिप्पणी सामान्यतया टिप्पणी वस्तु खण्डमा भण्डारण गरिन्छ र वेबपृष्ठ सामग्री ठीकसँग प्रतिनिधित्व गर्न प्रयोग गरिन्छ.

शीर्षकहरू, लिङ्कहरू, र हेडिंगहरू

तपाईले सजिलैसँग सुन्दर स्टोपको साथ पृष्ठ शीर्षकहरू, लिङ्कहरू र शीर्षकहरू हटाउन सक्नुहुनेछ।. तपाईंले भर्खरैको कोडको मार्कअप प्राप्त गर्नु पर्छ. मार्कअप प्राप्त भएपछि, तपाईं शीर्षकहरू र subheadings बाट पनि स्क्रैप डाटा गर्न सक्नुहुनेछ.

DOM

नेभिगेट गर्नुहोस्

हामी सुंदर एसपपको प्रयोग गरेर DOM रूखहरू मार्फत नेभिगेट गर्न सक्छौं।. ट्याग शृंखलाले एसईओ उद्देश्यका लागि डेटा हटाउन मद्दत गर्नेछ.

निष्कर्ष:

माथि उल्लेख गरिएका चरणहरू पूर्ण भएपछि, तपाइँ सजिलै संग वेबपेज पाठ ह्यान्डल गर्न सक्नुहुनेछ।. सम्पूर्ण प्रक्रियाले पाँच मिनेट भन्दा बढी लाग्दैन र गुणवत्ता परिणामको प्रतिज्ञा गर्नेछैन. यदि तपाईं एचटीएमएल कागजात वा पीडीएफ फाईलहरूबाट डेटा निकाल्न खोज्दै हुनुहुन्छ भने, न त सुन्दरसेउप र नजदोनले तपाईंलाई मद्दत गर्नेछ. त्यस्ता परिस्थितिहरूमा, तपाईले एचटीएमएल स्क्रैटर प्रयास गर्नुपर्छ र तपाईंको वेब कागजातहरू सजिलैसँग विश्लेषण गर्नुपर्छ. तपाईंले एसईओ उद्देश्यका लागि डाटा स्क्रैप गर्न BeautifulSoup को सुविधाहरूको पूरा फायदा लिनुपर्छ. यदि हामी lxml को HTML पार्सरहरू मनपर्छ भने, हामी अझै पनि BeautifulSoup समर्थन प्रणालीको फाइदा लिन सक्छौं र मिनेटको कुरामा गुणस्तर परिणाम प्राप्त गर्न सक्दछौं।.

December 22, 2017