Back to Question Center
0

सिल्टलले HTML वेबसाइटहरूबाट कसरी डाटा निकाल्न आवश्यक छ भनेर बताउँछ

1 answers:

नेटमा प्रस्तुत गरिएको जानकारी को एक ठूलो मात्रा "असंगत" यो राम्ररी व्यवस्थित छैन. एचटीएमएल वेबसाइटहरू जसमा तिनीहरूसँग व्यवस्थित कागजातहरू छन् फरक फरक छन्, र कागजातहरूमा प्रस्तुत गरिएका पाठहरू अन्तर्निहित HTML कोड भित्र संरचित छन्.

एचटीएमएल वेबसाइटहरूबाट तीनवटा मुख्य डाटा निकासी विधिहरू छन्:

  • तपाईंको कम्प्युटरमा वेब पेजमा राखिएको पाठ बचत गर्दै;
  • डेटा निकासी को लागि कोड लेखन;
  • विशेष निष्कर्षण उपकरणहरुको उपयोग गरेर;

1. कोडिंग बिना वेबसाइटबाट एचटीएमएल निकाल्न कसरी निकाल्नुहोस्

तपाईले तल वर्णन गरिएका चरणहरू प्रयोग गरी वेब पृष्ठ सामग्री स्क्रैप गर्न सक्नुहुन्छ:

(2 9)

निकाल्ने केवल पाठ

तपाईंले चाहानु भएको टेक्स्टमा वेबपेज खोल्न पछि, ठीक क्लिक गर्नुहोस् र "पृष्ठ बचत गर्नुहोस्," वा "बचत गर्नुहोस्" विकल्प चयन गर्नुहोस्। - home network installers. "फाइल नाम" फिल्डमा फाइलको लागि एक नाम टाइप गर्नुहोस् र "प्रकारको रूपमा बचत गर्नुहोस्" ड्रप-डाउन मेनुबाट, "वेब पृष्ठ" मात्र चयन गर्नुहोस्।. "बटन" सुरक्षित क्लिक गर्नुहोस् र केही सेकेन्ड पर्खनुहोस्.

त्यो पृष्ठको सबै पाठ निकालेको छ र एचटीएमएल फाइलको रूपमा सुरक्षित गरियो. मूल पृष्ठ ढाँचा विकल्पहरू बरकरार रहन्छन्, र तपाईं यस्तो पाठ सम्पादकहरूमा सामग्री सम्पादन गर्न सक्नुहुनेछ रूपमा नोटप्याडको रूपमा.

सम्पूर्ण वेबपेज निकाल्दा

"फाइल" मेनुमा "बचत गर्नुहोस्" वा "पृष्ठ बचत गर्नुहोस्" विकल्प चयन गर्नुहोस्।. त्यसपछि, "वेब पेज, पूरा" मा क्लिक गर्नुहोस् "प्रकारको रूपमा बचत गर्नुहोस्" ड्रप-डाउन मेनुबाट. "बचत गर्नुहोस्" क्लिक गरेपछि पाठ र छविहरू पृष्ठबाट निकालिनेछन् र जहाँ पनि तपाइँ चाहानुहुन्छ. पाठ एचटीएमएल फाइलमा राखिएको छ जब छविहरू फोल्डरमा भण्डार गरिएको छ.

2. कोडिंग

को प्रयोग गरेर वेबसाइट बाट एचटीएमएल निकाल्दै तपाइँ विशेष उपकरणहरू प्रयोग गरेर एचटीएमएल फाइलहरूसँग सीधा काम गर्न सक्नुहुन्छ. साथै, तपाइँ सबै एचटीएमएल ट्यागहरू हटाउन कोडहरू सिर्जना गर्न सक्नुहुन्छ र XPath वा नियमित अभिव्यक्ति प्रयोग गरी एचटीएमएल फाइलहरूमा समाहित पाठ राख्न सक्नुहुन्छ. यस कार्यका लागि सबैभन्दा धेरै लोकप्रिय प्रोग्रामिङ भाषाहरू पाइजोन, जाभा, जे एस, जा, PHP र नोडजेज समावेश छन्.

3. वेब डेटा निष्कर्षण उपकरण

यदि तपाइँ केवल कोडबाट एकल लाइन लेख्न वा वेबसाइटमा HTML फाइलहरू निकाल्न चाहानुहुन्छ वा प्रतिलिपि र पेस्ट पद्धतिको इज्जतबाट बचाउन चाहानुहुन्छ भने, वेब स्क्रैपिंग उपकरणहरू प्रयोग गर्नुहोस्. वास्तवमा, त्यहाँ धेरै उपयोगी उपकरणहरू छन् जुन वेबसाइटबाट आवश्यक जानकारी फसल र त्यसपछि यसलाई ढाँचामा ढाँचामा बदल्न सक्छ. बस केहि स्क्रैपिंग उपकरण को कोशिश करो, र तपाईं निश्चित रूप देखि एक छ कि तपाईंको स्क्रैपिंग आवश्यकताहरु को लागि सबै भन्दा उपयुक्त छ खोज.

December 22, 2017