Semalt - कसरी वेब पृष्ठ स्क्र्याप गर्ने?

सुन्दर सूप एक पाइथन लाइब्रेरी हो जुन वेब पृष्ठहरूलाई स्क्र्याप गर्न व्यापक रूपमा प्रयोग गरिन्छ XML र HTML कागजातहरूबाट पार्स रूख सिर्जना गरेर। वेब स्क्र्यापि,, वेबसाइटहरू र पृष्ठहरूबाट डाटा निकाल्ने एउटा प्रविधि, डाटा विश्लेषण र व्यवस्थापन क्षेत्रमा व्यापक रूपमा प्रयोग गरिन्छ। धेरै जसो अवस्थाहरूमा पाइथन प्रोग्रामि language्ग भाषा डाटा विज्ञानमा आवश्यक शर्त हो।

पाइथन सँग स्क्र्याप गर्ने उपकरणहरू र मोड्युलहरू छन् जुन तपाईं आफ्नो डाटा व्यवस्थापन प्रोजेक्टमा लागू गर्न सक्नुहुनेछ। हाल सुन्दर सूप S को रूपमा चल्दै, यो मोड्युल दुबै पाइथन and र पाइथन २.7 सँग मिल्दो छ। सुन्दर सूप module मोड्युल गैर बन्द ट्याग सूपको लागि पार्स ट्री सिर्जना गर्न पनि सक्षम छ। यस ट्यूटोरियलमा, तपाईं कसरी पृष्ठ स्क्र्याप गर्ने र CSV फाईलमा स्क्र्याप गरिएको डाटा लेख्ने तरिका सिक्नुहुनेछ।

सुरु गर्दै

सुरू गर्नका लागि तपाईको पीसीमा सर्वर वा स्थानीय-आधारित पाइथन कोडिंग वातावरण सेट अप गर्नुहोस्। तपाईंले आफ्नो मशीनमा सुन्दर सूप र अनुरोध मोड्युल पनि स्थापना गर्नुपर्नेछ। दुबै मोड्युलहरूको साथ काम गर्ने ज्ञान पनि आवश्यक शर्त हो। एचटीएमएल टैगिंग र संरचना को साथ परिचित भी एक अतिरिक्त लाभ है।

तपाईंको डाटा बुझ्दै

यस सन्दर्भमा, कलाको नेशनल ग्यालेरीबाट वास्तविक डाटा तपाइँलाई सुन्दर सूप कसरी प्रयोग गर्ने भनेर बुझ्न मद्दतको लागि प्रयोग गरिन्छ। National राष्ट्रिय ग्यालरीको कला १२०,००० टुक्रा समावेश गर्दछ जुन लगभग १,000,००० कलाकारहरूले गरेको हुन्छ। कला वाशिंगटन डीसी, संयुक्त राज्य मा आधारित छ।

सुन्दर सूपको साथ वेब डाटा निकाल्ने जटिल छैन। उदाहरण को लागी, यदि तपाई अक्षर Z मा ध्यान केन्द्रित गर्नुहुन्छ भने, चिन्ह लगाउनुहोस् र सूचीमा पहिलो नाम नोट गर्नुहोस्। यस अवस्थामा, पहिलो नाम जाबाग्लिया, निकोला हो। स्थिरताको लागि पृष्ठहरूको संख्या र त्यो पृष्ठमा अन्तिम कलाकारको नाम सूचित गर्नुहोस्।

अनुरोधहरू र सुन्दर सूप पुस्तकालय कसरी आयात गर्ने

पुस्तकालयहरू आयात गर्न, तपाईंको पायथन on प्रोग्रामिंग वातावरण सक्रिय गर्नुहोस्। तपाइँ तपाइँको प्रोग्रामिंग वातावरणको साथ समान डाइरेक्टरीमा हुनुहुन्छ भनेर निश्चित गर्न जाँच गर्नुहोस्। सुरू गर्नका लागि निम्न आदेश चलाउनुहोस्। my_env / bin / सक्रिय गर्नुहोस्।

नयाँ फाईल सिर्जना गर्नुहोस् र सुन्दर सूप र अनुरोध पुस्तकालयहरू आयात गर्न सुरू गर्नुहोस्। अनुरोध लाइब्रेरीले तपाइँलाई तपाइँको पायथन कार्यक्रम भित्र पढ्न योग्य ढाँचामा HTTP प्रयोग गर्न अनुमति दिनेछ। अर्कोतर्फ सुन्दर सूपले चाँडै पृष्ठहरू स्क्र्याप गर्न काम गर्दछ। सुन्दर सूप आयात गर्न bs4 प्रयोग गर्नुहोस्।

कसरी एक वेब पृष्ठ को संग्रह र पार्स गर्ने

अनुरोधहरू प्रयोग गरेर तपाईंको पहिलो पृष्ठको URL स collect्कलन गर्दछ। पहिलो पृष्ठको यूआरएल भेरिएबल पेजमा तोकिनेछ। अनुरोधबाट एक ब्यूटीफुलसप वस्तु बनाउनुहोस् र पाइथनको पार्सरबाट वस्तु पार्स गर्नुहोस्।

यस ट्यूटोरियलमा, उद्देश्य लि links्कहरू र कलाकारहरूको नाम स collect्कलन गर्नु हो। उदाहरण को लागी, तपाइँ कलाकारको मिति र राष्ट्रियता स .्कलन गर्न सक्नुहुन्छ। विन्डोज प्रयोगकर्ताहरूका लागि कलाकारको पहिलो नाममा दायाँ क्लिक गर्नुहोस्। यस अवस्थामा, जाबाग्लिया, निकोला प्रयोग गर्नुहोस्। म्याक ओएस प्रयोगकर्ताहरूको लागि "CTRL" ट्याप गर्नुहोस् र नाम क्लिक गर्नुहोस्। "निरीक्षण तत्व" मेनू क्लिक गर्नुहोस् जुन तपाईंको विकासकर्ताहरूको उपकरणहरू पहुँच गर्न तपाईंको स्क्रीनमा पप-अपहरू। कलाकारको नाम प्रिन्ट गर्नुहोस् प्रिन्ट गर्नुहोस् सुन्दर सूपले रूख छिटो पार्स गर्न।

तलका लिंकहरू हटाउँदै

तपाईंको वेब पृष्ठमा तलको लिंकहरू हटाउन, DOM निरीक्षण गर्नुहोस् तत्वमा राइट-क्लिक गरेर। तपाईले पहिचान गर्नुहुनेछ कि लिंकहरू HTML टेबल अन्तर्गत छन्। सुन्दर सूप प्रयोग गरेर, पार्स रूखबाट ट्यागहरू हटाउन "विघटन विधि" प्रयोग गर्नुहोस्।

कसरी ट्यागबाट सामग्री तान्ने

तपाईंले सम्पूर्ण लिंक ट्याग प्रिन्ट गर्नुपर्दैन, ट्यागबाट सामग्री हटाउन सुंदर सूप प्रयोग गर्नुहोस्। तपाईं सुन्दर सूप using प्रयोग गरेर कलाकारहरूसँग सम्बन्धित URL हरू पनि कब्जा गर्न सक्नुहुनेछ।

CSV फाईलमा स्क्र्याप गरिएको डाटा क्याप्चर गर्दै

CSV फाईलले तपाइँलाई सादा पाठमा संरचित डाटा भण्डारण गर्न अनुमति दिनेछ, एक ढाँचा जुन प्राय: डाटाशीटहरूको लागि प्रयोग गरिन्छ। पाइथनमा प्लेन टेक्स्ट फाईलहरू ह्यान्डल गर्ने ज्ञानको सिफारिश गरिन्छ।

वेब डाटा निकासी पृष्ठहरु को खुट्याउन र जानकारी प्राप्त गर्न प्रयोग गरीन्छ। वेबसाइटहरु को बारे ध्यान राख्नुहोस् जहाँबाट तपाईले जानकारी निकाल्नुहुन्छ। केही गतिशील वेबसाइटहरूले उनीहरूका साइटहरूमा वेब डाटा एक्स्ट्र्याक्शन रोक्छन्। सुन्दर सूप र पाइथन with को साथ पृष्ठ स्क्र्याप गर्न यो सरल छ।