Парсинг данных большой корзины с использованием Python

suzannalamothe

Парсинг данных большой корзины с использованием Python Скачать Скрипт на PythonОтправьте ссылку на скачивание по адресу: Big Basket-крупнейший онлайн-магазин продуктов питания в Индии. Он стал очень популярным веб-сайтом в городах метро Индии и постепенно расширяет свою базу в городах уровня 2 и уровня 3. Это похоже на интернет-супермаркет, где вы можете найти все товары для ваших домашних нужд, такие как продукты питания, уборка, средства личной гигиены и т.д. Можно захватить все продукты автоматизированным способом, используя скребок Bigbasket парсер для сайта мониторинга продукта.Как и на любом другом веб-сайте электронной коммерции, на big basket есть много полезных данных. Но это тяжелый динамичный веб-сайт на Java, маркет парсер который трудно парсить. Когда вы открываете этот веб-сайт через браузер, на серверной части появляется запрос AJAX, который отображает данные на веб-сайте. Поэтому, если вы отправите запрос get непосредственно по ссылке, которую вы использовали в браузере, вы не получите никаких данных. Мы можем проверить это, просмотрев исходный код. Как правило, если мы нажимаем ctrl+U на любом веб-сайте, он показывает нам исходный код этой конкретной страницы, на которой будет содержаться весь HTML-контент. Но для тяжелого веб-сайта с java-скриптом, такого как Big basket, парсер для сайта нажатие ctrl+U не даст нам исходный код HTML.Поэтому для такого веб-сайта нам нужно найти внутренний URL-адрес запроса AJAX и отправить на него запрос get, чтобы парсить данные.Обычный веб-сайт ctrl+U дает нам исходный код HTML:Но не на тяжелом динамичном веб-сайте java-скрипта, таком как big basket:Теперь как найти этот запрос AJAX? Для этого нажмите на любой продукт и скопируйте идентификатор продукта с URL-адреса, как указано ниже:Теперь перейдите в раздел Проверка сети и нажмите ctrl+F, чтобы открыть окно поиска и вставить идентификатор продукта, нажмите enter, это покажет вам все запросы, в которых был этот идентификатор продукта:Теперь наведите курсор мыши на все эти запросы и найдите тот, в котором есть слово slug. Это внутренний URL-адрес, который нам нужен для отправки запроса get:https://www.bigbasket.com/custompage/sysgenpd/?type=pc&slug=potato-onion-tomatoТеперь, когда у нас есть URL-адрес, давайте перейдем к коду, чтобы построить скребок парсер для сайта большой корзины и парсить некоторые данные. Поскольку веб-сайт загружен JavaScript, нам придется использовать здесь json. Чтобы узнать об этом подробнее, посмотрите видео.Ниже приведен полный код:import requests from bs4 import BeautifulSoup as soup header = ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0, WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36’ r = requests.get(‘https://www.bigbasket.com/custompage/sysgenpd/?type=pc&slug=potato-onion-tomato’,headers=header) bsobj = soup(r.content) import json comp = json.loads(r.text) name = [] mrp = [] sp = [] for j in a: name.append(j[‘p_desc’]) mrp.append(j[‘mrp’]) sp.append(j[‘sp’]) print(name) print(mrp) print(sp) Выход:import pandas as pd bigb = ‘Product_name’:name,’MRP’:mrp,’Special_price’:sp df = pd.DataFrame.from_dict(bigb) dfВыход:Тем не менее, вы можете использовать наши услуги для удовлетворения ваших точных и массовых потребностей в данных о продуктах без участия в кодировании. Загрузите образцы данных парсер для сайта очистки данных Bigbasket для лучшего понимания данных.

Leave a Reply

Your email address will not be published. Required fields are marked *