Goodreads ist eine der besten Online-Adressen, um Gedanken zu Büchern auszutauschen. Mit einer Community von über 90 Millionen registrierte BenutzerAuf der Website wimmelt es von Rezensionen, Kommentaren und Bewertungen zu zahllosen Büchern. Diese Fülle an benutzergenerierten Inhalten ist eine wahre Goldgrube für alle, die wertvolle Informationen wie Buchbewertungen und Leserfeedback suchen.

Dieser Beitrag führt Sie durch die Erstellung eines Programms zum Sammeln von Buchbewertungen und Kommentaren mit Python und dem Crawlbase Crawling API. Wir führen Sie durch die Einrichtung Ihres Arbeitsbereichs, den Umgang mit seitenweisen Ergebnissen und das organisierte Speichern der Informationen.

Bereit zum Eintauchen?

Inhaltsverzeichnis

  1. Warum Goodreads scrapen?
  2. Wichtige Datenpunkte zum Extrahieren aus Goodreads
  3. Crawlbase Crawling API für Goodreads Scraping
  • Warum Crawlbase für Goodreads Scraping verwenden?
  • Crawlbase Python-Bibliothek
  1. Einrichten Ihrer Python-Umgebung
  • Installieren von Python und erforderlichen Bibliotheken
  • Auswahl einer IDE
  1. Durchsuchen von Goodreads nach Buchbewertungen und Kommentaren
  • Überprüfen des HTML auf Selektoren
  • Schreiben des Goodreads Scrapers für Bewertungen und Kommentare
  • Umgang mit Paginierung
  • Speichern von Daten in einer JSON-Datei
  • Vollständiges Codebeispiel
  1. Abschließende Überlegungen
  2. Häufig gestellte Fragen

Warum Goodreads scrapen?

Goodreads ist eine großartige Anlaufstelle für Buchliebhaber, Forscher und Unternehmen. Das Scraping von Goodreads kann Ihnen viele benutzergenerierte Daten liefern, mit denen Sie Buchtrends analysieren, Benutzerfeedback sammeln oder eine Liste beliebter Bücher erstellen können. Hier sind einige Gründe, warum das Scraping von Goodreads nützlich sein kann:

  • Umfangreiche Daten: Goodreads bietet Bewertungen, Rezensionen und Kommentare zu Büchern und ist somit eine ideale Quelle, um die Vorlieben der Leser kennenzulernen.
  • Große Benutzerbasis: Mit Millionen aktiver Benutzer verfügt Goodreads über einen riesigen Datensatz, der sich ideal für eingehende Analysen eignet.
  • Marktforschung: Die von Goodreads verfügbaren Daten können Unternehmen dabei helfen, Markttrends, beliebte Bücher und Kundenfeedback zu verstehen, die für Marketing oder Produktentwicklung nützlich sein können.
  • Persönliche projekte: Das Scraping von Goodreads kann praktisch sein, wenn Sie an einem persönlichen Projekt arbeiten, beispielsweise dem Aufbau Ihrer eigenen Buch-Empfehlungsmaschine oder der Analyse von Lesegewohnheiten.

Wichtige Datenpunkte zum Extrahieren aus Goodreads

Beim Scraping von Goodreads sollten Sie sich auf die wichtigsten Datenpunkte konzentrieren, um nützliche Erkenntnisse zu gewinnen. Hier sind die wichtigsten, die Sie sammeln sollten:

Wichtige Datenpunkte zum Extrahieren aus Goodreads
  • Buchtitel: Dies ist für jede Analyse oder Berichterstattung unerlässlich.
  • Name des Autors: Zum Kategorisieren und Organisieren von Büchern und zum Verfolgen beliebter Autoren.
  • Durchschnittliche Bewertung: Durchschnittliche Bewertung von Goodreads basierend auf Benutzerrezensionen. Dies ist der Schlüssel zum Verständnis der Popularität des Buches.
  • Anzahl der Bewertungen: Gesamtzahl der Bewertungen. Wie viele Leute haben das Buch gelesen.
  • Benutzerkommentare/Bewertungen: Benutzerbewertungen eignen sich hervorragend für qualitative Analysen. Was hat den Lesern gefallen oder nicht gefallen?
  • Genres: Goodreads-Bücher sind oft mit Genres gekennzeichnet. Hilft bei der Kategorisierung und Empfehlung ähnlicher Bücher.
  • Erscheinungsjahr: Nützlich, um Trends im Laufe der Zeit zu verfolgen oder Bücher zu vergleichen, die im selben Jahr veröffentlicht wurden.
  • Buchzusammenfassung: Die Inhaltsangabe bietet eine Zusammenfassung der Handlung des Buches und gibt den Kontext zum Inhalt des Buches an.

Crawlbase Crawling API für Goodreads Scraping

Beim Scraping dynamischer Websites wie Goodreads haben herkömmliche Anfragemethoden aufgrund von JavaScript-Rendering und komplexer Paginierung Probleme. Hier kommt der Crawlbase Crawling API ist praktisch. Es kümmert sich um JavaScript-Rendering, paginierten Inhalt und Captchas, sodass das Scraping von Goodreads reibungsloser abläuft.

Warum Crawlbase für Goodreads Scraping verwenden?

  • JavaScript-Rendering: Crawlbase verarbeitet das JavaScript, das Goodreads zur Anzeige von Bewertungen, Kommentaren und anderen dynamischen Inhalten verwendet.
  • Mühelose Paginierung: Mit der dynamischen Paginierung wird die Navigation durch mehrere Seiten mit Rezensionen automatisch.
  • Vorbeugung gegen Blockaden: Crawlbase verwaltet Proxys und Captchas für Sie und verringert so das Risiko, blockiert oder erkannt zu werden.

Crawlbase Python-Bibliothek

Crawlbase verfügt über eine Python-Bibliothek, die das Web Scraping erheblich vereinfacht. Diese Bibliothek erfordert zur Authentifizierung ein Zugriffstoken. Sie können ein Token erhalten, nachdem ein Profil erstellen auf Crawlbase.

Hier ist eine Beispielfunktion, die die Verwendung der Crawlbase demonstriert Crawling API um Anfragen zu senden:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
für Crawlbase importieren CrawlingAPI

# Initialisieren Sie die Crawlbase-API mit Ihrem Zugriffstoken
crawling_api = CrawlingAPI({ 'Zeichen': 'IHR_CRAWLBASE_TOKEN' })

def Crawlbase-Anfrage erstellen(URL):
Antwort = crawling_api.get(URL)

if Antwort['Kopfzeilen']['pc_status'] == '200':
html_content = Antwort['Körper'].dekodieren('utf-8')
Rückkehr HTML-Inhalt
sonst:
drucken(f"Seite konnte nicht abgerufen werden. Crawlbase-Statuscode: {Antwort['Kopfzeilen']['pc_status']}")
Rückkehr Keine

Note: Crawlbase bietet zwei Arten von Token an:

  • Normales Token für statische Sites.
  • JavaScript (JS)-Token für dynamische oder browserbasierte Anfragen.

Zum Scraping dynamischer Websites wie Goodreads benötigen Sie das JS-Token. Crawlbase stellt Ihnen 1,000 kostenlose Anfragen zum Einstieg zur Verfügung, und für diese Testversion ist keine Kreditkarte erforderlich. Weitere Einzelheiten finden Sie unter Crawlbase Crawling API Dokumentation.

Einrichten Ihrer Python-Umgebung

Bevor Sie Goodreads nach Buchbewertungen und Kommentaren durchsuchen, müssen Sie Ihre Python-Umgebung richtig einrichten. Hier ist eine Kurzanleitung für den Einstieg.

Installieren von Python und erforderlichen Bibliotheken

  1. Python herunterladen: Gehen Sie zum Python-Website und holen Sie sich die aktuelle Version, die für Ihr Betriebssystem verfügbar ist. Denken Sie während der Installation daran, Python zum Systempfad hinzuzufügen.
  2. Installieren Sie Python: Überprüfen Sie anschließend, ob die Installation erfolgreich war, indem Sie in der Konsole oder im Befehlsfenster die folgenden Anweisungen eingeben:
1
Python --Version
  1. Bibliotheken installieren: Mit Hilfe von pip, installieren und importieren Sie die erforderlichen Bibliotheken, einschließlich crawlbase um eine HTTP-Anfrage mit Crawlbase zu stellen Crawling APIund der BeautifulSoup aus der bs4-Bibliothek zum Parsen von Webseiten:
1
2
pip installieren crawlbase
pip install beautifulsoup4

Auswahl einer IDE

Eine gute IDE vereinfacht Ihre Codierung. Nachfolgend sind einige der beliebtesten aufgeführt:

  • VS-Code: Einfach und leicht, vielseitig einsetzbar, kostenlos mit Python-Erweiterungen.
  • PyCharm: Eine robuste Python-IDE mit vielen integrierten Tools für die professionelle Entwicklung.
  • Jupyter Notizbücher: Gut zum Ausführen von Codes mit einer interaktiven Einstellung, insbesondere für Datenprojekte.

Wenn Ihre Umgebung bereit ist, können Sie nun mit dem Scraping von Goodreads fortfahren.

Durchsuchen von Goodreads nach Buchbewertungen und Kommentaren

Beim Web Scraping von Buchbewertungen und Kommentaren von Goodreads muss man berücksichtigen, dass sich der Inhalt ständig ändert. Die Kommentare und Bewertungen werden asynchron geladen und die Paginierung erfolgt über Schaltflächen. In diesem Teil wird beschrieben, wie man diese Informationen erhält und mit der Paginierung über Crawlbase unter Verwendung eines JS-Tokens arbeitet. css_click_selector Parameter für die Schaltflächennavigation.

Überprüfen des HTML auf Selektoren

Zunächst muss man sich den HTML-Code der Goodreads-Seite ansehen, von der man scrapen möchte. Um beispielsweise Rezensionen für The Great Gatsby zu scrapen, verwenden Sie die URL:

1
https://www.goodreads.com/book/show/4671.The_Great_Gatsby/reviews

Öffnen Sie die Entwicklertools in Ihrem Browser und navigieren Sie zu dieser URL.

Screenshot der HTML-Struktur der Buchbewertungs- und Kommentarseite von Goodreads

Hier sind einige wichtige Auswahlkriterien, auf die Sie sich konzentrieren sollten:

  • Buchtitel: Gefunden in einem h1 Tag mit Klasse H1Title, und zwar in einem Ankertag mit data-testid="title".
  • Bewertungen: Befindet sich in einem div mit Klasse RatingStatistics, mit dem Wert in einem span Tag der Klasse RatingStars (Verwendung der aria-label Attribut).
  • Rezensionen: Jede Bewertung ist innerhalb einer article in einem div mit Klasse ReviewsList und Klasse ReviewCard. Jede Bewertung enthält:
    • Benutzername in einem div mit data-testid="name".
    • Überprüfen Sie Text in einem section mit Klasse ReviewText, enthaltend a span mit Klasse Formatted.
  • Schaltfläche "Mehr laden": Die Schaltfläche „Weitere Bewertungen anzeigen“ im Bewertungsbereich für die Seitennummerierung, gekennzeichnet durch button:has(span[data-testid="loadMore"]).

Schreiben des Goodreads Scrapers für Bewertungen und Kommentare

Crawlbase Crawling API mehrere bereitstellen Parameter die Sie damit verwenden können. Mit dem JS-Token von Crawlbase können Sie das dynamische Laden von Inhalten auf Goodreads handhaben. Die Parameter ajax_wait und page_wait können verwendet werden, um der Seite Zeit zum Laden zu geben.

Hier ist ein Python-Skript, um Goodreads mit Crawlbase nach Buchdetails, Bewertungen und Kommentaren zu durchsuchen Crawling API.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
für Crawlbase importieren CrawlingAPI
importieren JSON
für bs4 importieren BeautifulSuppe

# Crawlbase API mit JS Token initialisieren
crawling_api = CrawlingAPI({ 'Zeichen': 'CRAWLBASE_JS_TOKEN' })

# Funktion zum Abrufen und Verarbeiten von Goodreads-Buchdetails und -Rezensionen
def scrape_goodreads_reviews(Basis-URL):
Seitendaten = []

# Startseite und Bewertungen abrufen
Antwort = crawling_api.get(Basis-URL, {
'ajax_wait': "wahr",
'Seite_warten': '5000'
})

if Antwort['Kopfzeilen']['pc_status'] == '200':
html_content = Antwort['Körper'].dekodieren('utf-8')
Seitendaten = Buchdetails extrahieren (HTML-Inhalt)

Rückkehr Seitendaten

# Funktion zum Extrahieren des Buchtitels, der Bewertung und der Rezensionen von der Seite
def extract_book_details(html):
Suppe = Schöne Suppe (html, 'html.parser')
Titel = Suppe.select_one('h1.H1Title a[data-testid="title"]').text.strip()
Bewertung = Suppe.select_one(„div.RatingStatistics span.RatingStars“)[„Arien-Etikett“]

Bewertungen = []
für Bewertung_div in Suppe.Auswählen(„div.ReviewsList-Artikel.ReviewCard“):
Benutzer = review_div.select_one('div[Daten-Test-ID="Name"]').text.strip()
Bewertungstext = Bewertungsdiv.Eine_Auswahl(„Abschnitt.ReviewText span.Formatiert“).text.strip()
Bewertungen.anhängen({'Benutzer': Benutzer, 'Rezension': Bewertungstext})

Rückkehr {‚Titel‘: Titel, 'Bewertung': Bewertung, 'Bewertungen': Bewertungen}

Umgang mit Paginierung

Goodreads verwendet ein knopfbasiertes Paginierungssystem, um weitere Rezensionen zu laden. Sie können Crawlbases css_click_selector Parameter, um das Klicken auf die Schaltfläche „Weiter“ zu simulieren und zusätzliche Seiten mit Bewertungen abzurufen. Mit dieser Methode können Sie die größtmögliche Anzahl an Bewertungen sammeln.

So kann die Paginierung gehandhabt werden:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
def scrape_goodreads_reviews_with_pagination(Basis-URL):
Seitendaten = []

# Startseite und Bewertungen abrufen
Antwort = crawling_api.get(Basis-URL, {
'ajax_wait': "wahr",
'Seite_warten': '5000',
'css_click_selector': 'button:has(span[data-testid="loadMore"])'
})

if Antwort['Kopfzeilen']['pc_status'] == '200':
html_content = Antwort['Körper'].dekodieren('utf-8')
Seitendaten = Buchdetails extrahieren (HTML-Inhalt)

Rückkehr Seitendaten

Speichern von Daten in einer JSON-Datei

Nachdem Sie die Buchdetails und Rezensionen extrahiert haben, können Sie die extrahierten Daten in eine JSON-Datei schreiben. Dieses Format eignet sich perfekt zum Speichern strukturierter Daten und lässt sich sehr einfach für die spätere Verwendung verarbeiten.

So speichern Sie die Daten:

1
2
3
4
5
6
7
8
# Funktion zum Speichern von Scraped-Bewertungen in einer JSON-Datei
def Bewertungen als JSON speichern(Daten, Dateiname=„goodreads_reviews.json“):
mit XNUMXh geöffnet(Dateiname, 'w', Kodierung='utf-8') as f:
json.dump(Daten, f, Ensure_ASCII=falsch, Einzug=4)

# Beispielverwendung
Buchrezensionen = Scrape_Goodreads_Rezensionen_mit_Paginierung(„https://www.goodreads.com/book/show/4671.The_Great_Gatsby/reviews“)
save_reviews_to_json(Buchrezensionen)

Vollständiges Codebeispiel

Hier ist der vollständige Code, der Goodreads nach Buchbewertungen und -rezensionen durchsucht, die schaltflächenbasierte Paginierung handhabt und die Daten in einer JSON-Datei speichert:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
für Crawlbase importieren CrawlingAPI
importieren JSON
für bs4 importieren BeautifulSuppe

# Crawlbase API mit JS Token initialisieren
crawling_api = CrawlingAPI({ 'Zeichen': 'CRAWLBASE_JS_TOKEN' })

# Funktion zum Extrahieren von Buchdetails und Rezensionen aus dem HTML-Inhalt
def extract_book_details(html):
Suppe = Schöne Suppe (html, 'html.parser')
Titel = Suppe.select_one('h1.H1Title a[data-testid="title"]').text.strip()
Bewertung = Suppe.select_one(„div.RatingStatistics span.RatingStars“)[„Arien-Etikett“]

Bewertungen = []
für Bewertung_div in Suppe.Auswählen(„div.ReviewsList-Artikel.ReviewCard“):
Benutzer = review_div.select_one('div[Daten-Test-ID="Name"]').text.strip()
Bewertungstext = Bewertungsdiv.Eine_Auswahl(„Abschnitt.ReviewText span.Formatiert“).text.strip()
Bewertungen.anhängen({'Benutzer': Benutzer, 'Rezension': Bewertungstext})

Rückkehr {‚Titel‘: Titel, 'Bewertung': Bewertung, 'Bewertungen': Bewertungen}

# Funktion zum Scrapen von Goodreads mit Paginierung
def scrape_goodreads_reviews_with_pagination(Basis-URL):
Seitendaten = []

# Startseite und Bewertungen abrufen
Antwort = crawling_api.get(Basis-URL, {
'ajax_wait': "wahr",
'Seite_warten': '5000',
'css_click_selector': 'button:has(span[data-testid="loadMore"])'
})

if Antwort['Kopfzeilen']['pc_status'] == '200':
html_content = Antwort['Körper'].dekodieren('utf-8')
Seitendaten = Buchdetails extrahieren (HTML-Inhalt)

Rückkehr Seitendaten

# Funktion zum Speichern der Bewertungen im JSON-Format
def Bewertungen als JSON speichern(Daten, Dateiname=„goodreads_reviews.json“):
mit XNUMXh geöffnet(Dateiname, 'w', Kodierung='utf-8') as f:
json.dump(Daten, f, Ensure_ASCII=falsch, Einzug=4)

# Beispielverwendung
Buchrezensionen = Scrape_Goodreads_Rezensionen_mit_Paginierung(„https://www.goodreads.com/book/show/4671.The_Great_Gatsby/reviews“)
save_reviews_to_json(Buchrezensionen)

Durch die Verwendung des JS-Tokens von Crawlbase und die Handhabung der schaltflächenbasierten Paginierung extrahiert dieser Scraper effizient Buchbewertungen und -rezensionen von Goodreads und speichert sie in einem nutzbaren Format.

Beispielausgabe:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
{
„Titel“: "Der große Gatsby",
"Bewertung": "Bewertung 3.93 von 5",
"Bewertungen": [
{
"Nutzer": "Alex",
"Rezension": „Der große Gatsby ist Ihr Nachbar, mit dem Sie bester Freund sind, bis Sie herausfinden, dass er ein Drogendealer ist. Er bezaubert Sie mit einigen der elegantesten englischen Prosatexte, die je veröffentlicht wurden, und macht es schwierig, über den Roman zu sprechen, ohne den Drang zu verspüren, vor Ehrfurcht über seine Schönheit zu stammeln. Es wäre Beweis genug, um zu behaupten, dass F. Scott Fitzgerald übermenschlich war, wenn wir nicht wüssten, dass er auch This Side of Paradise geschrieben hat. Aber trotz seiner Magie ist die Rhetorik genau das, und es ist eine grausame Fassade. Hinter dem atemberaubenden Glanz verbirgt sich eine Geschichte mit all der Unzufriedenheit und Intensität der frühen Metallica-Alben. Im Kern wirft Der große Gatsby die Natur unserer Wünsche in ein hartes, schockierendes Licht. Es wird wohl nie wieder eine Figur geben, die so tragisch fehlgeleitete Hingabe verkörpert wie Jay Gatsby, und Daisy, seine Anhängerin, spielt ihre Rolle mit perfekter, unschuldiger Böswilligkeit. Gatsbys Konkurrent Tom Buchanan steht daneben und schaut zu, verspottet und provoziert mit durchdringender Stimme Sticheleien und das ständige Prahlen mit seinem beneidenswerten Körperbau. Die drei drängeln sich in einer epischen Dreiecksbeziehung, die unzählige unschuldige Opfer sowie die beiden Eier von Long Island dahinrafft. Jeder Stich, Haken und Kinnhaken wird vom sofort sympathischen Erzähler Nick Carraway wiedergegeben, der in all dem Chaos scheinbar die einzige Stimme der Vernunft ist. Aber als diese Boote schließlich unaufhörlich von der Strömung zurückgetragen werden, bleibt niemand über Wasser. Es ist ein ethisches Massaker, und Fitzgerald schont keine Leben; es gibt vielleicht keine einzige Figur von Bedeutung, die auch nur einen Sportsmanship Award des Boys and Girls Club verdient hätte. Kurz gesagt, Der große Gatsby handelt von Täuschung; Fitzgerald färbt unsere Brille mit wunderschöner Prosa und einem Erzähler, dem man so gerne vertrauen möchte, rosig, lässt die Linsen aber gerade durchscheinend genug, damit wir sehen können, dass Gatsby die gleiche Behandlung erfährt. Und wenn Gatsby die Wahrheit des amerikanischen Traums darstellt, bedeutet das Ärger für uns alle. Betrachten Sie es als die angenehmste Beleidigung, die Sie jemals erfahren werden."
},
{
"Nutzer": "Lisa von Troja",
"Rezension": „Fitzgerald, du hast mich ruiniert.“ Fitzgerald kann eine Szene so perfekt und makellos gestalten. Er malt eine Welt voller Magie und stellt eine der großartigsten Figuren aller Zeiten vor, Jay Gatsby. Gatsby ist die Verkörperung der Hoffnung, und niemand kann ihn von seinen Träumen abbringen. Hatten Sie jemals einen Traum, der Sie zu Höhen führte, von denen Sie sonst nie hätten träumen können? Als Gatsby mit Daisy Buchanan wiedervereint wird, füllt er den Raum bis zum Rand mit Blumen und schafft einen lebendigen Traum. Wie soll jemand damit konkurrieren? Der große Gatsby nutzt einen Erzähler, Nick, perfekt aus. Warum ist Gatsby so großartig? Weil Nick es uns sagt. Wenn Gatsby es uns sagen würde, würden wir nur denken, dass er ein Angeber ist, die am wenigsten bescheidene Person der Welt. Dieses Buch macht unglaublich süchtig, so komplex und doch perfekt verwoben, ein brillantes literarisches Meisterwerk. Ich muss immer wieder zurückgehen, um mich wieder mit Jay Gatsby zu verbinden, einer naiven, aber schönen und charmanten Hoffnung, perfekt unvollkommen, einem unermüdlicher Träumer. Leseplan 2025Jan\tEine Stadt wie AliceFeb\tVogelgezwitscherMär\tCorellis Mandoline - Louis De BerniereApr\tKrieg und FriedenMai\tDie Frau in WeißJun\tAbbitteJul\tDer Schatten des WindesAug\tJude der UnbekannteSep\tUlyssesOkt\tVanity FairNov\tEine feine BalanceDez\tGerminalVerbinden Sie sich mit mir!Blog Twitter BookTube Facebook Insta Mein Buchladen bei Pango"
},
{
"Nutzer": "Kemper",
"Rezension": „Jay Gatsby, du armer, verdammter Bastard. Du warst deiner Zeit voraus. Wenn du deinen Schwindel nach der Erfindung des Reality-TV durchgezogen hättest, wärst du ein großer Star in einer Show wie The Bachelor gewesen und ein Dutzend schamloser Daisy-Typen hätten sich auf dich gestürzt. Die Massenmedien und der moderne Ruhm hätten die Art und Weise begrüßt, wie du versucht hast, dich in einen sozialen Kreis zu drängen, zu dem du nicht gehörtest, um den Traum eines Narren zu erfüllen, während deine gesamte Existenz zu einer Lüge wurde und du verzweifelt versucht hast, die Geschichte so umzuschreiben, dass sie ein von dir gewünschtes Ende hat. Du hattest ein Talent dafür, Jay, aber ein moderner PR-Experte hätte dich größer gemacht als Kate Gosselin. Dein Talent für Eigenwerbung und übertriebene Zurschaustellung von Reichtum, um dir Respektabilität zu erkaufen, hätte genau in diese Zeit gepasst. Ich kann dich gerade noch auf einem roten Teppich mit Paris Hilton sehen. Und das Ende wäre anders gewesen. Heutzutage gibt es für reiche Leute keine Folgen. Anwälte und Schmiergeld hätten die Sache stillschweigend beigelegt. Kein Schaden, kein Foul. Aber dann hättest du erkannt, wie wertlos Daisy ist. war es wirklich irgendwann. Ich bin sicher, damit hätten Sie nicht umgehen können. Vielleicht ist es also besser, dass Ihre Geschichte im Jazz-Zeitalter spielt, wo Sie Ihre Illusionen bis zum bitteren Ende aufrechterhalten konnten.Der größte amerikanische Roman? Ich weiß nicht, ob es so ein Tier gibt. Aber ich denke, Sie müssten diesen hier in die Diskussion einbeziehen.“
},
{
"Nutzer": "Inge",
"Rezension": „Eines hat mir an Der große Gatsby besonders gut gefallen: Er war kurz.“
},
{
"Nutzer": "kann ➹",
"Rezension": „Das Einzige, was ich daraus mitgenommen habe, ist, dass Nick schwul ist2.5“
},
.... mehr
]
}

Abschließende Überlegungen

Durchsuchen Sie Goodreads nach Buchbewertungen und Kommentaren und erhalten Sie wertvolle Einblicke von Lesern. Mit Python und dem Crawlbase Crawling API macht es einfacher, insbesondere wenn Sie mit dynamischen Inhalten und schaltflächenbasierter Paginierung auf Goodreads arbeiten. Wenn wir uns um die technischen Komplexitäten kümmern, können Sie sich auf das Extrahieren der Daten konzentrieren.

Befolgen Sie die Schritte in dieser Anleitung, und Sie können Bewertungen und Beurteilungen auslesen und die Daten in einem strukturierten Format zur Analyse speichern. Wenn Sie mehr Web Scraping betreiben möchten, lesen Sie unsere Anleitungen zum Scraping anderer wichtiger Websites.

📜 So scrapen Sie Monster.com
📜 Wie man Groupon scrapt
📜 So scrapen Sie TechCrunch
📜 Wie man Clutch.co scrapt

Wenn Sie Fragen haben oder Feedback geben möchten, Support-Team kann beim Web Scraping helfen. Viel Spaß beim Scraping!

Häufig gestellte Fragen

F: Was ist die beste Möglichkeit, bei Goodreads nach Buchbewertungen und Kommentaren zu suchen?

Der beste Weg, Goodreads zu scrapen, ist die Verwendung von Python mit Crawlbase Crawling API. Diese Kombination ermöglicht es Ihnen, dynamische Inhalte wie Buchbewertungen und Kommentare zu scrapen. Crawlbase Crawling API kann JavaScript-Rendering und Paginierung verarbeiten, sodass Sie alle Daten problemlos abrufen können.

F: Welche Datenpunkte kann ich beim Scraping von Goodreads extrahieren?

Beim Scraping von Goodreads können Sie folgende Datenpunkte extrahieren: Buchtitel, Autoren, durchschnittliche Bewertungen, individuelle Benutzerbewertungen, Kommentare, Gesamtbewertungen. Diese Daten geben Ihnen Einblicke in die Aufnahme von Büchern durch Leser und helfen Ihnen, fundierte Entscheidungen für Buchempfehlungen oder Analysen zu treffen.

F: Wie funktioniert die Paginierung beim Scraping von Rezensionen von Goodreads?

Goodreads verwendet eine schaltflächenbasierte Paginierung, um weitere Rezensionen zu laden. Durch die Verwendung Crawlbase Crawling API Sie können programmgesteuert auf die Schaltfläche „Weiter“ klicken. Auf diese Weise werden alle Bewertungen geladen und Sie können vollständige Daten über mehrere Seiten hinweg abrufen, ohne manuell durch die Site navigieren zu müssen. Sie können Parameter wie folgt festlegen: css_click_selector im API-Aufruf, um dies zu handhaben.