Home > Digitale technologieën > Ontwikkeling > Waarom Python beter is dan Excel voor het verwerken van enorme hoeveelheden gegevens

Waarom Python beter is dan Excel voor het verwerken van enorme hoeveelheden gegevens

Gepubliceerd op 7 juli 2022
Deel deze pagina :
Voor big data is Python de baas

Excel is de software die het meest door bedrijven wordt gebruikt om gegevens te verwerken en te presenteren. Het bereikt echter zijn grenzen zodra we grote hoeveelheden informatie willen manipuleren. Om technische grenzen te overwinnen, is er een krachtige oplossing die voor iedereen toegankelijk is: Python. Senior datawetenschapper en ORSYS-trainer Audrey Quessada Vial* demonstreert bijvoorbeeld de superioriteit van Python voor het analyseren van gegevens. 

Sinds de jaren 2010 zijn data het nieuwe zwarte goud voor bedrijven geworden. Big data, digitale transformatie en de ontwikkeling van kunstmatige intelligentie hebben de situatie veranderd. Hoe data effectief gebruiken?

Uiteraard staat Excel op de eerste plaats onder de oplossingen. Zeer wijdverspreid en gemakkelijk te gebruiken, het blijft essentieel. Maar zodra we enorme hoeveelheden data willen exploiteren, boven de 1 miljoen inzendingen, lopen we tegen technische beperkingen aan. Het spreadsheet telt meer dan 1 miljoen regels (1.048.576 regels om precies te zijn, of 220).

Veel datasets overschrijden deze waarde. Dit is het geval voor de geschiedenis van de aandelenkoersen (809 MB in zip-formaat voor Amerikaanse aandelen), de Sirene-database van Franse bedrijven van INSEE (1,3 GB), de nationale database van gebouwen van het Wetenschappelijk en Technisch Centrum van het gebouw (5,3 GB) , of de database met Franse INPI-merken (15 GB).

Om deze beperkingen op te heffen, moet u Excel verlaten en Python gebruiken. Waarom Python? Deze taal onderscheidt zich van andere oplossingen voor het verwerken van enorme gegevens (R, Julia, MATLAB, Scala, SQL, enz.) door zijn eenvoud van syntaxis, zijn geheugenbeheer en vooral zijn imposante aantal bibliotheken (of boekwinkels).

Python is daarom gericht op datawetenschappers, maar ook op niet-specialisten zoals financiële en marketingprofessionals, en meer in het algemeen op alle gevorderde Excel-gebruikers.

Meestal open source, Python-bibliotheken bieden u de mogelijkheid om de mogelijkheden ervan op veel gebieden uit te breiden. Voor data heet DE vlaggenschipbibliotheek Pandas.

Python en Panda's, uw bondgenoten voor data

Aan de slag gaan met Python en Pandas is relatief eenvoudig en snel, geschikt voor het programmeren van nieuwelingen. Geen wonder dat Python in 2022 de meest gebruikte taal ter wereld zal zijn, vóór Java en C/C++, aldus de PYPL-populariteitsindex. Python-vaardigheden zijn ook zeer gewild bij bedrijven: het is de tweede meest gevraagde taal in vacatures, na JavaScript, volgens een onderzoek van deCalifornische Universiteit van Berkeley.

Panda's komen niet van de naam van het vriendelijke dier, symbool van China, maar van Knalel Data, een datastructuur die veel wordt gebruikt in de econometrie, de statistische studie van economische gegevens.

De kracht van Panda's komt voort uit de snelheid waarmee gegevens worden verwerkt. Het kan gemakkelijk binnen enkele seconden een miljoen inzendingen verwerken.

Het is flexibel en wordt ook gebruikt voor basisdatavisualisatie en om verschillende weergaven van de dataset te creëren met behulp van dynamische kruistabellen. Het is ook mogelijk om gegevens per categorie te groeperen en aggregatiebewerkingen uit te voeren van de eenvoudigste (bijvoorbeeld cumulatieve of gemiddelde bedragen) tot de meest complexe. Bovendien kunt u in één regel code uw bestand openen en vervolgens aan de gegevens werken. Het is zelfs mogelijk om SQL-query's uit te voeren met Pandas.

Nog een voordeel: Pandas accepteert een indrukwekkende lijst met bestandsformaten: CSV, XLSX, SQL, Apache Parquet, HDF5, JSON… en vele andere.

Samenvattend zijn de belangrijkste voordelen van Pandas ten opzichte van Excel:

  • het beheren van miljoenen lijnen
  • de snelheid
  • taakautomatisering: bij Excel is deze automatisering beperkt bij gebruik van VBA of macro's
  • rapportage met behulp van het Jupyter Notebook-platform voor datavisualisatie
  • platformonafhankelijke compatibiliteit: u kunt zowel op macOS als Windows werken.

Overstappen van Excel naar Python en Pandas

Met enige kennis van Python is het eenvoudig om van Microsoft Excel naar Pandas over te stappen. De meeste taken die in Excel worden uitgevoerd, kunnen ook met Pandas worden uitgevoerd.

We zullen een voorbeeld nemen om het gemak en de kracht van Python en Pandas te illustreren. Hier is een dataset van de Wereldbank die op de site te vinden is Kaggle. Dit bestand is 574,3 MB groot en bevat bijna 6 miljoen vermeldingen. Het brengt een aantal economische en sociale indicatoren per land en per jaar samen.

Het duurt minder dan 3 seconden om dit bestand met één regel code te lezen.

We zullen nu de eerste vijf rijen bekijken om te zien wat deze gegevens vertegenwoordigen. Ook hier is een enkele regel code voldoende:

Het is ook mogelijk om de belangrijkste statistische indicatoren op te halen die bij elke kolom horen:

Niets is eenvoudiger om gegevens te filteren. In het volgende voorbeeld filteren we de gegevens om alleen het bbp per hoofd van de bevolking als indicator te behouden:

Wat als we het gemiddelde en maximale BBP per hoofd van de bevolking over alle jaren per land zouden berekenen? Nogmaals, er is slechts één regel code met Pandas nodig:

Deze paar voorbeelden illustreren de kracht van Panda's. Ze zijn verre van uitputtend van de mogelijkheden die binnen uw bereik liggen.

We kunnen in een tabel samenvatten waarvoor u Python en Pandas gebruikt in plaats van Excel.

Vergelijking van Excel- en Python-panda's op basis van gebruik

Pandas is een uiterst krachtige bibliotheek voor het werken met gegevens. Het heeft veel voordelen ten opzichte van Excel en stelt u in staat veel verder te gaan in gegevensverwerking en taakautomatisering. De flexibiliteit en snelheid maken het tot een essentieel hulpmiddel voor datawetenschap.

Pandas is echter niet de enige Python-bibliotheek die voordelen biedt bij het verwerken van gegevens. Visualisatietools maken het mogelijk om de interacties tussen parameters te begrijpen. Veel bibliotheken bieden visualisatietools aan: geovisualisatie met Folium, interactieve visualisatie met Plotly, creatie van interactieve dashboards met Dash, visualisatie van big data met Holoviews, aan keuze geen gebrek.

Concluderend: Python heeft veel voordelen. Dankzij de vrij toegankelijke bibliotheken presteert het beter dan Excel om enorme gegevens (al dan niet gestructureerd) te verwerken en te visualiseren. Met onze trainingen maakt u snel kennis met deze krachtige tool.

Onze expert

Ze is gepromoveerd in de laserfysica en doet fundamenteel onderzoek op het gebied van interface […]

gebied van opleiding

bijbehorende opleiding