Articles

Biblioteques de Python increïbles, però poc conegudes

El programador de Python sempre busca biblioteques noves, que puguin millorar el treball en projectes d'enginyeria de dades i intel·ligència empresarial.

En aquest article veiem algunes biblioteques de Python poc conegudes, però molt útils:

1. Pèndol

Tot i que hi ha moltes biblioteques disponibles Pitó per a DateTime, trobo que Pendulum és fàcil d'utilitzar en qualsevol operació de data. Un pèndol és la meva prestatgeria preferida per al meu ús diari a la feina. Amplia el mòdul de datetime Python integrat, afegint una API més intuïtiva per gestionar les zones horàries i realitzar operacions de data i hora, com ara afegir intervals de temps, restar dates i convertir entre zones horàries. Proporciona una API senzilla i intuïtiva per donar format a dates i hores.

Instal·lació
!pip install pendulum
exemple
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
sortida

2. ftfy

T'has trobat quan la llengua estrangera a les dades no apareix correctament? Això es diu Mojibake. Mojibake és un terme que s'utilitza per descriure el text distorsionat o codificat que es produeix com a resultat de problemes de codificació o descodificació. Normalment es produeix quan el text escrit amb una codificació d'un caràcter es descodifica incorrectament amb una codificació diferent. La biblioteca ftfy python us ajudarà a arreglar Mojibake, que és molt útil en casos d'ús de PNL.

Instal·lació
!pip instal·lar ftfy
exemple
print(ftfy.fix_text('Corregiu la frase amb “ftfyâ€\x9d.')) print(ftfy.fix_text('✔ Sense problemes amb el text')) print(ftfy.fix_text('à perturber la réflexion '))
sortida

A més de Mojibake, ftfy solucionarà les codificacions incorrectes, els finals de línia incorrectes i les cometes incorrectes. pot entendre el text que s'ha descodificat com una de les codificacions següents:

  • Llatí-1 (ISO-8859–1)
  • Windows-1252 (cp1252 — utilitzat en productes de Microsoft)
  • Windows-1251 (cp1251 — la versió russa de cp1252)
  • Windows-1250 (cp1250: la versió d'Europa de l'Est de cp1252)
  • ISO-8859–2 (que no és exactament el mateix que Windows-1250)
  • MacRoman (utilitzat a Mac OS 9 i anteriors)
  • cp437 (utilitzat a MS-DOS i algunes versions de l'indicador d'ordres de Windows)

3. sketch

Sketch és un assistent de codificació d'IA únic dissenyat específicament per als usuaris que treballen amb la biblioteca pandas a Python. Utilitza algorismes d'aprenentatge automàtic per entendre el context de les dades de l'usuari i ofereix suggeriments de codi rellevants per fer que les tasques d'anàlisi i manipulació de dades siguin més fàcils i eficients. Sketch no requereix que els usuaris instal·lin cap complement addicional al seu IDE, el que fa que sigui ràpid i fàcil d'utilitzar. Això pot reduir significativament el temps i l'esforç necessaris per a les tasques relacionades amb les dades i ajudar els usuaris a escriure un codi millor i més eficient.

Instal·lació
Esbós d'instal·lació !pip
exemple

Hem d'afegir una extensió .sketch al marc de dades pandas per utilitzar aquesta biblioteca.

.esbós.preguntar

demanar és una característica de Sketch que permet als usuaris fer preguntes sobre les seves dades en un format de llenguatge natural. Proporciona una resposta basada en text a la consulta de l'usuari.

# Importar biblioteques importar croquis importar pandes com a pd # Llegir les dades (utilitzant les dades de Twitter com a exemple) df = pd.read_csv("tweets.csv") print(df)
# Preguntar quines columnes són del tipus de categoria df.sketch.ask("Quines columnes són del tipus de categoria?")
sortida
# Per trobar la forma del marc de dades df.sketch.ask ("Quina és la forma del marc de dades")

.esbós.com

howto és una característica que proporciona un bloc de codi que es pot utilitzar com a punt de partida o final per a diverses tasques relacionades amb les dades. Podem demanar fragments de codi per normalitzar les seves dades, crear funcions noves, fer un seguiment de les dades i fins i tot crear models. Això estalviarà temps i facilitarà copiar i enganxar el codi; no cal escriure el codi manualment des de zero.

# Demanant que proporcioneu el codi retallat per visualitzar les emocions df.sketch.howto("Visualitza les emocions")
sortida

.esbós.aplicar

La funció .apply ajuda a generar noves funcions, analitzar camps i realitzar altres manipulacions de dades. Per utilitzar aquesta funció, hem de tenir un compte OpenAI i utilitzar la clau API per realitzar les tasques. No he provat aquesta funció.

Em va agradar especialment utilitzar aquesta biblioteca Venir funciona, i em sembla útil.

4. pgeocode

"pgeocode" és una excel·lent biblioteca amb la que vaig ensopegar recentment i que ha estat increïblement útil per als meus projectes d'anàlisi espacial. Per exemple, us permet trobar la distància entre dos codis postals i proporciona informació geogràfica introduint un país i un codi postal.

Instal·lació
!pip instal·la pgeocode
exemple

Obteniu informació geogràfica per a codis postals específics

# Comprovant el país "Índia" nomi = pgeocode.Nominatim('In') # Obtenint informació geogràfica passant els codis postals nomi.query_postal_code(["620018", "620017", "620012"])
sortida

"pgeocode" calcula la distància entre dos codis postals prenent el país i els codis postals com a entrada. El resultat s'expressa en quilòmetres.

# Cercar una distància entre dos codis postals distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
sortida

5. rembg

rembg és una altra biblioteca útil que elimina fàcilment el fons de les imatges.

Instal·lació
!pip install rembg
exemple
# Importació de biblioteques
de la importació de rembg elimina la importació cv2 # camí de la imatge d'entrada (el meu fitxer: image.jpeg) input_path = 'image.jpeg' # camí per desar la imatge de sortida i desar com a output.jpeg output_path = 'output.jpeg' # Llegir l'entrada entrada d'imatge = cv2.imread (ruta_entrada) # Eliminació de fons de sortida = eliminació (entrada) # Desant fitxer cv2.imwrite (camí_sortida, sortida)
sortida

Potser ja coneixeu algunes d'aquestes biblioteques, però per a mi, Sketch, Pendulum, pgeocode i ftfy són indispensables per al meu treball d'enginyeria de dades. Confio molt en ells per als meus projectes.

6. Humanitzar

Humanize" proporciona un format de cadena senzill i fàcil de llegir per a números, dates i hores. L'objectiu de la biblioteca és agafar les dades i fer-les més fàcils d'utilitzar, per exemple, convertint un nombre de segons en una cadena més llegible com "fa 2 minuts". La biblioteca pot formatar dades de diverses maneres, com ara el format de números amb comes, la conversió de marques de temps a temps relatius i molt més.

Sovint faig servir nombres enters i segells de temps per als meus projectes d'enginyeria de dades.

Instal·lació
!pip instal·lar humanitzar
Exemple (nombres enters)
# Importació d'importació de biblioteca humanize import datetime com a dt # Format dels números amb coma a = humanize.intcomma(951009) # conversió de números en paraules b = humanize.intword(10046328394) #printing print(a) print(b)
sortida
Exemple (data i hora)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Butlletí d'innovació
No et perdis les notícies més importants sobre innovació. Registra't per rebre'ls per correu electrònic.
etiquetes: pitó

Articles recents

Els avantatges de les pàgines per pintar per a nens: un món de màgia per a totes les edats

El desenvolupament de la motricitat fina a través del color prepara els nens per a habilitats més complexes com escriure. Per acolorir...

2 maig 2024

El futur és aquí: com la indústria naviliera està revolucionant l'economia global

El sector naval és una veritable potència econòmica mundial, que ha navegat cap a un mercat de 150 milions...

1 maig 2024

Els editors i OpenAI signen acords per regular el flux d'informació processada per la Intel·ligència Artificial

Dilluns passat, el Financial Times va anunciar un acord amb OpenAI. FT autoritza el seu periodisme de classe mundial...

30 2024 abril

Pagaments en línia: aquí teniu com els serveis de streaming us fan pagar per sempre

Milions de persones paguen per serveis de streaming, pagant quotes de subscripció mensuals. És l'opinió comuna que tu...

29 2024 abril