Artikler

Utrolige, men lite kjente Python-biblioteker

Python-programmereren er alltid på utkikk etter nye biblioteker, som kan forbedre arbeidet med datateknikk og business intelligence-prosjekter.

I denne artikkelen ser vi noen lite kjente, men veldig nyttige pythonbiblioteker:

1. Pendulum

Selv om mange biblioteker er tilgjengelige i Python for DateTime finner jeg Pendulum enkel å bruke på enhver datooperasjon. En pendel er min favoritt bokhylle til daglig bruk på jobben. Utvider den innebygde Python datetime-modulen, legger til et mer intuitivt API for å administrere tidssoner og utføre dato- og klokkeslettoperasjoner som å legge til tidsintervaller, trekke fra datoer og konvertere mellom tidssoner. Gir et enkelt og intuitivt API for formatering av datoer og klokkeslett.

Installasjon
!pip install pendulum
eksempel
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Produksjon

2. ftfy

Har du støtt på når fremmedspråket i dataene ikke vises riktig? Dette kalles Mojibake. Mojibake er et begrep som brukes for å beskrive forvansket eller kryptert tekst som oppstår som et resultat av kodings- eller dekodingsproblemer. Det oppstår vanligvis når tekst skrevet med én tegnkoding er feil dekodet med en annen koding. ftfy python-biblioteket vil hjelpe deg med å fikse Mojibake, som er veldig nyttig i NLP-brukstilfeller.

Installasjon
!pip install ftfy
eksempel
print(ftfy.fix_text('Korriger setningen med “ftfyâ€\x9d.')) print(ftfy.fix_text('âœ" Ingen problemer med tekst')) print(ftfy.fix_text('à perturber la réflexion '))
Produksjon

I tillegg til Mojibake, vil ftfy fikse dårlige kodinger, dårlige linjeavslutninger og dårlige anførselstegn. kan forstå tekst som har blitt dekodet som en av følgende kodinger:

  • Latin-1 (ISO-8859–1)
  • Windows-1252 (cp1252 – brukt i Microsoft-produkter)
  • Windows-1251 (cp1251 - den russiske versjonen av cp1252)
  • Windows-1250 (cp1250 — den østeuropeiske versjonen av cp1252)
  • ISO-8859–2 (som ikke er helt det samme som Windows-1250)
  • MacRoman (brukt på Mac OS 9 og tidligere)
  • cp437 (brukes i MS-DOS og noen versjoner av Windows-ledeteksten)

3. Skisse

Sketch er en unik AI-kodeassistent designet spesielt for brukere som jobber med panda-biblioteket i Python. Den bruker maskinlæringsalgoritmer for å forstå konteksten til brukerdata og gir relevante kodeforslag for å gjøre datamanipulering og analyseoppgaver enklere og mer effektive. Sketch krever ikke at brukere installerer noen ekstra plug-ins i IDE, noe som gjør det raskt og enkelt å bruke. Dette kan redusere tiden og innsatsen som kreves for datarelaterte oppgaver betydelig og hjelpe brukere med å skrive bedre og mer effektiv kode.

Installasjon
!pip installasjonsskisse
eksempel

Vi må legge til en .sketch-utvidelse til pandas dataramme for å bruke dette biblioteket.

.sketch.ask

spør er en funksjon i Sketch som lar brukere stille spørsmål om dataene deres i et naturlig språkformat. Gir et tekstbasert svar på brukerens forespørsel.

# Importerer biblioteker importer skisse importer pandaer som pd # Leser dataene (bruker twitterdata som eksempel) df = pd.read_csv("tweets.csv") print(df)
# Spør hvilke kolonner er kategoritype df.sketch.ask("Hvilke kolonner er kategoritype?")
Produksjon
# For å finne formen på datarammen df.sketch.ask("Hva er formen på datarammen")

.skisse.howto

hvordan er en funksjon som gir en kodeblokk som kan brukes som et start- eller sluttpunkt for ulike datarelaterte oppgaver. Vi kan be om kodebiter for å normalisere dataene deres, lage nye funksjoner, spore data og til og med bygge modeller. Dette vil spare tid og gjøre det enkelt å kopiere og lime inn koden; du trenger ikke å skrive koden manuelt fra bunnen av.

# Ber om å gi kode klippet for å visualisere følelsene df.sketch.howto("Visualiser følelsene")
Produksjon

.skisse.bruk

.apply-funksjonen det hjelper med å generere nye funksjoner, analysere felt og utføre andre datamanipulasjoner. For å bruke denne funksjonen må vi ha en OpenAI-konto og bruke API-nøkkelen til å utføre oppgavene. Jeg har ikke prøvd denne funksjonen.

Jeg likte å bruke dette biblioteket, spesielt Kom det fungerer, og jeg synes det er nyttig.

4. sidekode

"pgeocode" er et utmerket bibliotek som jeg nylig snublet over som har vært utrolig nyttig for mine romlige analyseprosjekter. For eksempel lar den deg finne avstanden mellom to postnumre og gir geografisk informasjon ved å ta et land og postnummer som input.

Installasjon
!pip installer sidekode
eksempel

Få geografisk informasjon for bestemte postnumre

# Sjekker for landet "India" nomi = pgeocode.Nominatim('In') # Får geoinformasjon ved å sende postnummerene nomi.query_postal_code(["620018", "620017", "620012"])
Produksjon

"pgeocode" beregner avstanden mellom to postnumre ved å ta landet og postnumrene som input. Resultatet er uttrykt i kilometer.

# Finne en avstand mellom to postnumre avstand = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
Produksjon

5. rembg

rembg er et annet nyttig bibliotek som enkelt fjerner bakgrunnen fra bilder.

Installasjon
!pip installer rembg
eksempel
# Importerer biblioteker
fra rembg import fjern import cv2 # bane til inndatabilde (min fil: image.jpeg) input_path = 'image.jpeg' # bane for lagring av utdatabilde og lagring som en output.jpeg output_path = 'output.jpeg' # Leser inndata bildeinngang = cv2.imread(input_path) # Fjerner bakgrunnsoutput = remove(input) # Lagrer fil cv2.imwrite(output_path, output)
Produksjon

Du er kanskje allerede kjent med noen av disse bibliotekene, men for meg er Sketch, Pendulum, pgeocode og ftfy uunnværlige for mitt dataingeniørarbeid. Jeg stoler mye på dem for prosjektene mine.

6. Humanisere

Humanize" gir enkel, lettlest strengformatering for tall, datoer og klokkeslett. Målet med biblioteket er å ta dataene og gjøre dem mer brukervennlige, for eksempel ved å konvertere et antall sekunder til en mer lesbar streng som "2 minutter siden". Biblioteket kan formatere data på en rekke måter, inkludert formatering av tall med kommaer, konvertering av tidsstempler til relative tider og mer.

Jeg bruker ofte heltall og tidsstempler for mine dataingeniørprosjekter.

Installasjon
!pip installer menneskeliggjøring
Eksempel (heltall)
# Importerer bibliotek import humanize import datetime as dt # Formatering av tall med komma a = humanize.intcomma(951009) # konvertering av tall til ord b = humanize.intword(10046328394) #printing print(a) print(b)
Produksjon
Eksempel (dato og klokkeslett)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Nyhetsbrev for innovasjon
Ikke gå glipp av de viktigste nyhetene om innovasjon. Registrer deg for å motta dem på e-post.
Tags: python

Siste artikler

Fremtiden er her: Hvordan shippingindustrien revolusjonerer den globale økonomien

Marinesektoren er en ekte global økonomisk makt, som har navigert mot et 150 milliarder marked...

1 mai 2024

Utgivere og OpenAI signerer avtaler for å regulere flyten av informasjon som behandles av kunstig intelligens

Sist mandag kunngjorde Financial Times en avtale med OpenAI. FT lisensierer sin journalistikk i verdensklasse...

30 april 2024

Nettbetalinger: Her er hvordan strømmetjenester får deg til å betale for alltid

Millioner av mennesker betaler for strømmetjenester og betaler månedlige abonnementsavgifter. Det er vanlig oppfatning at du...

29 april 2024

Veeam har den mest omfattende støtten for løsepengevare, fra beskyttelse til respons og gjenoppretting

Coveware by Veeam vil fortsette å tilby responstjenester for cyberutpressing. Coveware vil tilby kriminaltekniske og utbedringsmuligheter...

23 april 2024