tovar

Úžasné, ale málo známe knižnice Pythonu

Programátor Pythonu neustále hľadá nové knižnice, ktoré môžu zlepšiť prácu v dátovom inžinierstve a projektoch business intelligence.

V tomto článku vidíme niekoľko málo známych, ale veľmi užitočných pythonových knižníc:

1. kyvadlo

Aj keď je k dispozícii veľa knižníc Pytón pre DateTime sa mi zdá, že Pendulum sa ľahko používa pri akejkoľvek dátumovej operácii. Kyvadlo je moja obľúbená knižnica na každodenné použitie v práci. Rozširuje vstavaný modul datetime v Pythone, pridáva intuitívnejšie rozhranie API na správu časových pásiem a vykonávanie operácií s dátumom a časom, ako je pridávanie časových intervalov, odčítanie dátumov a konverzia medzi časovými pásmami. Poskytuje jednoduché a intuitívne rozhranie API na formátovanie dátumov a časov.

Inštalácia
!pip install pendulum
príklad
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Výkon

2. ftfy

Stretli ste sa s tým, keď sa cudzí jazyk v údajoch nezobrazuje správne? Toto sa nazýva Mojibake. Mojibake je termín používaný na opis skomoleného alebo zašifrovaného textu, ktorý sa vyskytuje v dôsledku problémov s kódovaním alebo dekódovaním. Zvyčajne sa vyskytuje, keď je text napísaný s jedným kódovaním znakov nesprávne dekódovaný pomocou iného kódovania. Knižnica ftfy python vám pomôže opraviť Mojibake, čo je veľmi užitočné v prípadoch použitia NLP.

Inštalácia
!pip install ftfy
príklad
print(ftfy.fix_text('Opravte vetu pomocou “ftfyâ€\x9d.')) print(ftfy.fix_text('✔ Žiadne problémy s textom')) print(ftfy.fix_text('à perturber la réflexion '))
Výkon

Okrem Mojibake, ftfy opraví zlé kódovania, zlé konce riadkov a zlé úvodzovky. môže porozumieť textu, ktorý bol dekódovaný ako jedno z nasledujúcich kódovaní:

  • Latin-1 (ISO-8859-1)
  • Windows-1252 (cp1252 – používa sa v produktoch spoločnosti Microsoft)
  • Windows-1251 (cp1251 — ruská verzia cp1252)
  • Windows-1250 (cp1250 — východoeurópska verzia cp1252)
  • ISO-8859–2 (čo nie je presne to isté ako Windows-1250)
  • MacRoman (používa sa v systéme Mac OS 9 a staršom)
  • cp437 (používa sa v systéme MS-DOS a niektorých verziách príkazového riadka systému Windows)

3. Skica

Sketch je jedinečný asistent kódovania AI navrhnutý špeciálne pre používateľov pracujúcich s knižnicou pandy v Pythone. Používa algoritmy strojového učenia na pochopenie kontextu používateľských údajov a poskytuje relevantné návrhy kódu na uľahčenie a zefektívnenie manipulácie s údajmi a úloh analýzy. Aplikácia Sketch nevyžaduje od používateľov, aby si do svojho IDE nainštalovali ďalšie doplnky, vďaka čomu sa používa rýchlo a jednoducho. To môže výrazne znížiť čas a úsilie potrebné na úlohy súvisiace s údajmi a pomôcť používateľom písať lepší a efektívnejší kód.

Inštalácia
!pip inštalačný náčrt
príklad

Aby sme mohli používať túto knižnicu, musíme do dátového rámca pandas pridať rozšírenie .sketch.

.načrtnúť.spýtať sa

žiadať je funkcia Sketch, ktorá umožňuje používateľom klásť otázky o ich údajoch vo formáte prirodzeného jazyka. Poskytuje textovú odpoveď na dotaz používateľa.

# Importovanie knižníc importovanie náčrtu importovanie pandy ako pd # Čítanie údajov (pomocou údajov z Twitteru ako príkladu) df = pd.read_csv("tweets.csv") print(df)
# Otázka, ktoré stĺpce sú typu kategórie df.sketch.ask("Ktoré stĺpce sú typu kategórie?")
Výkon
# Ak chcete nájsť tvar dátového rámca df.sketch.ask("Aký je tvar dátového rámca")

.náčrt.ako na to

howto je funkcia, ktorá poskytuje blok kódu, ktorý možno použiť ako počiatočný alebo koncový bod pre rôzne úlohy súvisiace s údajmi. Môžeme požiadať o útržky kódu na normalizáciu ich údajov, vytváranie nových funkcií, sledovanie údajov a dokonca vytváranie modelov. To ušetrí čas a zjednoduší kopírovanie a vkladanie kódu; nemusíte písať kód ručne od začiatku.

# Žiadosť o poskytnutie kódu vystrihnutého na vizualizáciu emócií df.sketch.howto("Vizualizácia emócií")
Výkon

.načrtnúť.aplikovať

Funkcia .apply pomáha generovať nové funkcie, analyzovať polia a vykonávať ďalšie manipulácie s údajmi. Ak chcete použiť túto funkciu, musíme mať účet OpenAI a používať kľúč API na vykonávanie úloh. Túto funkciu som neskúšal.

Obzvlášť som rád používal túto knižnicu Prísť funguje to a považujem to za užitočné.

4. pgeokód

„pgeocode“ je vynikajúca knižnica, na ktorú som nedávno narazil a ktorá bola neuveriteľne užitočná pre moje projekty priestorovej analýzy. Umožňuje vám napríklad nájsť vzdialenosť medzi dvoma poštovými smerovacími číslami a poskytuje geografické informácie tak, že sa zadá krajina a poštové smerovacie číslo.

Inštalácia
!pip install pgeocode
príklad

Získajte geografické informácie pre konkrétne PSČ

# Kontrola krajiny "India" nomi = pgeocode.Nominatim('In') # Získanie geografických informácií zadaním poštových smerovacích čísel nomi.query_postal_code(["620018", "620017", "620012"])
Výkon

„pgeocode“ vypočíta vzdialenosť medzi dvoma poštovými smerovacími číslami tak, že zadá krajinu a poštové smerovacie čísla. Výsledok je vyjadrený v kilometroch.

# Nájdenie vzdialenosti medzi dvoma PSČ vzdialenosť = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
Výkon

5. rembg

rembg je ďalšia užitočná knižnica, ktorá jednoducho odstraňuje pozadie z obrázkov.

Inštalácia
!pip install rembg
príklad
# Importovanie knižníc
from rembg import remove import cv2 # cesta k vstupnému obrázku (môj súbor: image.jpeg) input_path = 'image.jpeg' # cesta na uloženie výstupného obrázku a uloženie ako výstup.jpeg output_path = 'output.jpeg' # Čítanie vstupu image input = cv2.imread(input_path) # Odstránenie výstupu na pozadí = remove(input) # Uloženie súboru cv2.imwrite(output_path, output)
Výkon

Niektoré z týchto knižníc už možno poznáte, ale pre mňa sú Sketch, Pendulum, pgeocode a ftfy nevyhnutné pre moju prácu v oblasti dátového inžinierstva. Pri svojich projektoch sa na nich veľmi spolieham.

6. Humanizovať

Humanize“ poskytuje jednoduché a ľahko čitateľné formátovanie reťazcov pre čísla, dátumy a časy. Cieľom knižnice je zobrať údaje a urobiť ich užívateľsky prívetivejšími, napríklad prevodom niekoľkých sekúnd na čitateľnejší reťazec ako „pred 2 minútami“. Knižnica môže formátovať údaje rôznymi spôsobmi, vrátane formátovania čísel s čiarkami, prevodu časových pečiatok na relatívne časy a ďalších.

Pre svoje projekty dátového inžinierstva často používam celé čísla a časové pečiatky.

Inštalácia
!pip nainštalovať humanizovať
Príklad (celé čísla)
# Import knižnice import humanize import datetime as dt # Formátovanie čísel čiarkou a = humanize.intcomma(951009) # prevod čísel na slová b = humanize.intword(10046328394) #printing print(a) print(b)
Výkon
Príklad (dátum a čas)
import humanize import datetime as dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Inovačný bulletin
Nenechajte si ujsť najdôležitejšie novinky o inováciách. Prihláste sa na ich odber e-mailom.
Tagy: krajta

Nedávne články

Budúcnosť je tu: Ako námorný priemysel prináša revolúciu do globálnej ekonomiky

Námorný sektor je skutočnou globálnou ekonomickou veľmocou, ktorá smerovala k 150 miliardovému trhu...

1 mája 2024

Vydavatelia a OpenAI podpisujú dohody o regulácii toku informácií spracovávaných umelou inteligenciou

Minulý pondelok Financial Times oznámili dohodu s OpenAI. FT licencuje svoju žurnalistiku svetovej triedy…

Apríla 30 2024

Online platby: Takto budete vďaka streamovacím službám platiť navždy

Milióny ľudí platia za streamovacie služby a platia mesačné predplatné. Je bežný názor, že si…

Apríla 29 2024

Veeam ponúka najkomplexnejšiu podporu pre ransomvér, od ochrany až po reakciu a obnovu

Coveware od Veeam bude aj naďalej poskytovať služby reakcie na incidenty v oblasti kybernetického vydierania. Coveware ponúkne forenzné a sanačné schopnosti…

Apríla 23 2024