Артыкулы

Дзіўныя, але малавядомыя бібліятэкі Python

Праграміст на Python заўсёды шукае новыя бібліятэкі, якія могуць палепшыць працу ў праектах інжынерыі дадзеных і бізнес-аналітыкі.

У гэтым артыкуле мы бачым некаторыя малавядомыя, але вельмі карысныя бібліятэкі Python:

1. Маятнік

Хаця шмат бібліятэк даступна ў Пітон для DateTime я лічу Pendulum простым у выкарыстанні для любой аперацыі даты. Маятнік - мая любімая кніжная шафа для штодзённага выкарыстання на працы. Пашырае ўбудаваны модуль даты і часу Python, дадаючы больш інтуітыўна зразумелы API для кіравання гадзіннымі паясамі і выканання аперацый з датай і часам, такіх як даданне часавых інтэрвалаў, адніманне дат і пераўтварэнне паміж гадзіннымі паясамі. Забяспечвае просты і інтуітыўна зразумелы API для фарматавання дат і часу.

Ўстаноўка
!pip install pendulum
прыклад
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
выхад

2. ftfy

Ці сутыкаліся вы з тым, што замежная мова ў дадзеных адлюстроўваецца няправільна? Гэта называецца Mojibake. Mojibake - гэта тэрмін, які выкарыстоўваецца для апісання скажонага або зашыфраванага тэксту, які ўзнікае ў выніку праблем з кадаваннем або дэкадаваннем. Звычайна гэта адбываецца, калі тэкст, напісаны з адной кадоўкай сімвалаў, няправільна дэкадуецца з выкарыстаннем іншай кадоўкі. Бібліятэка пітона ftfy дапаможа вам выправіць Mojibake, што вельмі карысна ў выпадках выкарыстання NLP.

Ўстаноўка
!pip ўсталяваць ftfy
прыклад
print(ftfy.fix_text('Выпраўце сказ, выкарыстоўваючы “ftfyâ€\x9d.')) print(ftfy.fix_text('✔ Няма праблем з тэкстам')) print(ftfy.fix_text('à perturber la réflexion) '))
выхад

У дадатак да Mojibake, ftfy выправіць няправільныя кадыроўкі, канчаткі радкоў і двукоссі. можа разумець тэкст, які быў дэкадзіраваны як адна з наступных кадыровак:

  • Latin-1 (ISO-8859–1)
  • Windows-1252 (cp1252 — выкарыстоўваецца ў прадуктах Microsoft)
  • Windows-1251 (cp1251 — руская версія cp1252)
  • Windows-1250 (cp1250 — усходнееўрапейская версія cp1252)
  • ISO-8859–2 (што не зусім тое самае, што Windows-1250)
  • MacRoman (выкарыстоўваецца ў Mac OS 9 і раней)
  • cp437 (выкарыстоўваецца ў MS-DOS і некаторых версіях каманднага радка Windows)

3. эскіз

Sketch - гэта ўнікальны памочнік па кадаванні AI, распрацаваны спецыяльна для карыстальнікаў, якія працуюць з бібліятэкай pandas на Python. Ён выкарыстоўвае алгарытмы машыннага навучання для разумення кантэксту карыстальніцкіх даных і дае рэлевантныя прапановы кода, каб зрабіць маніпуляцыю дадзенымі і задачы аналізу больш простымі і эфектыўнымі. Sketch не патрабуе ад карыстальнікаў усталёўкі дадатковых убудоў у іх IDE, што робіць яго хуткім і простым у выкарыстанні. Гэта можа значна скараціць час і намаганні, неабходныя для задач, звязаных з дадзенымі, і дапамагчы карыстальнікам пісаць лепшы і больш эфектыўны код.

Ўстаноўка
!pip эскіз ўстаноўкі
прыклад

Нам трэба дадаць пашырэнне .sketch да pandas dataframe, каб выкарыстоўваць гэтую бібліятэку.

.sketch.ask

прасіць гэта функцыя Sketch, якая дазваляе карыстальнікам задаваць пытанні аб сваіх дадзеных у фармаце натуральнай мовы. Дае тэкставы адказ на запыт карыстальніка.

# Імпарт бібліятэк імпартаваць эскізы імпартаваць панды як pd # Чытанне даных (на прыкладзе даных twitter) df = pd.read_csv("tweets.csv") print(df)
# Пытанне, якія слупкі належаць да тыпу катэгорыі df.sketch.ask("Якія слупкі належаць да тыпу катэгорыі?")
выхад
# Каб знайсці форму фрэйма даных df.sketch.ask("Якая форма фрэйма даных")

.sketch.howto

як гэта функцыя, якая забяспечвае блок кода, які можна выкарыстоўваць у якасці адпраўной або канчатковай кропкі для розных задач, звязаных з дадзенымі. Мы можам запытаць фрагменты кода для нармалізацыі іх даных, стварэння новых функцый, адсочвання даных і нават стварэння мадэляў. Гэта зэканоміць час і дазволіць лёгка капіяваць і ўстаўляць код; вам не трэба пісаць код уручную з нуля.

# Просьба даць фрагмент кода для візуалізацыі эмоцый df.sketch.howto("Візуалізаваць эмоцыі")
выхад

.sketch.apply

Функцыя .apply гэта дапамагае ствараць новыя функцыі, аналізаваць палі і выконваць іншыя маніпуляцыі з дадзенымі. Каб выкарыстоўваць гэтую функцыю, нам трэба мець уліковы запіс OpenAI і выкарыстоўваць ключ API для выканання задач. Я не спрабаваў гэтую функцыю.

Мне асабліва спадабалася карыстацца гэтай бібліятэкай Прыходзіць гэта працуе, і я лічу гэта карысным.

4. pgeocode

«pgeocode» - гэта выдатная бібліятэка, на якую я нядаўна натрапіў і якая была неверагодна карыснай для маіх праектаў прасторавага аналізу. Напрыклад, ён дазваляе знайсці адлегласць паміж двума паштовымі індэксамі і дае геаграфічную інфармацыю, прымаючы ў якасці ўваходных дадзеных краіну і паштовы індэкс.

Ўстаноўка
!pip ўсталяваць pgeocode
прыклад

Атрымлівайце геаграфічную інфармацыю для пэўных паштовых індэксаў

# Праверка краіны "Індыя" nomi = pgeocode.Nominatim('In') # Атрыманне геаінфармацыі шляхам перадачы паштовых індэксаў nomi.query_postal_code(["620018", "620017", "620012"])
выхад

«pgeocode» разлічвае адлегласць паміж двума паштовымі індэксамі, прымаючы ў якасці ўваходных дадзеных краіну і паштовыя індэксы. Вынік выражаецца ў кіламетрах.

# Знаходжанне адлегласці паміж двума паштовымі індэксамі distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
выхад

5. рэмбг

rembg - яшчэ адна карысная бібліятэка, якая лёгка выдаляе фон з малюнкаў.

Ўстаноўка
!pip усталяваць rembg
прыклад
# Імпарт бібліятэк
from rembg import remove import cv2 # шлях да ўваходнага малюнка (мой файл: image.jpeg) input_path = 'image.jpeg' # шлях для захавання выхаднога відарыса і захавання як output.jpeg output_path = 'output.jpeg' # Чытанне ўваходных дадзеных image input = cv2.imread(input_path) # Выдаленне фонавага вываду = remove(input) # Захаванне файла cv2.imwrite(output_path, output)
выхад

Магчыма, вы ўжо знаёмыя з некаторымі з гэтых бібліятэк, але для мяне Sketch, Pendulum, pgeocode і ftfy незаменныя для маёй працы па распрацоўцы дадзеных. Я шмат спадзяюся на іх у сваіх праектах.

6. Ачалавечваць

Humanize” забяспечвае простае, лёгкачытэльнае фарматаванне радкоў для лічбаў, дат і часу. Мэта бібліятэкі - узяць даныя і зрабіць іх больш зручнымі для карыстальнікаў, напрыклад, шляхам пераўтварэння колькасці секунд у больш чытэльны радок, напрыклад, "2 хвіліны таму". Бібліятэка можа фарматаваць дадзеныя рознымі спосабамі, у тым ліку фарматаваць лікі праз коскі, пераўтвараць пазнакі часу ў адносны час і многае іншае.

Я часта выкарыстоўваю цэлыя лікі і пазнакі часу ў сваіх праектах па распрацоўцы дадзеных.

Ўстаноўка
!pip усталяваць humanize
Прыклад (цэлыя лікі)
# Імпарт бібліятэкі import humanize import datetime as dt # Фарматаванне лікаў з дапамогай коскі a = humanize.intcomma(951009) # пераўтварэнне лікаў у словы b = humanize.intword(10046328394) #printing print(a) print(b)
выхад
Прыклад (дата і час)
імпарт humanize імпартаваць datetime як dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.
Ключавыя словы: пітон

Апошнія артыкулы

Будучыня тут: як індустрыя суднаходства рэвалюцыянізуе сусветную эканоміку

Ваенна-марскі сектар - гэта сапраўдная глабальная эканамічная сіла, якая перайшла да 150-мільярднага рынку...

1 мая 2024

Выдаўцы і OpenAI падпісваюць пагадненні аб рэгуляванні патоку інфармацыі, апрацаванай штучным інтэлектам

У мінулы панядзелак Financial Times абвясціла аб здзелцы з OpenAI. FT ліцэнзуе сваю журналістыку сусветнага ўзроўню...

Красавік 30 2024

Інтэрнэт-плацяжы: вось як паслугі струменевай перадачы прымушаюць вас плаціць вечна

Мільёны людзей плацяць за струменевыя паслугі, плацячы штомесячную абаненцкую плату. Распаўсюджана меркаванне, што вы…

Красавік 29 2024

Veeam прапануе самую поўную падтрымку праграм-вымагальнікаў - ад абароны да адказу і аднаўлення

Coveware ад Veeam працягне прадастаўляць паслугі рэагавання на інцыдэнты кібервымагальніцтва. Coveware будзе прапаноўваць судова-медыцынскую экспертызу і магчымасці выпраўлення…

Красавік 23 2024

Чытайце Innovation на сваёй мове

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Выконвайце за намі