Artigos

Bibliotecas de Python incribles pero pouco coñecidas

O programador de Python está sempre á procura de novas bibliotecas, que poidan mellorar o traballo en proxectos de enxeñería de datos e intelixencia empresarial.

Neste artigo vemos algunhas bibliotecas Python pouco coñecidas, pero moi útiles:

1. Péndulo

Aínda que hai moitas bibliotecas dispoñibles en Pitão para DateTime, creo que Pendulum é fácil de usar en calquera operación de data. Un péndulo é a miña estantería favorita para o meu uso diario no traballo. Amplía o módulo de datahora de Python integrado, engadindo unha API máis intuitiva para xestionar zonas horarias e realizar operacións de data e hora, como engadir intervalos de tempo, restar datas e converter entre zonas horarias. Ofrece unha API sinxela e intuitiva para formatar datas e horas.

Instalación
!pip install pendulum
exemplo
# import library

import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
 
#local() creates datetime instance with local timezone

local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)

# Printing UTC time

utc = pendulum.now('UTC')
print("Current UTC time:", utc)
 
# Converting UTC timezone into Europe/Paris time

europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Saída

2. ftfy

Atopáchesche cando a lingua estranxeira nos datos non aparece correctamente? Isto chámase Mojibake. Mojibake é un termo usado para describir texto confuso ou codificado que se produce como resultado de problemas de codificación ou decodificación. Adoita ocorrer cando o texto escrito cunha codificación dun carácter se decodifica incorrectamente utilizando unha codificación diferente. A biblioteca ftfy python axudarache a corrixir Mojibake, que é moi útil nos casos de uso de NLP.

Instalación
!pip instalar ftfy
exemplo
print(ftfy.fix_text('Corrixir a frase usando “ftfyâ\x9d.')) print(ftfy.fix_text('✔ Sen problemas co texto')) print(ftfy.fix_text('à perturber a réflexion '))
Saída

Ademais de Mojibake, ftfy solucionará codificacións incorrectas, finais de liña incorrectos e comiñas incorrectas. pode entender texto que foi decodificado como unha das seguintes codificacións:

  • Latin-1 (ISO-8859–1)
  • Windows-1252 (cp1252 — usado en produtos de Microsoft)
  • Windows-1251 (cp1251 - a versión rusa de cp1252)
  • Windows-1250 (cp1250 - a versión de Europa do Leste de cp1252)
  • ISO-8859–2 (que non é exactamente o mesmo que Windows-1250)
  • MacRoman (utilizado en Mac OS 9 e anteriores)
  • cp437 (usado en MS-DOS e nalgunhas versións do símbolo do sistema de Windows)

3 Esbozo

Sketch é un asistente de codificación AI exclusivo deseñado especificamente para usuarios que traballan coa biblioteca de pandas en Python. Usa algoritmos de aprendizaxe automática para comprender o contexto dos datos do usuario e ofrece suxestións de código relevantes para facer que as tarefas de manipulación e análise de datos sexan máis fáciles e eficientes. Sketch non require que os usuarios instalen ningún complemento adicional no seu IDE, polo que é rápido e sinxelo de usar. Isto pode reducir significativamente o tempo e o esforzo necesarios para as tarefas relacionadas cos datos e axudar aos usuarios a escribir un código mellor e máis eficiente.

Instalación
Esbozo de instalación de !pip
exemplo

Necesitamos engadir unha extensión .sketch ao marco de datos de pandas para usar esta biblioteca.

.debuxar.preguntar

preguntar é unha función de Sketch que permite aos usuarios facer preguntas sobre os seus datos nun formato de linguaxe natural. Ofrece unha resposta baseada en texto á consulta do usuario.

# Importar bibliotecas importar sketch importar pandas como pd # Lendo os datos (usando os datos de Twitter como exemplo) df = pd.read_csv("tweets.csv") print(df)
# Preguntando cales son as columnas do tipo de categoría df.sketch.ask("Que columnas son do tipo de categoría?")
Saída
# Para atopar a forma do marco de datos df.sketch.ask("Cal é a forma do marco de datos")

.esbozo.como

como é unha función que proporciona un bloque de código que se pode usar como punto de partida ou final para varias tarefas relacionadas cos datos. Podemos pedir fragmentos de código para normalizar os seus datos, crear novas funcións, rastrexar datos e mesmo construír modelos. Isto aforrará tempo e facilitará copiar e pegar o código; non tes que escribir o código manualmente desde cero.

# Solicitando o código recortado para visualizar as emocións df.sketch.howto("Visualizar as emocións")
Saída

.esbozo.aplicar

A función .apply axuda a xerar novas funcións, analizar campos e realizar outras manipulacións de datos. Para utilizar esta función, necesitamos ter unha conta OpenAI e utilizar a clave API para realizar as tarefas. Non probei esta función.

Gustoume usar esta biblioteca, especialmente Vir funciona, e paréceme útil.

4. código pxeo

"pgeocode" é unha excelente biblioteca coa que atopei recentemente e que foi incriblemente útil para os meus proxectos de análise espacial. Por exemplo, permítelle atopar a distancia entre dous códigos postais e ofrece información xeográfica tomando como entrada un país e un código postal.

Instalación
!pip install pgeocode
exemplo

Obtén información xeográfica para códigos postais específicos

# Comprobando o país "India" nomi = pgeocode.Nominatim('In') # Obtendo información xeográfica pasando os códigos postais nomi.query_postal_code(["620018", "620017", "620012"])
Saída

"pgeocode" calcula a distancia entre dous códigos postais tomando o país e os códigos postais como entrada. O resultado exprésase en quilómetros.

# Buscando unha distancia entre dous códigos postais distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
Saída

5. rembg

rembg é outra biblioteca útil que elimina facilmente o fondo das imaxes.

Instalación
!pip install rembg
exemplo
# Importación de bibliotecas
from rembg import remove import cv2 # ruta da imaxe de entrada (o meu ficheiro: image.jpeg) input_path = 'image.jpeg' # ruta para gardar a imaxe de saída e gardala como output.jpeg output_path = 'output.jpeg' # Reading the input entrada de imaxe = cv2.imread(ruta_entrada) # Eliminando saída de fondo = eliminar (entrada) # Gardando o ficheiro cv2.imwrite (ruta_saída, saída)
Saída

Quizais xa estea familiarizado con algunhas destas bibliotecas, pero para min, Sketch, Pendulum, pgeocode e ftfy son indispensables para o meu traballo de enxeñaría de datos. Confío moito neles para os meus proxectos.

6. Humanizar

Humanize” ofrece un formato de cadea sinxelo e fácil de ler para números, datas e horas. O obxectivo da biblioteca é tomar os datos e facelos máis fáciles de usar, por exemplo, convertendo un número de segundos nunha cadea máis lexible como "Hai 2 minutos". A biblioteca pode formatear os datos de varias formas, incluíndo o formato de números con comas, a conversión de marcas de tempo en tempos relativos e moito máis.

Adoito utilizar números enteiros e marcas de tempo para os meus proxectos de enxeñaría de datos.

Instalación
!pip instalar humanizar
Exemplo (números enteiros)
# Importando a biblioteca de importación humanize import datetime como dt # Formatear números con coma a = humanize.intcomma(951009) # converter números en palabras b = humanize.intword(10046328394) #printing print(a) print(b)
Saída
Exemplo (data e hora)
importar humanizar importar datahora como dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)

Ercole Palmeri

Boletín de innovación
Non te perdas as novidades máis importantes sobre innovación. Rexístrese para recibilos por correo electrónico.
tags: python

Artigos recentes

Editores e OpenAI asinan acordos para regular o fluxo de información procesada pola Intelixencia Artificial

O pasado luns, o Financial Times anunciou un acordo con OpenAI. FT licencia o seu xornalismo de clase mundial...

Abril 30 2024

Pagos en liña: aquí tes como os servizos de streaming che fan pagar para sempre

Millóns de persoas pagan por servizos de streaming, pagando taxas de subscrición mensuais. É unha opinión común que vostede...

Abril 29 2024

Veeam ofrece o soporte máis completo para ransomware, desde a protección ata a resposta e a recuperación

Coveware by Veeam continuará ofrecendo servizos de resposta a incidentes de extorsión cibernética. Coveware ofrecerá capacidades forenses e de remediación...

Abril 23 2024

Revolución verde e dixital: como o mantemento preditivo está a transformar a industria do petróleo e do gas

O mantemento preditivo está a revolucionar o sector do petróleo e do gas, cun enfoque innovador e proactivo para a xestión das plantas...

Abril 22 2024