Neste artigo vemos algunhas bibliotecas Python pouco coñecidas, pero moi útiles:
Aínda que hai moitas bibliotecas dispoñibles en Pitão para DateTime, creo que Pendulum é fácil de usar en calquera operación de data. Un péndulo é a miña estantería favorita para o meu uso diario no traballo. Amplía o módulo de datahora de Python integrado, engadindo unha API máis intuitiva para xestionar zonas horarias e realizar operacións de data e hora, como engadir intervalos de tempo, restar datas e converter entre zonas horarias. Ofrece unha API sinxela e intuitiva para formatar datas e horas.
!pip install pendulum
# import library
import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
#local() creates datetime instance with local timezone
local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)
# Printing UTC time
utc = pendulum.now('UTC')
print("Current UTC time:", utc)
# Converting UTC timezone into Europe/Paris time
europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Atopáchesche cando a lingua estranxeira nos datos non aparece correctamente? Isto chámase Mojibake. Mojibake é un termo usado para describir texto confuso ou codificado que se produce como resultado de problemas de codificación ou decodificación. Adoita ocorrer cando o texto escrito cunha codificación dun carácter se decodifica incorrectamente utilizando unha codificación diferente. A biblioteca ftfy python axudarache a corrixir Mojibake, que é moi útil nos casos de uso de NLP.
!pip instalar ftfy
print(ftfy.fix_text('Corrixir a frase usando “ftfyâ\x9d.')) print(ftfy.fix_text('✔ Sen problemas co texto')) print(ftfy.fix_text('à perturber a réflexion '))
Ademais de Mojibake, ftfy solucionará codificacións incorrectas, finais de liña incorrectos e comiñas incorrectas. pode entender texto que foi decodificado como unha das seguintes codificacións:
Sketch é un asistente de codificación AI exclusivo deseñado especificamente para usuarios que traballan coa biblioteca de pandas en Python. Usa algoritmos de aprendizaxe automática para comprender o contexto dos datos do usuario e ofrece suxestións de código relevantes para facer que as tarefas de manipulación e análise de datos sexan máis fáciles e eficientes. Sketch non require que os usuarios instalen ningún complemento adicional no seu IDE, polo que é rápido e sinxelo de usar. Isto pode reducir significativamente o tempo e o esforzo necesarios para as tarefas relacionadas cos datos e axudar aos usuarios a escribir un código mellor e máis eficiente.
Esbozo de instalación de !pip
Necesitamos engadir unha extensión .sketch ao marco de datos de pandas para usar esta biblioteca.
preguntar é unha función de Sketch que permite aos usuarios facer preguntas sobre os seus datos nun formato de linguaxe natural. Ofrece unha resposta baseada en texto á consulta do usuario.
# Importar bibliotecas importar sketch importar pandas como pd # Lendo os datos (usando os datos de Twitter como exemplo) df = pd.read_csv("tweets.csv") print(df)
# Preguntando cales son as columnas do tipo de categoría df.sketch.ask("Que columnas son do tipo de categoría?")
# Para atopar a forma do marco de datos df.sketch.ask("Cal é a forma do marco de datos")
.esbozo.como
como é unha función que proporciona un bloque de código que se pode usar como punto de partida ou final para varias tarefas relacionadas cos datos. Podemos pedir fragmentos de código para normalizar os seus datos, crear novas funcións, rastrexar datos e mesmo construír modelos. Isto aforrará tempo e facilitará copiar e pegar o código; non tes que escribir o código manualmente desde cero.
# Solicitando o código recortado para visualizar as emocións df.sketch.howto("Visualizar as emocións")
.esbozo.aplicar
A función .apply axuda a xerar novas funcións, analizar campos e realizar outras manipulacións de datos. Para utilizar esta función, necesitamos ter unha conta OpenAI e utilizar a clave API para realizar as tarefas. Non probei esta función.
Gustoume usar esta biblioteca, especialmente Vir funciona, e paréceme útil.
"pgeocode" é unha excelente biblioteca coa que atopei recentemente e que foi incriblemente útil para os meus proxectos de análise espacial. Por exemplo, permítelle atopar a distancia entre dous códigos postais e ofrece información xeográfica tomando como entrada un país e un código postal.
!pip install pgeocode
Obtén información xeográfica para códigos postais específicos
# Comprobando o país "India" nomi = pgeocode.Nominatim('In') # Obtendo información xeográfica pasando os códigos postais nomi.query_postal_code(["620018", "620017", "620012"])
"pgeocode" calcula a distancia entre dous códigos postais tomando o país e os códigos postais como entrada. O resultado exprésase en quilómetros.
# Buscando unha distancia entre dous códigos postais distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
rembg é outra biblioteca útil que elimina facilmente o fondo das imaxes.
!pip install rembg
# Importación de bibliotecas
from rembg import remove import cv2 # ruta da imaxe de entrada (o meu ficheiro: image.jpeg) input_path = 'image.jpeg' # ruta para gardar a imaxe de saída e gardala como output.jpeg output_path = 'output.jpeg' # Reading the input entrada de imaxe = cv2.imread(ruta_entrada) # Eliminando saída de fondo = eliminar (entrada) # Gardando o ficheiro cv2.imwrite (ruta_saída, saída)
Quizais xa estea familiarizado con algunhas destas bibliotecas, pero para min, Sketch, Pendulum, pgeocode e ftfy son indispensables para o meu traballo de enxeñaría de datos. Confío moito neles para os meus proxectos.
Humanize” ofrece un formato de cadea sinxelo e fácil de ler para números, datas e horas. O obxectivo da biblioteca é tomar os datos e facelos máis fáciles de usar, por exemplo, convertendo un número de segundos nunha cadea máis lexible como "Hai 2 minutos". A biblioteca pode formatear os datos de varias formas, incluíndo o formato de números con comas, a conversión de marcas de tempo en tempos relativos e moito máis.
Adoito utilizar números enteiros e marcas de tempo para os meus proxectos de enxeñaría de datos.
!pip instalar humanizar
# Importando a biblioteca de importación humanize import datetime como dt # Formatear números con coma a = humanize.intcomma(951009) # converter números en palabras b = humanize.intword(10046328394) #printing print(a) print(b)
importar humanizar importar datahora como dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)
Ercole Palmeri
O pasado luns, o Financial Times anunciou un acordo con OpenAI. FT licencia o seu xornalismo de clase mundial...
Millóns de persoas pagan por servizos de streaming, pagando taxas de subscrición mensuais. É unha opinión común que vostede...
Coveware by Veeam continuará ofrecendo servizos de resposta a incidentes de extorsión cibernética. Coveware ofrecerá capacidades forenses e de remediación...
O mantemento preditivo está a revolucionar o sector do petróleo e do gas, cun enfoque innovador e proactivo para a xestión das plantas...