Trong bài viết này, chúng ta thấy một số thư viện python ít được biết đến nhưng rất hữu ích:
Mặc dù nhiều thư viện có sẵn trong Python đối với DateTime, tôi thấy Con lắc dễ sử dụng trên bất kỳ thao tác ngày nào. Một con lắc là tủ sách yêu thích của tôi để sử dụng hàng ngày tại nơi làm việc. Mở rộng mô-đun ngày giờ Python tích hợp, thêm API trực quan hơn để quản lý múi giờ và thực hiện các thao tác ngày và giờ, chẳng hạn như thêm khoảng thời gian, trừ ngày và chuyển đổi giữa các múi giờ. Cung cấp API đơn giản và trực quan để định dạng ngày và giờ.
!pip install pendulum
# import library
import pendulum
dt = pendulum.datetime(2023, 1, 31)
print(dt)
#local() creates datetime instance with local timezone
local = pendulum.local(2023, 1, 31)
print("Local Time:", local)
print("Local Time Zone:", local.timezone.name)
# Printing UTC time
utc = pendulum.now('UTC')
print("Current UTC time:", utc)
# Converting UTC timezone into Europe/Paris time
europe = utc.in_timezone('Europe/Paris')
print("Current time in Paris:", europe)
Bạn đã gặp phải khi ngôn ngữ nước ngoài trong dữ liệu không xuất hiện chính xác? Đây được gọi là Mojibake. Mojibake là một thuật ngữ được sử dụng để mô tả văn bản bị cắt xén hoặc xáo trộn xảy ra do sự cố mã hóa hoặc giải mã. Nó thường xảy ra khi văn bản được viết bằng một mã hóa ký tự được giải mã không chính xác bằng một mã hóa khác. Thư viện ftfy python sẽ giúp bạn khắc phục Mojibake, rất hữu ích trong các trường hợp sử dụng NLP.
!pip cài đặt ftfy
print(ftfy.fix_text('Sửa câu bằng “ftfyâ€\x9d.')) print(ftfy.fix_text('✔ Không có vấn đề gì với văn bản')) print(ftfy.fix_text('à perturber la réflexion '))
Ngoài Mojibake, ftfy sẽ sửa mã hóa không hợp lệ, kết thúc dòng không hợp lệ và dấu ngoặc kép không hợp lệ. có thể hiểu văn bản đã được giải mã thành một trong các mã hóa sau:
Phác thảo là một trợ lý mã hóa AI độc đáo được thiết kế dành riêng cho người dùng làm việc với thư viện pandas trong Python. Nó sử dụng các thuật toán máy học để hiểu ngữ cảnh của dữ liệu người dùng và cung cấp các đề xuất mã có liên quan để thực hiện các tác vụ phân tích và thao tác dữ liệu dễ dàng và hiệu quả hơn. Sketch không yêu cầu người dùng cài đặt bất kỳ plug-in bổ sung nào trong IDE của họ, giúp nó trở nên nhanh chóng và dễ sử dụng. Điều này có thể giảm đáng kể thời gian và công sức cần thiết cho các tác vụ liên quan đến dữ liệu và giúp người dùng viết mã tốt hơn, hiệu quả hơn.
!pip cài đặt bản phác thảo
Chúng ta cần thêm phần mở rộng .sketch vào pandas dataframe để sử dụng thư viện này.
xin là một tính năng của Sketch cho phép người dùng đặt câu hỏi về dữ liệu của họ ở định dạng ngôn ngữ tự nhiên. Cung cấp phản hồi dựa trên văn bản cho truy vấn của người dùng.
# Nhập thư viện nhập phác thảo nhập gấu trúc dưới dạng pd # Đọc dữ liệu (sử dụng dữ liệu twitter làm ví dụ) df = pd.read_csv("tweets.csv") print(df)
# Hỏi cột nào thuộc loại danh mục df.sketch.ask("Cột nào thuộc loại danh mục?")
# Để tìm hình dạng của khung dữ liệu df.sketch.ask("Hình dạng của khung dữ liệu là gì")
.sketch.howto
howto là một tính năng cung cấp một khối mã có thể được sử dụng làm điểm bắt đầu hoặc điểm kết thúc cho các tác vụ liên quan đến dữ liệu khác nhau. Chúng tôi có thể yêu cầu các đoạn mã để chuẩn hóa dữ liệu của họ, tạo các tính năng mới, theo dõi dữ liệu và thậm chí xây dựng mô hình. Điều này sẽ tiết kiệm thời gian và giúp dễ dàng sao chép và dán mã; bạn không phải viết mã thủ công từ đầu.
# Yêu cầu cung cấp mã được cắt để trực quan hóa cảm xúc df.sketch.howto("Hiển thị cảm xúc")
.sketch.apply
Hàm .apply nó giúp tạo các tính năng mới, phân tích cú pháp các trường và thực hiện các thao tác dữ liệu khác. Để sử dụng tính năng này chúng ta cần có tài khoản OpenAI và sử dụng API key để thực hiện các tác vụ. Tôi chưa thử tính năng này.
Tôi rất thích sử dụng thư viện này, đặc biệt là Đến nó hoạt động, và tôi thấy nó hữu ích.
“pgeocode” là một thư viện tuyệt vời mà tôi tình cờ phát hiện được gần đây, thư viện này cực kỳ hữu ích cho các dự án phân tích không gian của tôi. Ví dụ: nó cho phép bạn tìm khoảng cách giữa hai mã bưu chính và cung cấp thông tin địa lý bằng cách lấy quốc gia và mã bưu điện làm đầu vào.
!pip cài đặt pgeocode
Nhận thông tin địa lý cho các mã bưu điện cụ thể
# Kiểm tra quốc gia "Ấn Độ" nomi = pgeocode.Nominatim('In') # Nhận thông tin địa lý bằng cách chuyển mã bưu điện nomi.query_postal_code(["620018", "620017", "620012"])
“pgeocode” tính toán khoảng cách giữa hai mã bưu chính bằng cách lấy quốc gia và mã bưu điện làm đầu vào. Kết quả được thể hiện bằng km.
# Tìm khoảng cách giữa hai mã bưu điện distance = pgeocode.GeoDistance('In') distance.query_postal_code("620018", "620012")
rembg là một thư viện hữu ích khác giúp dễ dàng xóa nền khỏi hình ảnh.
!pip cài đặt rembg
# Nhập thư viện
from rembg import remove import cv2 # đường dẫn của hình ảnh đầu vào (tệp của tôi: image.jpeg) input_path = 'image.jpeg' # đường dẫn để lưu hình ảnh đầu ra và lưu dưới dạng đầu ra.jpeg output_path = 'output.jpeg' # Đọc đầu vào đầu vào hình ảnh = cv2.imread(input_path) # Xóa nền đầu ra = remove(input) # Lưu tệp cv2.imwrite(output_path, output)
Bạn có thể đã quen thuộc với một số thư viện này, nhưng đối với tôi, Sketch, Pendulum, pgeocode và ftfy là không thể thiếu đối với công việc kỹ thuật dữ liệu của tôi. Tôi dựa vào họ rất nhiều cho các dự án của tôi.
Humanize” cung cấp định dạng chuỗi đơn giản, dễ đọc cho số, ngày tháng và thời gian. Mục tiêu của thư viện là lấy dữ liệu và làm cho nó thân thiện hơn với người dùng, chẳng hạn bằng cách chuyển đổi một số giây thành một chuỗi dễ đọc hơn như "2 phút trước". Thư viện có thể định dạng dữ liệu theo nhiều cách khác nhau, bao gồm định dạng số bằng dấu phẩy, chuyển đổi dấu thời gian thành thời gian tương đối, v.v.
Tôi thường sử dụng số nguyên và dấu thời gian cho các dự án kỹ thuật dữ liệu của mình.
!pip cài đặt nhân hóa
# Nhập thư viện nhập nhân hóa nhập ngày giờ dưới dạng dt # Định dạng số bằng dấu phẩy a = humanize.intcomma(951009) # chuyển đổi số thành từ b = humanize.intword(10046328394) #printing print(a) print(b)
nhập nhân hóa nhập dữ liệu thời gian dưới dạng dt a = humanize.naturaldate(dt.date(2012, 6, 5)) b = humanize.naturalday(dt.date(2012, 6, 5)) print(a) print(b)
Ercole Palmeri
Phát triển kỹ năng vận động tinh thông qua tô màu giúp trẻ chuẩn bị cho những kỹ năng phức tạp hơn như viết. Để tô màu…
Ngành hải quân là một cường quốc kinh tế toàn cầu thực sự, đang hướng tới thị trường 150 tỷ...
Thứ Hai tuần trước, Financial Times đã công bố một thỏa thuận với OpenAI. FT cấp phép cho hoạt động báo chí đẳng cấp thế giới…
Hàng triệu người trả tiền cho các dịch vụ phát trực tuyến, trả phí thuê bao hàng tháng. Ý kiến chung là bạn…