""

[Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 1)

Bạn đang tìm hiểu về [Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 1)?

Bài viết này EDUBOSTON sẽ giải thích tất cả những kiến thức về loài này

Video [Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 1)

Chúng tôi đang cập nhật
[ad_1]

Dữ liệu gấu trúc là một cấu trúc chứa dữ liệu hai chiều và các nhãn tương ứng. Khung dữ liệu được sử dụng rộng rãi trong khoa học dữ liệu, học máy, máy tính khoa học và nhiều lĩnh vực khác sử dụng nhiều dữ liệu.

Khung dữ liệu tương tự như Bảng SQL hoặc bảng tính mà bạn chạy trong Excel hoặc Calc. Trong nhiều trường hợp, DataFrames nhanh hơn, dễ sử dụng hơn và mạnh hơn bảng tính hoặc bảng tính vì chúng là một phần không thể thiếu của hệ sinh thái. PythonNumPy. Trong bài học này chúng ta sẽ học:

Bạn đang xem: Dataframe là gì?

  • Dữ liệu gấu trúc Là gì và làm thế nào để khởi tạo?
  • Như truy cập, sửa đổi, thêm, sắp xếp, lọc,gỡ bỏ dữ liệu
  • Sự đối đãi giá trị bị mất
  • Làm thế nào để làm việc với dữ liệu chuỗi thời gian
  • Cách nhanh chóng hình dung dữ liệu

Đi thôi đi thôi !!!

Pandas DataFrames là cấu trúc dữ liệu chứa:

  • Dữ liệu được tổ chức trong không gian hai chiều, bao gồm các hàng và cột
  • Các nhãn tương ứng với các hàng và cột

Bạn có thể bắt đầu làm việc với Khung dữ liệu nhập gấu trúc:

Python: >>> nhập gấu trúc dưới dạng pd

Hãy tưởng tượng rằng bạn đang sử dụng Pandas để phân tích dữ liệu về các ứng viên cho vị trí nhà phát triển ứng dụng web bằng Python. Giả sử bạn quan tâm đến tên, thành phố, tuổi và cấp của một ứng cử viên kiểm tra Python hoặc py-score:

tên thành phố age py-core 1 Nam Trân Thành phố HCM 18 82,0 2 Thành phố Hui Nguyễn Hà Nội 19 79,0 3 Thành phố Min Hui Hà Nội 23 89,0 4 Thành phố Lâm Lê Đà Nẵng 17 96,0 5 Thành phố Đạt Nguyên Hà Nội 22 94.

Trong bảng này, hàng đầu tiên chứa các nhãn cột (tên, thành phố, tuổi và lớp). Cột đầu tiên chứa các nhãn hàng (1, 2, v.v.). Tất cả các ô khác được lấp đầy bởi các giá trị dữ liệu.

Bây giờ bạn có mọi thứ bạn cần để tạo Pandas DataFrame.

Có một số cách để tạo Pandas DataFrame. Trong hầu hết các trường hợp, bạn sẽ sử dụng hàm tạo DataFrame để cung cấp dữ liệu, nhãn và thông tin khác. Bạn có thể chuyển dữ liệu dưới dạng danh sách hai chiều, bộ giá trị hoặc mảng NumPy. Bạn cũng có thể chuyển nó dưới dạng từ điển hoặc một phiên bản của Chuỗi gấu trúc hoặc dưới dạng một trong số các kiểu dữ liệu khác không được đề cập trong hướng dẫn này.

Trong ví dụ này, giả sử bạn sử dụng từ điển để chuyển dữ liệu:

>>> data = {‘name’: [‘Nam Tran’, ‘Huy Nguyen’, ‘Minh Huy’, ‘Lam Le’, ‘Dat Nguyen’]’thành phố’: [‘HCM city’, ‘Ha Noi city’, ‘Ha Noi city’, ‘Da Nang city’, ‘HCM city’]’tuổi tác’: [18, 19, 23, 17, 22]’py-core’: [82.0, 79.0, 89.0, 96.0, 94.0] } >>> line_labels = [1, 2, 3, 4, 5]

data là một biến Python tham chiếu đến một từ điển có chứa dữ liệu của các ứng cử viên của bạn. Nó cũng chứa các nhãn cột:

  • ‘Tên’
  • ‘thành phố’
  • ‘tuổi tác’
  • ‘lõi py’

Cuối cùng, row_labels đề cập đến một danh sách chứa các nhãn chuỗi là các số từ 1 đến 5.

Bây giờ bạn đã sẵn sàng để tạo Pandas DataFrame:

>>> df = pd.DataFrame (data = data, index = row_labels) >>> df name city age py-score 1 Nam Trân TP HCM 18 82,0 2 Huy Nguyen Ha Noi city 19 79,0 3 Minh Huy Ha Noi city 23 89,0 4 thành phố Lâm Lê Đà Nẵng 17 96,0 5 thành phố Đạt Nguyên HCM 22 94,0

df là một biến chứa tham chiếu đến Pandas DataFrame của bạn. Pandas DataFrame này trông giống như bảng ứng cử viên ở trên và có các tính năng sau:

  • Các nhãn dòng từ 1 đến 5
  • Các nhãn cột: “name”, “city”, “age” và “py”
  • Dữ liệu là dữ liệu: tên, thành phố, độ tuổi và điểm py-core

Xem thêm: 7 lợi ích sức khỏe vàng của sốt kem mè

Pandas DataFrames đôi khi có thể rất lớn, khiến việc xem tất cả các hàng cùng một lúc là không thực tế. Bạn có thể dùng .cái đầu() để hiển thị một số mục đầu tiên và .cái đuôi () để hiển thị một vài mục cuối cùng:

>>> df.head (n = 2) tên thành phố age py-score 1 Nam Trân Thành phố Hồ Chí Minh 18 82,0 2 Huy Nguyễn Thành phố Hà Nội 19 79,0 >>> df.tail (n = 2) 4 Lâm Lê Thành phố Đà Nẵng 17 96,0 5 Đất Nguyên TP HCM 22 94,0

Đây là cách bạn có thể hiển thị phần đầu hoặc phần cuối của Pandas DataFrame. Tham số n chỉ định số hàng sẽ hiển thị.

Ghi chú. Có thể hữu ích khi coi Pandas DataFrame như một từ điển cột hoặc Chuỗi Pandas với nhiều tính năng bổ sung.

Bạn có thể truy cập một cột trong Pandas DataFrame giống như bạn lấy các giá trị từ từ điển:

>>> thành phố = df[‘city’] >>> thành phố 1 thành phố HCM 2 thành phố Hà Nội 3 thành phố Hà Nội 4 thành phố Đà Nẵng 5 thành phố HCM Tên: thành phố, loại: đối tượng

Bằng cách này, bạn sẽ có được một cột nhất định. Bạn đã rút ra một cột có nhãn ‘thành phố’ chứa vị trí của tất cả dữ liệu bạn muốn làm việc.

Mỗi cột Pandas DataFrame là một phiên bản gấu trúc. Hàng loạt, một cấu trúc chứa dữ liệu một chiều và nhãn của chúng. Bạn có thể lấy một phần tử đối tượng Row giống như một từ điển, sử dụng nhãn của nó làm khóa.

>>> thành phố[3] Hà nội

Trong trường hợp này, “thành phố Hà Nội” là giá trị của dữ liệu và “3” là nhãn tương ứng. Như bạn sẽ thấy trong phần tiếp theo, có nhiều cách khác để lấy một vật phẩm cụ thể trong Pandas DataFrame.

Bạn cũng có thể truy cập toàn bộ dòng bằng công cụ truy cập .loc []:

>>> df.loc[3] tên thành phố Ming Hui ‘thành phố Hà Nội’ tuổi 23 py-core 89,0 Tên: 3, dtype: object

Lần này, bạn đã kéo ra một hàng tương ứng với nhãn 3, chứa dữ liệu của một ứng cử viên tên là Ming Hui. Ngoài các giá trị dữ liệu từ hàng này, bạn đã trích xuất nhãn của các cột tương ứng.

Dữ liệu trả về cũng là một ví dụ gấu trúc. Hàng loạt.

Như đã đề cập, có một số cách để tạo Pandas DataFrame. Trong phần này, chúng ta sẽ tìm hiểu cách thực hiện việc này với hàm tạo DataFrame cùng với:

  • Từ điển Python
  • Danh sách Python
  • Mảng 2 chiều NumPy
  • Các tập tin

Bạn có thể bắt đầu bằng cách nhập Gấu trúc cùng với NumPy, mà bạn sẽ sử dụng trong ví dụ sau:

>>> nhập numpy dưới dạng np >>> nhập gấu trúc dưới dạng pd

Tạo Pandas DataFrame bằng từ điển

Như bạn thấy, bạn có thể tạo Pandas DataFrame bằng cách sử dụng từ điển Python:

>>> d = {‘x’: [1, 2, 3]’y’: np.array ([2, 4, 8]), ‘z’: 100} >>> pd.DataFrame (d) xyz 0377102962 4 100 2 3 8 100

Khóa từ điển là nhãn của cột DataFrame và giá trị từ điển là giá trị của dữ liệu trong các cột DataFrame tương ứng. Các giá trị có thể được chứa trong một tuple, danh sách, mảng NumPy một chiều, đối tượng Pandas Series hoặc một trong số các kiểu dữ liệu khác. Bạn cũng có thể chỉ định một giá trị duy nhất sẽ được sao chép dọc theo toàn bộ cột.

Thứ tự của các cột có thể được kiểm soát bởi các tham số của cột và nhãn của các hàng – theo chỉ mục:

>>> pd.DataFrame (d, index =[100, 200, 300]cột =[‘z’, ‘y’, ‘x’]) zyx 100 100 2 1 200 100 4 2 300 100 8 3

Nóng: độ ẩm tuyệt đối và tương đối là gì? Giá trị và công thức tính toán

Như bạn có thể thấy, bạn đã chỉ định các nhãn hàng 100, 200 và 300. Bạn cũng đặt thứ tự của các cột: z, y, x.

Tạo một Dữ liệu Gấu trúc với các danh sách

Một cách khác để tạo Pandas DataFrame là sử dụng danh sách từ điển:

>>> l = [{‘x’: 1, ‘y’: 2, ‘z’: 100}, … {‘x’: 2, ‘y’: 4, ‘z’: 100}, … {‘x’: 3, ‘y’: 8, ‘z’: 100}] >>> pd.DataFrame (l) xyz 0377102962 4 100 2 3 8 100

Một lần nữa, khóa từ điển là nhãn cột và giá trị từ điển là giá trị dữ liệu trong DataFrame.

Bạn cũng có thể dùng lồng vào nhau danh sách hoặc danh sách danh sách dưới dạng giá trị dữ liệu. Nếu bạn làm điều này, thì bạn phải chỉ định rõ ràng một cột, hàng hoặc cả hai nhãn khi tạo DataFrame:

>>> l = [[1, 2, 100]… [2, 4, 100]… [3, 8, 100]]>>> pd.DataFrame (l, cột =[‘x’, ‘y’, ‘z’]) xyz 0377102962 4 100 2 3 8 100

Đây là cách bạn có thể sử dụng danh sách lồng nhau để tạo Pandas DataFrame. Bạn cũng có thể sử dụng danh sách tuple theo cách tương tự. Để thực hiện việc này, chỉ cần thay thế các danh sách lồng nhau trong ví dụ trên bằng các bộ giá trị.

Tạo Pandas DataFrame với mảng NumPy

Bạn có thể chuyển một mảng NumPy hai chiều đến một phương thức khởi tạo DataFrame theo cách giống như một danh sách:

>>> arr = np.array ([[1, 2, 100]… [2, 4, 100]… [3, 8, 100]]) >>> df_ = pd.DataFrame (arr, cột =[‘x’, ‘y’, ‘z’]) >>> df_ xyz 0377102962 4 100 2 3 8 100

Mặc dù ví dụ này trông gần giống với cách triển khai danh sách lồng nhau ở trên, nhưng nó có một lợi thế: bạn có thể chỉ định một tùy chọn sao chép tùy chọn.

Nếu bản sao được đặt thành Sai (cài đặt mặc định), dữ liệu NumPy sẽ không được sao chép. Điều này có nghĩa là dữ liệu nguồn từ mảng được gán cho Pandas DataFrame. Nếu bạn thay đổi mảng, DataFrame của bạn cũng sẽ thay đổi:

>>> arr[0, 0] = 1000 >>> df_ xyz 0377102962 1 2 4 100 2 3 8 100

Như bạn có thể thấy, khi bạn thay đổi mục nhập arr đầu tiên, bạn cũng thay đổi df_.

Lưu ý: Việc không sao chép các giá trị dữ liệu có thể tiết kiệm đáng kể thời gian và sức mạnh xử lý khi làm việc với các tập dữ liệu lớn.

Nếu hành động này không phải là những gì bạn muốn, bạn cần chỉ định copy = True trong phương thức khởi tạo DataFrame. Do đó, df_ sẽ được tạo với một bản sao của các giá trị từ arr thay vì các giá trị thực.

Tạo một Pandas DataFrame với từ Files

Bạn có thể lưu và tải lên dữ liệu và nhãn Pandas DataFrame đến và từ một số loại tệp, bao gồm CSV, Excel, SQL, JSON, v.v. Đây là một tính năng rất mạnh mẽ.

Bạn có thể lưu dữ liệu từ DataFrame của mình vào tệp CSV bằng cách sử dụng .to_csv ():

>>> df.to_csv (‘data.csv’)

Câu lệnh trên sẽ tạo một tệp CSV có tên data.csv trong thư mục làm việc của bạn:

>>> pd.read_csv (‘data.csv’, index_col = 0) tên thành phố age py-score 1 Nam Trân Tp.HCM 18 82,0 2 Huy Nguyen Ha Noi city 19 79,0 3 Minh Huy Ha Noi city 23 89, 0 4 Lâm Lê Đà Nẵng TP Đà Nẵng 17 96,0 5 Đất Nguyên HCM 22 94,0

Bằng cách này, bạn đọc và truy xuất dữ liệu Pandas DataFrame từ một tệp. Trong trường hợp này, index_col = 0 chỉ ra rằng các nhãn hàng nằm trong cột đầu tiên của tệp CSV.

Nội dung liên quan: Team Liquid chào mừng bạn đến với eSports wiki

[ad_2]

Trên là bài viết liên quan về [Series Pandas DataFrame] Phân tích dữ liệu cùng Pandas (Phần 1), Hy vọng qua bài viết này bạn sẽ có kiến thức về cá tốt hơn

Viết một bình luận