Nên dịch Data Warehousing như thế nào? (2 người xem)

levanduyet · 12/2/09

Tôi đọc một số sách, thấy tựa đề sách là:
"Data warehousing architecture & implementation"
"Oracle 9iR2 Data warehousing"
"IBM data warehousing"

Không biết phải dịch Data warehousing như thế nào đây? Xin ý kiến của các bạn.

LVD

salam · 12/2/09

levanduyet đã viết:
Tôi đọc một số sách, thấy tựa đề sách là:
"Data warehousing architecture & implementation"
"Oracle 9iR2 Data warehousing"
"IBM data warehousing"

Không biết phải dịch Data warehousing như thế nào đây? Xin ý kiến của các bạn.

LVD

Theo em thì là : Kho dữ liệu

cadafi · 12/2/09

levanduyet đã viết:
Tôi đọc một số sách, thấy tựa đề sách là:
"Data warehousing architecture & implementation"
"Oracle 9iR2 Data warehousing"
"IBM data warehousing"

Không biết phải dịch Data warehousing như thế nào đây? Xin ý kiến của các bạn.

LVD

Warehouse (động từ) có nghĩa là lưu trữ, cất vào kho.
Data warehousing: là việc lưu trữ dữ liệu

Em xin tạm dịch:
Data warehousing architecture & implementation: cấu trúc lưu trữ dữ liệu và hệ thống xử lý
Oracle 9iR2 Data warehousing: Hệ thống lưu trữ dữ liệu Oracle 9iR2
IBM data warehousing: Hệ thống lưu trữ dữ liệu IBM

solomon2211 · 12/2/09

Nói thêm về Kho Dữ Liệu

Kho Dữ liệu (Data Warehosing)
Hằng ngày, các tổ chức thu thập dữ liệu về cơ bản là không dùng được vì không có cách nào để truy cập một cách thuận tiện, xử lý và trình bày. Hàng triệu byte dữ liệu “bị khóa” trên máy tính. Kỹ thuật Data warehousing xác định các chiến lược làm cho dữ liệu có thể truy cập dễ dàng hơn.

Các nhà phân tích và các nhà cung cấp từ lâu đã ý thức được rằng có hai loại hệ thống thông tin:

Operational systems: Đây là những hệ xử lý các quá trình hàng ngày như kế toán, đặt hàng, quản lý kho. Các hệ nầy bảo đảm hoạt động cho các doanh nghiệp.
Informational systems: Đây là các hệ dùng để phân tích dữ liệu, tạo các quyết định quản lý kinh doanh, và lập kế hoạch cho tương lai. Các hệ nầy thường được gọi là hệ quản trị điều hành (executive management system).

Sự khác biệt quan trọng giữa hai hệ nầy là: hệ operational system làm việc với các tập dữ liệu riêng biệt, như kho hàng, còn hệ informational system liên quan đến việc lấy ra thông tin hữu ích từ các tài nguyên liên quan. Các hệ informational system truy cập và sử dụng dữ liệu từ các nguồn thông tin dưới đây:

Legacy data systems Kho dữ liệu được thu thập trong nhiều năm. Các hệ nầy gồm cả các ứng dụng trên máy mainframe và mini, và khó truy cập từ các ứng dụng PC.
External data systems Đây là các hệ thống bên ngoài tổ chức, như web server, cung cấp đủ loại thông tin khác nhau (dữ liệu về địa lý, nhân khẩu, xu hướng kinh tế, …)
Operational data systems Đây là dữ liệu thu thập hằng ngày bằng các hệ như kế toán và các hệ thương mại khác.

Có thể tưởng tượng kho dữ liệu ba-tầng, trong đó tầng giữa cung cấp dữ liệu một cách an toàn cho người dùng. Kho dữ liệu được tạo bởi các thành phần dưới đây:

Data mart or staging systems Đây là nơi dữ liệu ở các hệ thống back-end được lưu trữ để khách hàng truy cập. Dữ liệu thường được sàng lọc và xử lý bằng nhiều cách trước khi lưu trữ. Kho dữ liệu có thể chứa nhiều hệ staging (mỗi hệ cho một phòng ban).
Front-end client Đây là người dùng truy cập dữ liệu từ các ứng dụng PC như Microsoft Access và Excell, Lotus 1-2-3, SAS, và các ứng dụng quản lý dữ liệu khác. Các công cụ front-end nầy dùng các phương pháp cao cấp để hiển thị và phân tích dữ liệu.
Middleware Phần mềm che dấu sự khác biệt giữa các hệ quản lý dữ liệu, cho phép người dùng truy cập dễ dàng. Các hệ công bố (staging) có thể dùng ngôn ngữ truy cập dữ liệu phổ biến như SQL (Structured Query Language). ODBC (Open Database Connectivity) cung cấp giao diện chung giữa khách và các hệ back-end.
Messaging systems Kho dữ liệu thường chứa nhiều hệ back-end và nhiều khách hàng. Một hệ truyền thông điệp truyền tải các yêu cầu và phản hồi, dùng các giao thức mạng để chuyển dữ liệu đến người dùng.

Khách hàng truy cập đến dữ liệu lưu trữ trên các hệ công bố (staging), mặc dù cũng có thể truy cập trực tiếp đến các hệ di sản (legacy), hoạt động (operational) hoặc ngoại trú (external). Tuy vậy, tiếp cận công bố (staging) có nhiều thuận lợi, như an toàn và truy cập của khách hàng được kiểm soát bởi người phân tích dữ liệu hoặc người quản lý dữ liệu.

Kho siêu dữ liệu (metadata store) là hệ thống giữ các thông tin về vị trí và cấu trúc của dữ liệu trong kho dữ liệu. Nó cho phép người dùng truy cập dữ liệu bất cứ ở đâu mà không cần biết vị trí chính xác của dữ liệu, nó cũng lưu trữ thông tin về cách cấu trúc hóa dữ liệu và các lệnh dùng để truy cập.
Về thông tin trong Kho Dữ liệu
Có thể tưởng tượng kho dữ liệu như hệ thống chứa thông tin tổng hợp từ các nguồn di sản (legacy), hoạt động (operational) hoặc ngoại trú (external). Các hệ công bố (staging) chỉ lưu trữ thông tin mới nhất và chỉ cho phép đọc. Tất cả dữ liệu được cập nhật trong hệ hoạt động (operational system) chứ không phải trong hệ công bố (staging).

solomon2211 · 12/2/09

Theo Prism Solutions (http://www.prismsolutions.com), có các mức tổng hợp và chi tiết khác nhau trong kho dữ liệu

Dữ liệu chi tiết cũ là dữ liệu lịch sử hoặc di sản
Dữ liệu chi tiết hiện hành (thường là dữ liệu hoạt động) là dữ liệu mới nhất.
Dữ liệu tổng hợp vừa phải là dữ liệu được chắt lọc từ dữ liệu chi tiết hiện hành bởi người phân tích dữ liệu hoặc các quá trình khác.
Dữ liệu tổng hợp mức độ cao là dữ liệu được “cô đặc” và người dùng có thể truy cập dễ dàng.

Dữ liệu lưu trữ trên các hệ di sản, hoạt động, hay ngoại trú được mã hóa, cấu trúc hóa, và lưu trữ theo nhiều cách khác nhau, và qua nhiều năm người thiết kế CSDL dùng các qui ước riêng của họ để xây dựng cấu trúc CSDL. Do đó, cách lưu trữ dữ liệu trong CSDL rất không nhất quán với cách các thông tin liên quan lưu trữ trong CSDL khác.

Khi dữ liệu được truyền đến các hệ công bố (staging), nó phải được “tiền xử lý” bởi người phân tích hoặc bởi các ứng dụng được thiết kế đặc biệt cho công việc nầy. Công việc xử lý gồm lấy ra, sàng lọc, tổ hợp, thay đổi, và chuyển dữ liệu vào các tập dữ liệu mới thích hợp hơn đối với người dùng. Nó cũng có thể chứa các phương pháp kiểm tra tính toàn vẹn để bảo đảm người dùng truy cập chính xác và kịp thời.

Nét chủ yếu của quá trình nầy là tích hợp dữ liệu bằng các qui ước đặt tên phổ biến cùng với các thuộc tính, kỹ thuật mã hóa, và cấu trúc nhất quán. Ví dụ, thông tin về ngày tháng từ các CSDL khác nhau có thể ở nhiều dạng, nhưng được định dạng lại và lưu trữ dưới một dạng duy nhất trên các hệ công bố (staging).

Như đã nói, mỗi phòng ban trong công ty có hệ công bố (staging) riêng để lưu trữ dữ liệu tổng hợp vừa phải hoặc tổng hợp mức độ cao. Người phân tích CSDL thường phải tổng hợp và lấy ra từ các hệ back-end, và làm cho dữ liệu nầy có thể truy cập bởi người dùng. Hãng D2K (http://www.d2k.com) gọi những nhà phân tích nầy là “chủ trại” (farmer). Chủ trại có thể dùng các công cụ OLAP (online analytical processing) và “data mining” để có thể phát hiện các mối quan hệ lý thú và hữu ích của dữ liệu.

Các phần mềm đang xuất hiện hỗ trợ kho dữ liệu có thể thay thế các hệ EIS (executive information system) và DSS (decision support system). Các hệ trước đây không tạo được nhiều thuận lợi trong việc cập nhật thường xuyên dữ liệu xảy ra trong kho dữ liệu và chỉ được sử dụng hạn chế bởi một số người quyết định.
Hội IDWA (International Data Warehousing Association) xác định một loại kho dữ liệu mới gọi là “operational data warehouse” (kho dữ liệu hoạt động). Kho dữ liệu nầy cho phép truy cập động đến dữ liệu back-end được xác định ở hệ front-end. Ví dụ như ngân hàng được yêu cầu xác định tất cả các tài sản của một công ty. Ngân hàng lấy ra các dữ liệu quan trọng từ nhiều hệ thống khác nhau. Sau đó tòa án có thể yêu cầu tất cả các tài khoản phải đóng băng. Đây là vấn đề nếu tất cả các tài khoản được lưu trữ trên nhiều hệ di sản khác nhau. Các nhân viên ngân hàng cần đóng từng tài khoản riêng lẻ. Với kho dữ liệu hoạt động, tất cả các tài khoản được đóng bằng một phần mềm chung.

Lập kế hoạch và Xây dụng một Kho Dữ liệu
Một tổ chức quyết định xây dựng kho dữ liệu phải đối mặt với các công việc khó khăn là làm cho dữ liệu được người dùng truy cập kịp thời, chính xác và hữu ích. Có nhiều trường hợp tạo kho dữ liệu chứa thông tin không chính xác và không thích hợp.
Quá trình xây dựng kho dữ liệu cần bắt đầu bằng lập chiến lược hoạch định cẩn thận và tạo mẫu ban đầu. Vì thiết bị phần cứng rất đắt, người phát triển cần làm việc gần gũi với người dùng để xác định chính xác những thông tin nào được yêu cầu trên hệ công bố (staging) và dữ liệu được sử dụng như thế nào. Điều nầy có thể được thực hiện bằng cách xây dựng các hệ nhỏ và phát triển dần thành hệ thống đầy đủ.
Các nhà cung cấp đã phát triển các hệ đặc biệt cho kho dữ liệu. IBM có hệ Warehouse riêng của mình, xem mục “Information Warehouse”. Các hệ CSDL song song đang xuất hiện, cải tiến truy cập CSDL. Các công cụ hình dung dữ liệu (data vizualization tool) giúp người dùng thấy được thông tin quan trọng mà họ cần. Pyramid Technology (http://www.pyramid.com) đã phát triển các hệ xử lý song song cho mục đích nầy.
Giao diện web có lẽ là một trong những tính năng quan trọng nhất đối với kho dữ liệu. Một số nhà cung cấp như D2K, đang phát triển các ứng dụng chuyển giao dữ liệu từ kho đến người dùng web. Công nghệ push được dùng để tự động cung cấp cho người dùng thông tin mới nhất mà họ quan tâm. Với công nghệ web, chỉ cần định dạng dữ liệu cho phù hợp với web browser. Người dùng từ bất cứ hệ thống nào, dùng web browser, có thể hiển thị được thông tin.
Bạn đọc cần kiểm tra lại các web site trong mục “Thông tin trên Internet” cuối phần nầy để biết thêm chi tiết. Có nhiều web site và trang trắng về chủ đề nầy từ các cá nhân và công ty. Cũng có nhiều sản phẩm làm đơn giản hóa toàn bộ quá trình nầy.

THÔNG TIN TRÊN INTERNET
The Data Warehousing Institute http://www.dw-institute.com
The International Data Warehousing Association http://www.idwa.org
Larry Greenfield’s Data Warehousing Information Center http://pwp.starnetinc.com/larryg

Nên dịch Data Warehousing như thế nào? (2 người xem)

Người dùng đang xem chủ đề này

levanduyet

Hãy để gió cuốn đi.

salam

Thành viên gắn bó

cadafi

Hành động từ trái tim

solomon2211

Thành viên tích cực

solomon2211

Thành viên tích cực

Bài viết mới nhất

Thành viên có số lượng bài viết cao nhất tháng

Thành viên có điểm tương tác cao nhất tháng

Đếm ngược thời gian