Nên dịch Data Warehousing như thế nào?

Liên hệ QC

levanduyet

Hãy để gió cuốn đi.
Thành viên danh dự
Tham gia
30/5/06
Bài viết
1,798
Được thích
4,704
Giới tính
Nam
Tôi đọc một số sách, thấy tựa đề sách là:
"Data warehousing architecture & implementation"
"Oracle 9iR2 Data warehousing"
"IBM data warehousing"

Không biết phải dịch Data warehousing như thế nào đây? Xin ý kiến của các bạn.

LVD
 
Tôi đọc một số sách, thấy tựa đề sách là:
"Data warehousing architecture & implementation"
"Oracle 9iR2 Data warehousing"
"IBM data warehousing"

Không biết phải dịch Data warehousing như thế nào đây? Xin ý kiến của các bạn.

LVD
Theo em thì là : Kho dữ liệu
 
Tôi đọc một số sách, thấy tựa đề sách là:
"Data warehousing architecture & implementation"
"Oracle 9iR2 Data warehousing"
"IBM data warehousing"

Không biết phải dịch Data warehousing như thế nào đây? Xin ý kiến của các bạn.

LVD

Warehouse (động từ) có nghĩa là lưu trữ, cất vào kho.
Data warehousing: là việc lưu trữ dữ liệu

Em xin tạm dịch:
Data warehousing architecture & implementation: cấu trúc lưu trữ dữ liệu và hệ thống xử lý
Oracle 9iR2 Data warehousing: Hệ thống lưu trữ dữ liệu Oracle 9iR2
IBM data warehousing: Hệ thống lưu trữ dữ liệu IBM
 
Lần chỉnh sửa cuối:
Nói thêm về Kho Dữ Liệu

Kho Dữ liệu (Data Warehosing)
Hằng ngày, các tổ chức thu thập dữ liệu về cơ bản là không dùng được vì không có cách nào để truy cập một cách thuận tiện, xử lý và trình bày. Hàng triệu byte dữ liệu “bị khóa” trên máy tính. Kỹ thuật Data warehousing xác định các chiến lược làm cho dữ liệu có thể truy cập dễ dàng hơn.


Các nhà phân tích và các nhà cung cấp từ lâu đã ý thức được rằng có hai loại hệ thống thông tin:
  1. Operational systems: Đây là những hệ xử lý các quá trình hàng ngày như kế toán, đặt hàng, quản lý kho. Các hệ nầy bảo đảm hoạt động cho các doanh nghiệp.
  2. Informational systems: Đây là các hệ dùng để phân tích dữ liệu, tạo các quyết định quản lý kinh doanh, và lập kế hoạch cho tương lai. Các hệ nầy thường được gọi là hệ quản trị điều hành (executive management system).
Sự khác biệt quan trọng giữa hai hệ nầy là: hệ operational system làm việc với các tập dữ liệu riêng biệt, như kho hàng, còn hệ informational system liên quan đến việc lấy ra thông tin hữu ích từ các tài nguyên liên quan. Các hệ informational system truy cập và sử dụng dữ liệu từ các nguồn thông tin dưới đây:
  • Legacy data systems Kho dữ liệu được thu thập trong nhiều năm. Các hệ nầy gồm cả các ứng dụng trên máy mainframe và mini, và khó truy cập từ các ứng dụng PC.
  • External data systems Đây là các hệ thống bên ngoài tổ chức, như web server, cung cấp đủ loại thông tin khác nhau (dữ liệu về địa lý, nhân khẩu, xu hướng kinh tế, …)
  • Operational data systems Đây là dữ liệu thu thập hằng ngày bằng các hệ như kế toán và các hệ thương mại khác.
Có thể tưởng tượng kho dữ liệu ba-tầng, trong đó tầng giữa cung cấp dữ liệu một cách an toàn cho người dùng. Kho dữ liệu được tạo bởi các thành phần dưới đây:
  • Data mart or staging systems Đây là nơi dữ liệu ở các hệ thống back-end được lưu trữ để khách hàng truy cập. Dữ liệu thường được sàng lọc và xử lý bằng nhiều cách trước khi lưu trữ. Kho dữ liệu có thể chứa nhiều hệ staging (mỗi hệ cho một phòng ban).
  • Front-end client Đây là người dùng truy cập dữ liệu từ các ứng dụng PC như Microsoft Access và Excell, Lotus 1-2-3, SAS, và các ứng dụng quản lý dữ liệu khác. Các công cụ front-end nầy dùng các phương pháp cao cấp để hiển thị và phân tích dữ liệu.
  • Middleware Phần mềm che dấu sự khác biệt giữa các hệ quản lý dữ liệu, cho phép người dùng truy cập dễ dàng. Các hệ công bố (staging) có thể dùng ngôn ngữ truy cập dữ liệu phổ biến như SQL (Structured Query Language). ODBC (Open Database Connectivity) cung cấp giao diện chung giữa khách và các hệ back-end.
  • Messaging systems Kho dữ liệu thường chứa nhiều hệ back-end và nhiều khách hàng. Một hệ truyền thông điệp truyền tải các yêu cầu và phản hồi, dùng các giao thức mạng để chuyển dữ liệu đến người dùng.
Khách hàng truy cập đến dữ liệu lưu trữ trên các hệ công bố (staging), mặc dù cũng có thể truy cập trực tiếp đến các hệ di sản (legacy), hoạt động (operational) hoặc ngoại trú (external). Tuy vậy, tiếp cận công bố (staging) có nhiều thuận lợi, như an toàn và truy cập của khách hàng được kiểm soát bởi người phân tích dữ liệu hoặc người quản lý dữ liệu.

Kho siêu dữ liệu (metadata store) là hệ thống giữ các thông tin về vị trí và cấu trúc của dữ liệu trong kho dữ liệu. Nó cho phép người dùng truy cập dữ liệu bất cứ ở đâu mà không cần biết vị trí chính xác của dữ liệu, nó cũng lưu trữ thông tin về cách cấu trúc hóa dữ liệu và các lệnh dùng để truy cập.
Về thông tin trong Kho Dữ liệu
Có thể tưởng tượng kho dữ liệu như hệ thống chứa thông tin tổng hợp từ các nguồn di sản (legacy), hoạt động (operational) hoặc ngoại trú (external). Các hệ công bố (staging) chỉ lưu trữ thông tin mới nhất và chỉ cho phép đọc. Tất cả dữ liệu được cập nhật trong hệ hoạt động (operational system) chứ không phải trong hệ công bố (staging).
 
Theo Prism Solutions (http://www.prismsolutions.com), có các mức tổng hợp và chi tiết khác nhau trong kho dữ liệu
  • Dữ liệu chi tiết cũ là dữ liệu lịch sử hoặc di sản
  • Dữ liệu chi tiết hiện hành (thường là dữ liệu hoạt động) là dữ liệu mới nhất.
  • Dữ liệu tổng hợp vừa phải là dữ liệu được chắt lọc từ dữ liệu chi tiết hiện hành bởi người phân tích dữ liệu hoặc các quá trình khác.
  • Dữ liệu tổng hợp mức độ cao là dữ liệu được “cô đặc” và người dùng có thể truy cập dễ dàng.
Dữ liệu lưu trữ trên các hệ di sản, hoạt động, hay ngoại trú được mã hóa, cấu trúc hóa, và lưu trữ theo nhiều cách khác nhau, và qua nhiều năm người thiết kế CSDL dùng các qui ước riêng của họ để xây dựng cấu trúc CSDL. Do đó, cách lưu trữ dữ liệu trong CSDL rất không nhất quán với cách các thông tin liên quan lưu trữ trong CSDL khác.

Khi dữ liệu được truyền đến các hệ công bố (staging), nó phải được “tiền xử lý” bởi người phân tích hoặc bởi các ứng dụng được thiết kế đặc biệt cho công việc nầy. Công việc xử lý gồm lấy ra, sàng lọc, tổ hợp, thay đổi, và chuyển dữ liệu vào các tập dữ liệu mới thích hợp hơn đối với người dùng. Nó cũng có thể chứa các phương pháp kiểm tra tính toàn vẹn để bảo đảm người dùng truy cập chính xác và kịp thời.

Nét chủ yếu của quá trình nầy là tích hợp dữ liệu bằng các qui ước đặt tên phổ biến cùng với các thuộc tính, kỹ thuật mã hóa, và cấu trúc nhất quán. Ví dụ, thông tin về ngày tháng từ các CSDL khác nhau có thể ở nhiều dạng, nhưng được định dạng lại và lưu trữ dưới một dạng duy nhất trên các hệ công bố (staging).

Như đã nói, mỗi phòng ban trong công ty có hệ công bố (staging) riêng để lưu trữ dữ liệu tổng hợp vừa phải hoặc tổng hợp mức độ cao. Người phân tích CSDL thường phải tổng hợp và lấy ra từ các hệ back-end, và làm cho dữ liệu nầy có thể truy cập bởi người dùng. Hãng D2K (http://www.d2k.com) gọi những nhà phân tích nầy là “chủ trại” (farmer). Chủ trại có thể dùng các công cụ OLAP (online analytical processing) và “data mining” để có thể phát hiện các mối quan hệ lý thú và hữu ích của dữ liệu.

Các phần mềm đang xuất hiện h trợ kho dữ liệu có thể thay thế các hệ EIS (executive information system) và DSS (decision support system). Các hệ trước đây không tạo được nhiều thuận lợi trong việc cập nhật thường xuyên dữ liệu xảy ra trong kho dữ liệu và chỉ được sử dụng hạn chế bởi một số người quyết định.
Hội IDWA (International Data Warehousing Association) xác định một loại kho dữ liệu mới gọi là “operational data warehouse” (kho dữ liệu hoạt động). Kho dữ liệu nầy cho phép truy cập động đến dữ liệu back-end được xác định ở hệ front-end. Ví dụ như ngân hàng được yêu cầu xác định tất cả các tài sản của một công ty. Ngân hàng lấy ra các dữ liệu quan trọng từ nhiều hệ thống khác nhau. Sau đó tòa án có thể yêu cầu tất cả các tài khoản phải đóng băng. Đây là vấn đề nếu tất cả các tài khoản được lưu trữ trên nhiều hệ di sản khác nhau. Các nhân viên ngân hàng cần đóng từng tài khoản riêng lẻ. Với kho dữ liệu hoạt động, tất cả các tài khoản được đóng bằng một phần mềm chung.

Lập kế hoạch và Xây dụng một Kho Dữ liệu
Một tổ chức quyết định xây dựng kho dữ liệu phải đối mặt với các công việc khó khăn là làm cho dữ liệu được người dùng truy cập kịp thời, chính xác và hữu ích. Có nhiều trường hợp tạo kho dữ liệu chứa thông tin không chính xác và không thích hợp.
Quá trình xây dựng kho dữ liệu cần bắt đầu bằng lập chiến lược hoạch định cẩn thận và tạo mẫu ban đầu. Vì thiết bị phần cứng rất đắt, người phát triển cần làm việc gần gũi với người dùng để xác định chính xác những thông tin nào được yêu cầu trên hệ công bố (staging) và dữ liệu được sử dụng như thế nào. Điều nầy có thể được thực hiện bằng cách xây dựng các hệ nhỏ và phát triển dần thành hệ thống đầy đủ.
Các nhà cung cấp đã phát triển các hệ đặc biệt cho kho dữ liệu. IBM có hệ Warehouse riêng của mình, xem mục “Information Warehouse”. Các hệ CSDL song song đang xuất hiện, cải tiến truy cập CSDL. Các công cụ hình dung dữ liệu (data vizualization tool) giúp người dùng thấy được thông tin quan trọng mà họ cần. Pyramid Technology (http://www.pyramid.com) đã phát triển các hệ xử lý song song cho mục đích nầy.
Giao diện web có lẽ là một trong những tính năng quan trọng nhất đối với kho dữ liệu. Một số nhà cung cấp như D2K, đang phát triển các ứng dụng chuyển giao dữ liệu từ kho đến người dùng web. Công nghệ push được dùng để tự động cung cấp cho người dùng thông tin mới nhất mà họ quan tâm. Với công nghệ web, chỉ cần định dạng dữ liệu cho phù hợp với web browser. Người dùng từ bất cứ hệ thống nào, dùng web browser, có thể hiển thị được thông tin.
Bạn đọc cần kiểm tra lại các web site trong mục “Thông tin trên Internet” cuối phần nầy để biết thêm chi tiết. Có nhiều web site và trang trắng về chủ đề nầy từ các cá nhân và công ty. Cũng có nhiều sản phẩm làm đơn giản hóa toàn bộ quá trình nầy.

THÔNG TIN TRÊN INTERNET
The Data Warehousing Institute http://www.dw-institute.com
The International Data Warehousing Association http://www.idwa.org
Larry Greenfield’s Data Warehousing Information Center http://pwp.starnetinc.com/larryg
 
Web KT
Back
Top Bottom