Reset Latar Belakang Tukar Latar Belakang Tukar Latar Belakang Tukar Latar Belakang Font Kecil Font Pertengahan Font Besar Font Hitam Font Merah Font Biru Font Hijau Font Kuning Capaian Kurang Upaya (OKU) / Disability Access                                                                                            Bahasa Melayu | English                            

PEMAKLUMAN

dddd

  DIMAKLUMKAN BAHAWA PERTANDINGAN MENCIPTA LAGU TEMA BULAN BAHASA KEBANGSAAN DALAM YOUTUBE DAN PERTANDINGAN MENCIPTA IKLAN KEMPEN BULAN BAHASA KEBANGSAAN DITANGGUHKAN ATAS SEBAB-SEBAB YANG TIDAK DAPAT DIELAKKAN. PIHAK KAMI MEMOHON MAAF ATAS SEGALA KESULITAN.

  dddd

DEWAN BAHASA DAN PUSTAKA


  Selamat Datang Pelawat  

  Jumaat, 21hb Julai 2017  

Perkhidmatan > Produk Penyelidikan Bahasa Melayu > Pengkomputeran Bahasa > Pengkalan Data Korpus

 

Pangkalan Data Korpus

 

 

Pangkalan Data Korpus terdiri daripada Sistem Korpus dan Data Korpus

Sistem Korpus

Sistem Korpus merupakan perisian yang dibangunkan oleh kumpulan penyelidik Unit Terjemahan Melalui Komputer di Universiti Sains Malaysia dalam rangka kerjasama USM-DBP berlandaskan Memorandum Persefahaman yang termeterai pada 1993.

Sistem korpus ini dilengkapi kemudahan untuk mencapai bentuk-bentuk kata, kata terbitan dan rangkai kata dan memaparkan hasil carian tersebut dalam bentuk baris-baris konkordans, dengan kata kunci carian tersusun dan terisih di tengah-tengah baris.
 
Pencarian berdasarkan kata kunci ini boleh dibuat melalui pelbagai teknik carian, sesuai dengan maklumat yang ingin disarikan dan diperagakan. Teknik carian yang lazim adalah seperti yang berikut;

a) Capaian melalui Kata Kunci (Bentuk Kata)
Sesuatu bentuk kata boleh dicapai dengan menaipkan kata tersebut. Misalnya, capaian yang menggunakan kata kunci "kata" akan memaparkan semua kehadiran bentuk ini dalam sesuatu korpus teks.
(Lihat contoh paparan skrin)

b) Capaian melalui Kata Kunci serta simbol bebas " * " dan " ? "
Pencapaian sesuatu bentuk kata boleh juga dilaksanakan dengan menggunakan kata kunci serta simbol bebas " * " dan " ? " (dengan " * " mewakili satu atau lebih aksara manakala   " ? " mewakili satu aksara).

Sebagai contoh, pencarian dengan kata kunci "*kata*" akan memaparkan bentuk-bentuk seperti  "kata, "perkataan", "berkata" dan sebagainya. (Lihat contoh paparan skrin)

Pencarian dengan kata kunci "b?t?l" akan memaparkan bentuk-bentuk seperti "botol", "batal", "betul"  dan sebagainya. (Lihat contoh paparan skrin)
 

Analisis Teks
Sistem korpus ini juga dilengkapi dengan modul untuk menganalisis teks (dikenali sebagai MATA, Malay Text Analysis) yang mampu menghasilkan statistik tentang sesebuah teks seperti yang berikut:

(a)  Bilangan perkataan
(b)  Kekerapan perkataan
(c)  Bilangan dan senarai kata akar
(d)  Bilangan dan senarai kata baru, dan
(e)  Bilangan dan senarai kata tak sahih.

Data Korpus

TAKRIFAN

Secara umum, korpus boleh ditakrifkan sebagai "himpunan makalah (tulisan dsb) mengenai sesuatu perkara tertentu atau kumpulan bahan untuk kajian (seperti kumpulan contoh penggunaan kata dll)" (Kamus Dewan Edisi Ketiga, 1994). Namun demikian, dalam linguistik moden, "korpus" mempunyai pengertian tambahan sebagai bahan yang "terbacakan dan terolahkan komputer".

 Ini bermakna korpus yang dikumpulkan dan diselenggarakan dalam projek ini merupakan  kumpulan teks digital yang boleh diproseskan dengan teknik dan kaedah linguistik komputeran untuk menampilkan pola dan hubung kait sesuatu perkataan dengan perkataan lain.
 

DATA

Data korpus boleh bersumberkan bentuk tulisan atau lisan. Bagaimanapun, usaha semasa program ini masih tertumpu pada bahan tulisan daripada buku, majalah, surat khabar, monograf, dokumen, kertas kerja, surat, risalah dan sebagainya.

Setiap jenis wacana ini dikumpulkan dalam subkorpus yang berasingan. Saiz mutakhir (sehingga 25 November 2008) Pangkalan Data Korpus adalah lebih kurang 135 juta perkataan yang terkandung dalam sepuluh subkorpus seperti yang berikut:

Bil Subkorpus Jumlah Semasa Jenis Bahan
1. Buku    31,580,305 novel, buku ilmiah, buku umum, buku teks
2. Majalah      14,406,888 umum meliputi pelbagai bidang
3. Akhbar    80,029,347 harian, tabloid,mingguan
4. Terjemahan (buku)            2,021,191 buku ilmiah, buku umum
5. Efemeral 290,207 risalah, brosur, iklan
6. Drama               404,176 drama yang dibukukan
7. Puisi               116,428 puisi yang dibukukan
8. Kad Bahan          3,130,641 kad kutipan untuk penyusunan Kamus Dewan
9. Teks Tradisional            2,825,329 Teks lama dalam bentuk hikayat, cerita rakyat
10. Buku Teks          1,095,726 Buku Teks Peringkat Rendah dan Menengah

 

MATLAMAT DAN HASIL- HASIL KAJIAN BERDASARKAN KORPUS

Pangkalan ini dibina dengan tujuan untuk menyediakan data penyelidikan yang dapat
dimanfaatkan untuk penyusunan kamus, penyelidikan tatabahasa, dan bentuk-bentuk kajian kebahasaan yang lain.  Contoh-contoh kajian yang dilakukan berdasarkan korpus dapat dilihat dalam kertas kerja yang berikut.  

 

Bil Kertas Kerja Catatan
1 Perempuan, Wanita Dan .....: Satu kajian hubungan leksikal berdasarkan korpus

(Dibentangkan dalam Seminar Perkamusan Melayu pada 20 dan 21 Disember 1994 di Balai Seminar,  Dewan Bahasa dan Pustaka)

2

Ianya benar 

(Dibentangkan dalam Persidangan Antarabangsa Pengajian Melayu/Indonesia : Ancangan  Pembingkas Berdaya Cipta pada 21-23 Jun 1999 di Prince of Songkla University, Pattani,Thailand

3

Melayari Samudera Maya, Mencari Mutiara Kata: Suatu Metodologi Pemerolehan Kata   Baru Berdasarkan Korpus 

(Dibentangkan dalam Persidangan  Linguistik Asean 1 pada  14-16 November 2000 di 
 Universiti Kebangsaan Malaysia) 

4

KIM VS KIM: Kajian Leksis Berdasarkan Analisis Teks Selari

(Dibentangkan dalam Seminar Sehari Jabatan Bahasa Melayu dan Terjemahan pada 7 Februari 2001 di Universiti Kebangsaan Malaysia)

5

Istilah Sains Dalam Teks Bacaan Umum 

(Diterbitkan dalam Jurnal Rampak Serantau Bil. 8 2001)

6

Penggunaan Istilah Teknologi Maklumat dan Komunikasi: Suatu Kajian Berdasarkan Teks Akhbar Harian    

(Dibentangkan dalam Seminar Cabaran dan Penulisan Sains dan Teknologi Dalam Alaf Baru pada 25 - 26 April 2001 di Universiti Kebangsaan Malaysia)

7

Soal Hati: Suatu Kajian Korpus

(Dibentangkan dalam Konvensyen Bahasa Kebangsaan 2001 pada 2 - 4 Mei 2001 di Hotel Nikko, Kuala Lumpur)

8

Yang Selari dan Yang Setanding:   
Peranan Korpus dalam Penterjemahan  
 

(Dibentangkan dalam Persidangan Penterjemahan Antarabangsa Ke-8 pada 3?5 September 2001 di Langkawi, Kedah)

9

Baik Buruk Byte dan Bait 

Diterbitkan dalam Jurnal Rampak Serantau Bil. 9 2002)

10

'PUN', Kepelbagaian Makna Berdasarkan Teks  
Sejarah Melayu 
 

Dibentangkan dalam Sanggar Leksikologi dan Leksikografi Bahasa Melayu pada 16 - 17 Disember 2002 di Universitas Indonesia, Depok, Jakarta, Indonesia

Yang Dini dan Yang Kini:Kisah Dua Naskhah 

 

Dibentangkan dalam Sanggar Leksikologi dan Leksikografi Bahasa Melayu pada 16 - 17 Disember 2002 di Universitas Indonesia, Depok, Jakarta, Indonesia

11

Pengkomputeran Bahasa Melayu:Kegiatan, Kerjasama dan Kemajuan   

Dibentangkan dalam Seminar "Membawa Indonesia ke era Globalisasi Melalui Teknologi Bahasa, Komunikasi dan Informasi" pada 18 September 2003 di Penerapan dan Penelitian Teknologi (BBPT), Jakarta,  Indonesia 
 

12

Pangkalan Data Korpus DBP:   
Perancangan, Pembinaan dan Pemanfaatan   
 

Dibentangkan dalam Seminar Sehari Linguistik "Nahu Praktis Bahasa Melayu:Analisis Data Korpus" pada 30 Mac 2004 di Universiti Kebangsaan Malaysia

13 Kesejagatan Bahasa Melayu Melalui Teknologi Diterbitkan dalam Majalah Dewan Bahasa Mac 2004
14 Bahasa Sukuan: Suatu Kajian Analisis Terhadap Pengaruhnya  dalam Bahasa Melayu 

Dibentangkan dalam Persidangan Antarabangsa ATMA dan IKON Universiti Kebangsaan Malaysia "The Languages and Literatures of Western Borneo: 144 Years of Research pada 31 Januari hingga 2 Februari 2005 di Universiti Kebangsaan Malaysia

15 Analisis -ik, -ikal dan -is dalam bahasa Melayu berdasarkan data korpus

Dibentangkan dalam Seminar Kebangsaan Linguistik "Kajian Bahasa dan Korpus:Dimensi Linguistik Semasa" pada 12 -13 April 2005 di Universiti Kebangsaan Malaysia

16 Suara sasterawan, suara awam

Dibentangkan dalam Seminar Kebangsaan Linguistik "Kajian Bahasa dan Korpus:Dimensi Linguistik Semasa" pada 12 -13 April 2005 di Universiti Kebangsaan Malaysia

17 Sinonim Tetapi Tidak Seerti Diterbitkan dalam Majalah Pelita Bahasa Mei 2005
18 Lexical Associations of Malayness in Hikayat Abdullah: A Collocational Analysis Diterbitkan di dalam Research Journal of Applied Sciences 5(6): 429-433, 2010. ISSN: 1815-932X. Medwell Journals, 2010



 

 
: 831687
 
 
Cetak versi format pencetak untuk halaman ini  Cetak halaman ini   E-Mel halaman ini kepada kawan  E-mel halaman Ini
 
 

 Kaji selidik

 

Tahap perkhidmatan yang disediakan di Laman DBP(1/11/2014-sekarang)

 

Sangat memuaskan

Memuaskan

Tidak memuaskan

Sangat tidak memuaskan

 

Lihat Bancian Lepas

  13198809131988091319880913198809131988091319880913198809131988091319880913198809 
Hari Ini 170
Semalam 1107
Minggu Ini 6299
Minggu Lepas 7333
Bulan Ini 22033
Bulan Lepas 26407
Semua 13198809

Dewan Bahasa dan Pustaka
Menara DBP,
Jalan Dewan Bahasa,
50460 Kuala Lumpur.
Telefon:    03-2147 9000
Faksimile: 03-2147 9601

 [Khas Untuk Pengguna QR_Code]

Tarikh akhir kemas kini: 13 Jun 2017

Sekiranya perkhidmatan laman web tidak memuaskan/sangat tidak memuaskan  sila komen di maklum balas.

                    Hubungi Kami | Maklum Balas| Soalan Lazim | Peta Laman | Bantuan | Mobil Web | Dasar Privasi |Dasar Keselamatan| Notis | Hak cipta |Pasukan Web |W3C               

 
Laman Rasmi Kerajaan Malaysia Multimedia Super Corridor Unit Pemodenan Tadbiran dan Perancangan Pengurusan Malaysia Jabatan Perkhidmatan Awam Kementerian Pelajaran Malaysia Pasukan Petugas Khas Pemudahcara Perniagaan

Penggunaan laman web rasmi Dewan Bahasa dan Pustaka tertakluk kepada Garis Panduan Portal myGovernment dan Laman Web/Portal Agensi-agensi Sektor Awam Paparan terbaik Internet Explorer 8.0 ke atas atau Google Chrome, resolusi 1024 x 768 pixel.