Prezentowane materiały są przeznaczone dla uczniów szkół ponadgimnazjalnych Autor artykułu: mgr Jerzy Wałaszek |
©2014 mgr
Jerzy Wałaszek
|
Sposoby reprezentacji znaków i łańcuchów znakowychASCIIWe współczesnych językach programowania znaki są podstawowym typem danych. W pamięci komputera znak jest przechowywany w postaci liczby, którą nazywamy kodem znaku (ang. character code). Każdy znak posiada swój własny kod. Aby różne urządzenia systemu komputerowego mogły w ten sam sposób interpretować kody znaków, opracowano kilka standardów kodowania liter. Bardzo rozpowszechniony jest standard ASCII:
ASCII – American Standard Code for Information
Interchange – Amerykański Standardowy Kod do Wymiany Informacji.
Znaki są zapamiętywane w postaci 8 bitowych kodów (pierwotnie było to 7 bitów, lecz później standard ASCII został poszerzony na 8 bitów, w których znalazły się różne znaki narodowe). Taki sposób reprezentacji znaków jest dzisiaj bardzo wygodny, ponieważ podstawowa komórka pamięci komputera IBM przechowuje właśnie 8 bitów. Dzięki temu znaki dobrze mieszczą się w pamięci. Typ ten jest w C++ reprezentowany przez char lub unsigned char. W pierwszym typie kody znaków spoza standardowego zestawu ASCII są ujemne (traktuje się je jako liczbę U2) i przyjmują wartości od -128 do -1. W drugim typie kody znaków spoza standardowego zestawu ASCII mają wartości od 128 do 255.
Przyjrzyjmy się dokładniej kodom ASCII w postaci binarnej: Podstawowy standard ASCII definiuje kody w zakresie od 0 do 127. Bitowo jest to 7 najmłodszych bitów kodu. Pozostałe kody od 128 do 255 to rozszerzony zestaw ASCII:
Kody ASCII 0-31W zakresie kodów od 0 do 31 są znaki sterujące
(ang. control characters). Spełniają one różne
funkcje.
Np. kod 13 oznacza przejście do następnej linii, kod 7 to dźwięk dzwonka.
Większość z tych kodów (za wyjątkiem 0,7,8,9,10 i 13) produkuje w konsoli znakowej użyteczne znaki:
Kody 32-127W tym zakresie mamy podstawowe znaki pisarskie. Kod
32 oznacza spację.
Cyfry mają kody od 48 (0) do 57 (9).
W powyższym kodzie xxxx jest wartością binarną cyfry: 0000 = 0, 0001 = 1, 0010 = 2, ..., 1001 = 9.
Litery duże mają kody od 65 (A) do 89 (Z). Litery małe mają kody od 97 (a) do 122 (z).
W powyższych kodach xxxxx oznacza binarny numer litery od 00001 = 1 do 11010 = 26. Zwróć uwagę, że litery małe różnią się od dużych bitem b5. Oznacza to, że np. kod litery 'a' jest większy o 32 od kodu litery 'A'. Aby z kodu dużej litery otrzymać kod małej, wystarczy ustawić na 1 bit b5. Podobnie, aby z kodu małej litery otrzymać kod duże, wystarczy wyzerować bit b5.
Kody 128-255Są to rozszerzone kody ASCII. Ich interpretacja zależy od
tzw. strony kodowej, która jest wybrana w systemie. Kody znaków
rozszerzonych mogą być traktowane jako liczby ujemne.
W polskich systemach Windows w konsoli znakowej jest zwykle wykorzystywana strona kodowa CP852. Niestety, sam system Windows wykorzystuje standard Windows 1250, w którym polskie literki posiadają inne kody niż ich odpowiedniki w konsoli znakowej.
Konsekwencją tego faktu jest to, że program napisany w edytorze pracującym w Windows nie będzie poprawnie wyświetlał polskich znaków (tablica znakowa s zawiera kody polskich znaków Windows 1250):
Należy dokonać odpowiedniej konwersji (tablica znakowa t zawiera poprawne kody polskich znaków dla konsoli CP852):
Problemy te znikają, jeśli zrezygnujemy z polskich znaków w trybie konsoli lub będziemy tworzyć tylko aplikacje dla GUI w Windows. Należy wspomnieć, że w systemie Linux nie występuje ten problem, ponieważ kodowanie polskich znaków jest jednolite w całym systemie (ale z kolei jest to jeszcze inna strona kodowa – ISO-8859-2, która jest standardem ogólnoświatowym). Jak widać, polscy programiści lekko nie mają.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Przechowywanie tekstu
Tekst jest przechowywany w pamięci w postaci ciągu znaków. Na końcu tego
ciągu umieszczany jest znak o kodzie 0 (NUL).
Ten sposób zapisu tekstów nosi nazwę cstring
(ang. łańcuch znakowy typu C). Jest on powszechnie stosowany w
języku C++.
Teksty możemy przechowywać w tablicach znakowych:
Zwróć uwagę, że przy inicjalizacji tablicy:
char s[] = "...";
automatycznie zostaje wstawiony na koniec znak NUL. Tablica przyjmuje taki rozmiar, aby pomieścić wszystkie znaki tekstu wraz ze znakiem NUL.
Tekst można odczytać z konsoli do tablicy znakowej za pomocą strumienia cin. Jednakże należy się przy tym zatroszczyć, aby tablica miała odpowiednio duży rozmiar. Prosty odczyt ze strumienia cin zwraca jeden wyraz, ponieważ spacja jest traktowana jako separator.
Pracując w konsoli, możesz bez problemu wprowadzać polskie znaki. Musisz jedynie pamiętać, iż posiadają one kody CP852, a nie Windows 1250. Będzie to miało znaczenie przy porównywaniu znaków. Jeśli chcesz odczytać cały wiersz znaków, to musisz skorzystać z funkcji składowej strumienia cin o nazwie getline(). Funkcja ta posiada następujące parametry:
cin.getline(s,n); lub
s – tablica znakowa lub wskaźnik do danych char. Tutaj
zostanie umieszczony wiersz znaków.
Problem może pojawić się, jeśli czytasz naprzemiennie z cin oraz z cin.getline(). Sprawdź poniższy program. Odczytuje on najpierw liczbę z cin. Następnie czyta wiersz znaków za pomocą funkcji getline(). I na koniec ponownie czyta liczbę z cin.
Co tutaj się stało? Gdy wprowadziłeś pierwszą liczbę (u mnie 20), to komputer nie zaczekał na wprowadzenie wiersza, lecz od razu przeszedł do odczytu drugiej liczby. Dlaczego? Otóż strumień cin po odczycie pierwszej liczby pozostawił w sobie znak końca wiersza '\n'. Gdy teraz wywołaliśmy funkcję getline(), to natrafiła ona od razu na ten znak i zakończyła odczyt. W efekcie użytkownik nie miał szansy wprowadzić swojego tekstu. Funkcja getline() usunęła ze strumienia znak '\n', a program przeszedł do odczytu drugiej liczby. Jak rozwiązać ten problem? Musimy użyć funkcji ignore(), która pobiera ze strumienia cin zadaną liczbę znaków, aż do napotkania znaku ograniczającego:
cin.ignore(n,d); n – liczba znaków do
pominięcia.
Ze strumienia cin możemy również pobierać pojedyncze znaki oraz ich ciągi za pomocą funkcji get():
kod = cin.get(); // zwraca kod ASCII znaku cin.get(c); // umieszcza znak w zmiennej znakowej c cin.get(s,n); // odczytuje n-1 znaków do tablicy znakowej s, dodając na końcu NUL cin.get(s,n,d); // jak wyżej, lecz do napotkania znaku ograniczającego d
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
PodsumowanieZmienna znakowa:
char c; // kody rozszerzone ASCII -1...-128 unsigned char c; // kody rozszerzone ASCII 128...256
Tekst jest utworzony z ciągu znaków zakończonych kodem NUL. Tablica znakowa:
char s[liczba_znaków + 1]; unsigned char s[liczba_znaków + 1;
Inicjalizacja tablicy znakowej tekstem (znak NUL jest automatycznie dołączany na koniec tekstu, a tablica przyjmuje odpowiedni rozmiar):
char s[] = "dowolny tekst"; unsigned char s[] = "dowolny tekst";
Zapis do strumienia cout:
cout << (int) c; // kod znaku cout << (int)(unsigned char) c; // kod znaku rozszerzonego ASCII cout << (char) kod; // znak o danym kodzie cout << s; // zapis tablicy znakowej
Odczyt ze strumienia cin:
cin >> s; // odczyt wyrazu, spacja i /n są znakami rozdzielającymi kod = cin.get(); // kod znaku ze strumienia cin.get(c); // znak ze strumienia cin.get(s,n); // odczyt n znaków ze strumienia do tablicy s cin.get(s,n,d); // odczyt do n znaków do tablicy s, aż do napotkania znaku d cin.getline(s,n); // odczyt do n znaków do tablicy s, aż do napotkania \n cin.getline(s,n,d); // odczyt do n znaków do tablicy s, aż do napotkania znaku d cin.ignore(n,d); // usuwa ze strumienie do n znaków aż do napotkania znaku d, który również usuwa |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Proste zadania
|
I Liceum Ogólnokształcące |
Pytania proszę przesyłać na adres email: i-lo@eduinf.waw.pl
W artykułach serwisu są używane cookies. Jeśli nie chcesz ich otrzymywać,
zablokuj je w swojej przeglądarce.
Informacje dodatkowe