江苏连云港:开展“青声禁毒 进校企村居”项目启动仪式
Textovy soubor je po?íta?ovy soubor slo?eny vyhradně ze znak?. Kromě tisknutelnych znak? a mezer mohou textové soubory obsahovat omezenou sadu ?ídicích znak?, zpravidla pouze znaky konce ?ádk? a tabulátory.
Soubory, které obsahují jiná data ne? znaky, nazyváme binárními. V binárních datech mohou mít některé byty nebo skupiny byt? vyznam po?tu, velikosti, pozice v souboru, barvy, tónu, napětí, posunutí ?i strojové instrukce. Jakákoli binární data lze (za cenu zvět?ení souboru) r?znymi zp?soby vyjád?it v textovém tvaru, nap?íklad pomocí kodéru base64. Soubory obsahující obrázky, audio, video, spustitelné programy a archivní soubory jsou kv?li úspo?e místa a pro rychlej?í zpracování zpravidla binární.
Textové dokumenty, které pro formátování textu pou?ívají pouze znaky konce ?ádku, mezery a tabulátory, ozna?ujeme jako prosty text – obvykle se jim dávají jména s p?íponou txt
. Jak prosty text, tak textové soubory obecně lze vytvá?et a upravovat textovymi editory. K vytvo?ení bohatěji formátovaného textu slou?í textové procesory, které do soubor? ukládají kromě textu i informace o pou?itém písmu, rozvr?ení textu na stránce, barvách, umo?ňují vkládat obrázky apod. Kv?li těmto p?idanym informacím obvykle vysledny dokument není textovym souborem. Vlo?ení p?ídavnych informací p?i zachování textového formátu umo?ňují zna?kovací jazyky, které se pou?ívají nap?íklad pro vytvá?ení webovych stránek. Textovy formát mají také p?íkazové a dávkové soubory a zdrojové kódy po?íta?ovych program? a mohou jej mít i konfigura?ní soubory a datové soubory.
Textovy soubor lze pova?ovat za druh kontejneru. Obvykly kontejner v?ak definuje globální struktury souboru, do kterych se vkládají jednotlivé ?ásti (nap?. video, audio a titulky), zatímco fakt, ?e soubor je textovy, ur?uje zp?sob ukládání těch nejmen?ích slo?ek dat.
?lenění na ?ádky
[editovat | editovat zdroj]Textovy soubor není prostou lineární posloupností znak?, ale je ?leněn na jednotlivé ?ádky. U historickych opera?ních systém? byl ?ádek reprezentován pevnym po?tem znak? (nej?astěji 80 podle po?tu pozic na nejroz?í?eněj?ích děrnych ?títcích) nebo záznamem proměnné délky, ktery za?ínal údajem o délce. U moderních opera?ních systém? mají ?ádky proměnnou délku a ka?dy ?ádek je zakon?en znakem konce ?ádku:
- v Unixu znakem LF (line feed – novy ?ádek)
- na po?íta?ích Macintosh znakem CR (carriage return – návrat vozíku)
- v opera?ním systému MS-Windows a DOS dvojicí znak? CR, LF
Znak konec souboru
[editovat | editovat zdroj]Star?í opera?ní systémy (nap?íklad CP/M) neudr?ovaly délku souboru v bytech, ale v blocích (záznamech, sektorech). Aby mohl textovy soubor kon?it jinde ne? na konci bloku, ukládal se na konec souboru znak konce souboru (End of File – EOF). V nověj?ích opera?ních systémech se znak konce souboru uplatňuje pro ukon?ení souboru ?teného z klávesnice; v opera?ním systému MS-Windows a DOS se pou?ívá znak s kódem 26 (Ctrl-Z), v Unixech znak s kódem 4 (Ctrl-D).
Kódování textovych soubor?
[editovat | editovat zdroj]Podle pou?itého kódování mohou byt uvnit? textového souboru jednotlivé znaky reprezentovány
- jedním bytem - nap?. ASCII, nebo 8bitové znakové sady jako Windows-1250
- tato mo?nost je nevyhodná pro mezinárodní spolupráci, proto?e neexistuje zp?sob jak spolehlivě poznat, v kterém ze desítek pou?ívanych osmibitovych kódování je dany textovy soubor; nap?. pouze pro ?e?tinu se pou?ívalo několik osmibitovych kódování (ISO8859-2, Windows-1250, kódování Kamenickych, ...)
- pevnym po?tem byt? - nap?. UTF-32 (?tve?ice byt?) nebo UCS-2 (dvojice byt?)
- u těchto kódování hrozí problémy s nejednozna?ností po?adí bajt?, proto?e r?zné systémy mohou pou?ívat r?znou endianitu
- posloupností byt? - nap?. UTF-8, UTF-16, nebo GB18030
- taková kódování mohou byt zpětně kompatibilní s ASCII (UTF-8, GB18030)
- kódování UTF-16 je nadmno?inou UCS-2, pro bě?né texty se chová jako kódování s pevnym po?tem bajt?, v?etně problém? s endianitou
Po roce 2000 se stále ?astěji pou?ívá znaková sada ISO/IEC 10646 (Unicode), která umo?ňuje reprezentovat v?echny v sou?asnosti bě?ně pou?ívané znaky, v?etně znak? ?ínského, japonského a korejského písma a jinych orientálních skript? (indické skripty jako sanskrt, dévanágarí, tibetské skripty atp.). Pro kódování se pou?ívá nej?astěji UCS-2 nebo UTF-16 (MS-Windows, SMS), kde jeden znak je tvo?en dvěma p?ípadně ?ty?mi byty, nebo UTF-8 (Unixy, WWW, e-mail), kde znak je tvo?en posloupností 1–4 byt?. Kv?li existenci kombina?ních znak? není vyjád?ení znak? s diakritikou jednozna?né: nap?. ?esky znak ??“ (r s há?kem) m??e byt vyjád?en jedním znakem (U+0159) nebo slo?ením znaku r (U+0072) a znaku há?ek (U+030C).
Na Unicode je rovně? vázany ?ínsky standard GB18030, ktery obsahuje v?echny jeho znaky. Zhlediska kódování obsahuje více znak? pro "privátní pou?ití", co? je v drtivě vět?ině p?ípad? nepodstatné.
Textová reprezentace binárních dat
[editovat | editovat zdroj]Proto?e pro zpracování textovych soubor? existuje velké mno?ství nástroj?, a textová data lze snadno p?ená?et, bylo vyvinuto mno?ství zp?sob? pro reprezentaci binárních dat v textové podobě. Mezi nejstar?í pat?í Intel HEX, ktery se pou?ívá hlavně pro zápis obsahu paměti. Vyznamnym oborem, ktery podnítil vyvoj textovych reprezentací binárních dat byly po?íta?ové sítě a telekomunikace, p?edev?ím e-mail. Po star?ích formátech specifickych pro jednotlivé opera?ní systémy, jako je uuencode pou?ívaném v unixovych opera?ních systémech, a BinHex pou?ívanych na po?íta?ích Macintosh, p?i?el standard MIME s kódováním base64 pro binární soubory a quoted-printable pro textové soubory obsahující i jiné ne? ASCII znaky.
Obsah textovych soubor?
[editovat | editovat zdroj]Obsah textovych soubor? m??e byt r?znym zp?sobem strukturován. Pro ukládání tabulkovych dat se pou?ívají relativně jednoduché CSV soubory ?leněné na ?ádky a polo?ky. O něco slo?itěj?í je struktura konfigura?ních soubor? ve formátu INI. Pomocí standardu MIME lze textově reprezentovat multimediální soubory. Soubory pou?ívající zna?kovací jazyky mohou byt velmi slo?ité, popsané gramatikou vyu?ívající rekurze. Jinym p?íkladem reprezentace slo?ité spojové datové struktury pomocí poměrně jednoduchého textového souboru je formát GEDCOM pro vyměnu genealogickych dat.
Externí odkazy
[editovat | editovat zdroj]Obrázky, zvuky ?i videa k tématu textovy soubor na Wikimedia Commons
- Prosty text
- Textovy editor
- Zna?kovací jazyk
- HTML
- XML
- CSV
- Zdrojovy kód
- C
- Verzování, Git
- Diff – nástroj pro porovnávání textovych soubor?