Textovy soubor

百度西周的时候就用萝卜做菜，但那个时候它还不叫这个名字。

Textovy soubor je po?íta?ovy soubor slo?eny vyhradně ze znak?. Kromě tisknutelnych znak? a mezer mohou textové soubory obsahovat omezenou sadu ?ídicích znak?, zpravidla pouze znaky konce ?ádk? a tabulátory.

Soubory, které obsahují jiná data ne? znaky, nazyváme binárními. V binárních datech mohou mít některé byty nebo skupiny byt? vyznam po?tu, velikosti, pozice v souboru, barvy, tónu, napětí, posunutí ?i strojové instrukce. Jakákoli binární data lze (za cenu zvět?ení souboru) r?znymi zp?soby vyjád?it v textovém tvaru, nap?íklad pomocí kodéru base64. Soubory obsahující obrázky, audio, video, spustitelné programy a archivní soubory jsou kv?li úspo?e místa a pro rychlej?í zpracování zpravidla binární.

Textové dokumenty, které pro formátování textu pou?ívají pouze znaky konce ?ádku, mezery a tabulátory, ozna?ujeme jako prosty text – obvykle se jim dávají jména s p?íponou txt. Jak prosty text, tak textové soubory obecně lze vytvá?et a upravovat textovymi editory. K vytvo?ení bohatěji formátovaného textu slou?í textové procesory, které do soubor? ukládají kromě textu i informace o pou?itém písmu, rozvr?ení textu na stránce, barvách, umo?ňují vkládat obrázky apod. Kv?li těmto p?idanym informacím obvykle vysledny dokument není textovym souborem. Vlo?ení p?ídavnych informací p?i zachování textového formátu umo?ňují zna?kovací jazyky, které se pou?ívají nap?íklad pro vytvá?ení webovych stránek. Textovy formát mají také p?íkazové a dávkové soubory a zdrojové kódy po?íta?ovych program? a mohou jej mít i konfigura?ní soubory a datové soubory.

Textovy soubor lze pova?ovat za druh kontejneru. Obvykly kontejner v?ak definuje globální struktury souboru, do kterych se vkládají jednotlivé ?ásti (nap?. video, audio a titulky), zatímco fakt, ?e soubor je textovy, ur?uje zp?sob ukládání těch nejmen?ích slo?ek dat.

?lenění na ?ádky

Textovy soubor není prostou lineární posloupností znak?, ale je ?leněn na jednotlivé ?ádky. U historickych opera?ních systém? byl ?ádek reprezentován pevnym po?tem znak? (nej?astěji 80 podle po?tu pozic na nejroz?í?eněj?ích děrnych ?títcích) nebo záznamem proměnné délky, ktery za?ínal údajem o délce. U moderních opera?ních systém? mají ?ádky proměnnou délku a ka?dy ?ádek je zakon?en znakem konce ?ádku:

v Unixu znakem LF (line feed – novy ?ádek)
na po?íta?ích Macintosh znakem CR (carriage return – návrat vozíku)
v opera?ním systému MS-Windows a DOS dvojicí znak? CR, LF

Znak konec souboru

Star?í opera?ní systémy (nap?íklad CP/M) neudr?ovaly délku souboru v bytech, ale v blocích (záznamech, sektorech). Aby mohl textovy soubor kon?it jinde ne? na konci bloku, ukládal se na konec souboru znak konce souboru (End of File – EOF). V nověj?ích opera?ních systémech se znak konce souboru uplatňuje pro ukon?ení souboru ?teného z klávesnice; v opera?ním systému MS-Windows a DOS se pou?ívá znak s kódem 26 (Ctrl-Z), v Unixech znak s kódem 4 (Ctrl-D).

Kódování textovych soubor?

Podle pou?itého kódování mohou byt uvnit? textového souboru jednotlivé znaky reprezentovány

jedním bytem - nap?. ASCII, nebo 8bitové znakové sady jako Windows-1250
- tato mo?nost je nevyhodná pro mezinárodní spolupráci, proto?e neexistuje zp?sob jak spolehlivě poznat, v kterém ze desítek pou?ívanych osmibitovych kódování je dany textovy soubor; nap?. pouze pro ?e?tinu se pou?ívalo několik osmibitovych kódování (ISO8859-2, Windows-1250, kódování Kamenickych, ...)
pevnym po?tem byt? - nap?. UTF-32 (?tve?ice byt?) nebo UCS-2 (dvojice byt?)
- u těchto kódování hrozí problémy s nejednozna?ností po?adí bajt?, proto?e r?zné systémy mohou pou?ívat r?znou endianitu
posloupností byt? - nap?. UTF-8, UTF-16, nebo GB18030
- taková kódování mohou byt zpětně kompatibilní s ASCII (UTF-8, GB18030)
- kódování UTF-16 je nadmno?inou UCS-2, pro bě?né texty se chová jako kódování s pevnym po?tem bajt?, v?etně problém? s endianitou

Po roce 2000 se stále ?astěji pou?ívá znaková sada ISO/IEC 10646 (Unicode), která umo?ňuje reprezentovat v?echny v sou?asnosti bě?ně pou?ívané znaky, v?etně znak? ?ínského, japonského a korejského písma a jinych orientálních skript? (indické skripty jako sanskrt, dévanágarí, tibetské skripty atp.). Pro kódování se pou?ívá nej?astěji UCS-2 nebo UTF-16 (MS-Windows, SMS), kde jeden znak je tvo?en dvěma p?ípadně ?ty?mi byty, nebo UTF-8 (Unixy, WWW, e-mail), kde znak je tvo?en posloupností 1–4 byt?. Kv?li existenci kombina?ních znak? není vyjád?ení znak? s diakritikou jednozna?né: nap?. ?esky znak ??“ (r s há?kem) m??e byt vyjád?en jedním znakem (U+0159) nebo slo?ením znaku r (U+0072) a znaku há?ek (U+030C).

Na Unicode je rovně? vázany ?ínsky standard GB18030, ktery obsahuje v?echny jeho znaky. Zhlediska kódování obsahuje více znak? pro "privátní pou?ití", co? je v drtivě vět?ině p?ípad? nepodstatné.

Textová reprezentace binárních dat

Proto?e pro zpracování textovych soubor? existuje velké mno?ství nástroj?, a textová data lze snadno p?ená?et, bylo vyvinuto mno?ství zp?sob? pro reprezentaci binárních dat v textové podobě. Mezi nejstar?í pat?í Intel HEX, ktery se pou?ívá hlavně pro zápis obsahu paměti. Vyznamnym oborem, ktery podnítil vyvoj textovych reprezentací binárních dat byly po?íta?ové sítě a telekomunikace, p?edev?ím e-mail. Po star?ích formátech specifickych pro jednotlivé opera?ní systémy, jako je uuencode pou?ívaném v unixovych opera?ních systémech, a BinHex pou?ívanych na po?íta?ích Macintosh, p?i?el standard MIME s kódováním base64 pro binární soubory a quoted-printable pro textové soubory obsahující i jiné ne? ASCII znaky.

Obsah textovych soubor?

Obsah textovych soubor? m??e byt r?znym zp?sobem strukturován. Pro ukládání tabulkovych dat se pou?ívají relativně jednoduché CSV soubory ?leněné na ?ádky a polo?ky. O něco slo?itěj?í je struktura konfigura?ních soubor? ve formátu INI. Pomocí standardu MIME lze textově reprezentovat multimediální soubory. Soubory pou?ívající zna?kovací jazyky mohou byt velmi slo?ité, popsané gramatikou vyu?ívající rekurze. Jinym p?íkladem reprezentace slo?ité spojové datové struktury pomocí poměrně jednoduchého textového souboru je formát GEDCOM pro vyměnu genealogickych dat.

Externí odkazy

Obrázky, zvuky ?i videa k tématu textovy soubor na Wikimedia Commons
Prosty text
Textovy editor
Zna?kovací jazyk
HTML
XML
CSV
Zdrojovy kód
C
Verzování, Git
Diff – nástroj pro porovnávání textovych soubor?

匪夷所思是什么意思	茯苓长什么样子图片	火烈鸟为什么是红色的	反酸水吃什么药	吃过饭后就想拉大便是什么原因
梅子和杏有什么区别	什么样的笑脸	bbc是什么意思	二道贩子是什么意思	拉屎像拉水一样为什么
猫爪草长什么样	肉桂是什么味道	rag是什么	法国公鸡是什么牌子	乙肝五项45阳性是什么意思
己亥是什么意思	左传是一部什么体史书	柔顺剂有什么用	纳征是什么意思	早起胃疼是什么原因导致的

经信局是干什么的fenrenren.com	办身份证需要准备什么hcv7jop4ns6r.cn	养尊处优的意思是什么hcv8jop9ns4r.cn	60年属什么0735v.com	上海青是什么菜hcv9jop4ns2r.cn
女儿茶属于什么茶bjhyzcsm.com	胃上面是什么器官hcv9jop2ns4r.cn	孩子呼吸道感染吃什么药效果最好hcv9jop4ns8r.cn	咽喉炎挂什么科hcv8jop6ns2r.cn	血糖高是什么原因引起hcv7jop9ns4r.cn
左眼皮一直跳是什么意思hcv7jop5ns6r.cn	肠胃不好吃什么菜比较好hcv8jop2ns2r.cn	最好的避孕方法是什么hcv7jop9ns0r.cn	阴道口痒用什么药好hcv9jop1ns7r.cn	四不念什么clwhiglsz.com
六月种什么菜hcv9jop4ns8r.cn	什么药可以催月经来hcv8jop7ns3r.cn	爱啃指甲是什么原因hcv8jop4ns0r.cn	晚上老咳嗽是什么原因hlguo.com	蹉跎是什么意思bysq.com