## [Fájlkezelés](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files)

- A fájl valamilyen adathordozón tárolt, logikailag összefüggő adatok összessége.
- Egy fájl életciklusa a következő lépésekből áll:
 1. megnyitás
 2. olvasás, írás, pozícionálás, ...
 3. bezárás

In [1]:
# Fájl megnyitása (precízebben: létező fájl megnyitása olvasásra).
f = open('example_file.txt')

In [2]:
type(f)

_io.TextIOWrapper

In [3]:
# Fájl bezárása.
f.close()

In [4]:
# Fájl tartalmának beolvasása sztringbe.
f = open('example_file.txt')
s = f.read()
f.close()
print(s)

# example data
apple,10
pear,20
cherry,30



In [5]:
# ...ugyenez rövidebben:
s = open('example_file.txt').read()
print(s)

# example data
apple,10
pear,20
cherry,30



Megjegyzés: CPython értelmező esetén a fájl automatikusan bezáródik, ha minden hivatkozás megszűnik rá.

In [6]:
# Első 2 sor beolvasása.
f = open('example_file.txt')
print(f.readline())
print(f.readline())
f.close()

# example data

apple,10



In [7]:
# Megjegyzés: A readline a sortörést is beteszi az eredménybe.
line = open('example_file.txt').readline()
line

'# example data\n'

In [8]:
# A sortörést pl. a strip függvénnyel vághatjuk le:
line.strip()

'# example data'

In [9]:
# Fájl sorainak beolvasása sztringlistába.
open('example_file.txt').readlines()

['# example data\n', 'apple,10\n', 'pear,20\n', 'cherry,30\n']

In [10]:
# Sztring darabolása egy határoló jelsorozat mentén (tokenizálás).
line = 'aa,bb,ccc'
line.split(',')

['aa', 'bb', 'ccc']

In [11]:
# Alapértelmezés szerint a split fehér karakterek mentén darabol.
line = 'aa bb\tccc\n'
line.split()

['aa', 'bb', 'ccc']

In [12]:
# Iterálás egy szövegfájl sorain.
for line in open('example_file.txt'):
 print(line)

# example data

apple,10

pear,20

cherry,30



In [13]:
# Fájl első sorának átugrása, a további sorok tokenizálása.
f = open('example_file.txt')
f.readline() # első sor átugrása
data = []
for line in f: # végigmegyünk a további sorokon
 tok = line.strip().split(',')
 rec = tok[0], int(tok[1])
 data.append(rec)
f.close()

In [14]:
data

[('apple', 10), ('pear', 20), ('cherry', 30)]

In [15]:
# Sztring fájlba írása.
f = open('example_file_2.txt', 'w')
f.write('Apple\nBanana\n')
f.close()

In [16]:
# ...ugyanez tömörebben:
open('example_file_2.txt', 'w').write('Apple\nBanana\n')

13

(CPython értelmező esetén a fájl azonnal bezáródik, mivel nincsen rá több hivatkozás.)

In [17]:
# Celsius-Fahrenheit táblázatot tartalmazó fájl elkészítése.
file = open('celsius_fahrenheit.txt', 'w')
file.write(f' °C °F\n')
for c in range(-40, 41, 5):
 f = c * 9 / 5 + 32
 file.write(f'{c:8}{f:8}\n')
file.close()

In [18]:
# Határozzuk meg az igazi.txt szövegfájlban található szavak halmazát!
{line.strip() for line in open('igazi.txt', encoding='utf-8')}

{'a',
 'az',
 'csinálja',
 'egyáltalán',
 'fortranban',
 'gépidőelszámolást',
 'ha',
 'igazi',
 'intelligencia',
 'manipulációt',
 'megcsinálja',
 'mesterséges',
 'már',
 'programokat',
 'programozó',
 'szimbólum',
 'szövegkezelést'}

In [19]:
# Olvassuk be a matrix.txt szövegfájl tartalmát egész számok listájának listájába!
matrix = []
for line in open('matrix.txt'):
 row = [int(x) for x in line.split()]
 matrix.append(row)
matrix

[[0, 1, 1, 0, 1, 0, 1, 1, 0, 1],
 [0, 0, 1, 0, 1, 1, 0, 1, 0, 1],
 [0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
 [0, 1, 0, 0, 1, 0, 1, 1, 0, 0],
 [1, 0, 1, 1, 0, 0, 1, 0, 1, 1],
 [1, 0, 1, 0, 0, 1, 1, 0, 1, 0],
 [1, 1, 1, 0, 1, 1, 1, 0, 1, 1],
 [0, 0, 0, 0, 0, 1, 0, 1, 0, 1],
 [1, 1, 0, 1, 0, 1, 1, 1, 0, 0],
 [1, 0, 1, 0, 1, 0, 0, 1, 0, 1]]

In [20]:
# Ugyanez dupla comprehension-nel:
matrix = [[int(x) for x in l.split()]
 for l in open('matrix.txt')]
matrix

[[0, 1, 1, 0, 1, 0, 1, 1, 0, 1],
 [0, 0, 1, 0, 1, 1, 0, 1, 0, 1],
 [0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
 [0, 1, 0, 0, 1, 0, 1, 1, 0, 0],
 [1, 0, 1, 1, 0, 0, 1, 0, 1, 1],
 [1, 0, 1, 0, 0, 1, 1, 0, 1, 0],
 [1, 1, 1, 0, 1, 1, 1, 0, 1, 1],
 [0, 0, 0, 0, 0, 1, 0, 1, 0, 1],
 [1, 1, 0, 1, 0, 1, 1, 1, 0, 0],
 [1, 0, 1, 0, 1, 0, 0, 1, 0, 1]]

## Gyakorlás: Szóstatisztika

A [hamlet.txt](hamlet.txt) fájl a [Hamlet](https://hu.wikipedia.org/wiki/Hamlet,_d%C3%A1n_kir%C3%A1lyfi) angol nyelvű szövegkönyvét tartalmazza. Készítsünk programot, amely kiszámítja majd kiírja a szövegkönyvben szereplő 30 leggyakoribb szót! A szó definíciója a következő legyen:

- A szavakat a fehér karakterek (szóköz, tabulátor, soremelés) választják el egymástól.
- A kis- és nagybetűk ne számítsanak különbözőnek!
- A szó elején és végén található központozás karakterek ne számítsanak bele a szóba!

In [21]:
# Beolvasás kisbetűs szavak listájába.
words = open('hamlet.txt').read().lower().split()

In [22]:
# Központozás karakterek eltávolítása.
import string
words = [w.strip(string.punctuation) for w in words]

In [23]:
# Szógyakoriságok kiszámítása.
freq = {} # kulcs: szó, érték: előfordulások száma
for w in words:
 if w in freq: freq[w] += 1
 else: freq[w] = 1

In [24]:
freq2 = sorted([(x[1], x[0]) for x in freq.items()], reverse=True)

In [25]:
# Kiírás.
for i in range(30):
 print(freq2[i])

(1145, 'the')
(973, 'and')
(736, 'to')
(674, 'of')
(565, 'i')
(539, 'you')
(534, 'a')
(513, 'my')
(431, 'in')
(409, 'it')
(381, 'that')
(358, 'ham')
(339, 'is')
(310, 'not')
(297, 'this')
(297, 'his')
(268, 'with')
(258, 'but')
(248, 'for')
(241, 'your')
(231, 'me')
(223, 'lord')
(219, 'as')
(216, 'be')
(213, 'he')
(200, 'what')
(195, 'king')
(195, 'him')
(194, 'so')
(180, 'have')


## Gyakorlás: Premier League tabella

A [pl.txt](pl.txt) szövegfájl a Premier League 2011-12-es szezonjának eredményeit tartalmazza. Készítsünk programot, amely:

- kiírja, hogy a mérkőzések hány százalékán esett gól,
- kiírja, hogy melyik mérkőzésen esett a legtöbb gól,
- bekéri a felhasználótól n értékét, majd kiírja a bajnokság állását az n. forduló után (rendezési szempontok: pontszám, gólkülönbség, több rúgott gól)!

In [26]:
# Adatok beolvasása szótárak listájába.
games = []
f = open('pl.txt')

# első 6 sor átugrása
for i in range(6): f.readline()
 
# további sorok feldolgozása
for line in f:
 tok = line.split('\t')
 rec = {
 'round': int(tok[0]),
 'hteam': tok[1],
 'ateam': tok[2],
 'hgoals': int(tok[3]),
 'agoals': int(tok[4])
 }
 games.append(rec)
 
f.close()

In [27]:
games

[{'round': 1,
 'hteam': 'Blackburn Rovers',
 'ateam': 'Wolverhampton Wanderers',
 'hgoals': 1,
 'agoals': 2},
 {'round': 1,
 'hteam': 'Fulham FC',
 'ateam': 'Aston Villa',
 'hgoals': 0,
 'agoals': 0},
 {'round': 1,
 'hteam': 'Liverpool FC',
 'ateam': 'Sunderland AFC',
 'hgoals': 1,
 'agoals': 1},
 {'round': 1,
 'hteam': 'Queens Park Rangers',
 'ateam': 'Bolton Wanderers',
 'hgoals': 0,
 'agoals': 4},
 {'round': 1,
 'hteam': 'Wigan Athletic',
 'ateam': 'Norwich City',
 'hgoals': 1,
 'agoals': 1},
 {'round': 1,
 'hteam': 'Newcastle United',
 'ateam': 'Arsenal FC',
 'hgoals': 0,
 'agoals': 0},
 {'round': 1,
 'hteam': 'Stoke City',
 'ateam': 'Chelsea FC',
 'hgoals': 0,
 'agoals': 0},
 {'round': 1,
 'hteam': 'West Bromwich Albion',
 'ateam': 'Manchester United',
 'hgoals': 1,
 'agoals': 2},
 {'round': 1,
 'hteam': 'Manchester City',
 'ateam': 'Swansea City',
 'hgoals': 4,
 'agoals': 0},
 {'round': 1,
 'hteam': 'Tottenham Hotspur',
 'ateam': 'Everton FC',
 'hgoals': 2,
 'agoals': 0},
 {'roun

In [28]:
# A mérkőzések hány százalékán esett gól?
count = 0
for g in games:
 if g['hgoals'] + g['agoals'] > 0:
 count += 1
count / len(games) * 100

92.89473684210526

In [29]:
# ...ugyanez tömörebben:
sum([g['hgoals'] + g['agoals'] > 0 for g in games]) / len(games) * 100

92.89473684210526

In [30]:
# Melyik mérkőzésen esett a legtöbb gól?
maxgoals = 0
for g in games:
 goals = g['hgoals'] + g['hgoals']
 if goals > maxgoals:
 maxgoals = goals
 bestgame = g
bestgame

{'round': 3,
 'hteam': 'Manchester United',
 'ateam': 'Arsenal FC',
 'hgoals': 8,
 'agoals': 2}

In [31]:
# ...ugyanez tömörebben:
max([(g['hgoals'] + g['agoals'], g) for g in games], key=lambda x: x[0])[1]

{'round': 3,
 'hteam': 'Manchester United',
 'ateam': 'Arsenal FC',
 'hgoals': 8,
 'agoals': 2}

In [32]:
# ...még tömörebben:
max(games, key=lambda g: g['hgoals'] + g['agoals'])

{'round': 3,
 'hteam': 'Manchester United',
 'ateam': 'Arsenal FC',
 'hgoals': 8,
 'agoals': 2}

In [33]:
# A bajnokság állása az n. forduló után (rendezési szempontok: pontszám, gólkülönbség, több rúgott gól).
# - a győztes 3, a vesztes 0 pontot kap
# - döntetlen esetén mindkét csapat 1 pontot kap

# n bekérése
n = int(input('n: '))

n: 2


In [34]:
teams = {} # kulcs: csapatnév, érték: [pontszám, gólkülönbség, rúgott gólok száma] - az n. forduló után

# csapatok felvétele
for g in games:
 teams[g['hteam']] = [0, 0, 0]
 
# statisztikák frissítése
for g in games:
 if g['round'] <= n:
 hstats = teams[g['hteam']]
 astats = teams[g['ateam']]
 
 # pontszám frissítése
 if g['hgoals'] > g['agoals']:
 hstats[0] += 3
 elif g['hgoals'] == g['agoals']:
 hstats[0] += 1
 astats[0] += 1
 else:
 astats[0] += 3
 
 # gólkülönbség frissítése
 gdiff = g['hgoals'] - g['agoals']
 hstats[1] += gdiff
 astats[1] -= gdiff
 
 # rúgott gólok számának frissítése
 hstats[2] += g['hgoals']
 astats[2] += g['agoals']

In [35]:
teams

{'Blackburn Rovers': [0, -3, 2],
 'Fulham FC': [1, -2, 0],
 'Liverpool FC': [4, 2, 3],
 'Queens Park Rangers': [3, -3, 1],
 'Wigan Athletic': [2, 0, 1],
 'Newcastle United': [4, 1, 1],
 'Stoke City': [2, 0, 1],
 'West Bromwich Albion': [0, -2, 2],
 'Manchester City': [6, 5, 7],
 'Tottenham Hotspur': [3, -1, 2],
 'Sunderland AFC': [1, -1, 1],
 'Arsenal FC': [1, -2, 0],
 'Aston Villa': [4, 2, 3],
 'Everton FC': [0, -3, 0],
 'Swansea City': [1, -4, 0],
 'Chelsea FC': [4, 1, 2],
 'Norwich City': [2, 0, 2],
 'Wolverhampton Wanderers': [6, 3, 4],
 'Bolton Wanderers': [3, 3, 6],
 'Manchester United': [6, 4, 5]}

In [36]:
# A statisztikák frissítése, tömörebben:

teams = {} # kulcs: csapatnév, érték: [pontszám, gólkülönbség, rúgott gólok száma] - az n. forduló után
for g in games:
 teams[g['hteam']] = [0, 0, 0] # inicializálás

def update_stats(mgoals, ogoals, stats):
 if mgoals > ogoals: stats[0] += 3
 elif mgoals == ogoals: stats[0] += 1
 
 stats[1] += mgoals - ogoals
 stats[2] += mgoals

# statisztikák frissítése
for g in games:
 if g['round'] <= n:
 update_stats(g['hgoals'], g['agoals'], teams[g['hteam']]) # hazai "nézőpont"
 update_stats(g['agoals'], g['hgoals'], teams[g['ateam']]) # vendég "nézőpont"

In [37]:
teams

{'Blackburn Rovers': [0, -3, 2],
 'Fulham FC': [1, -2, 0],
 'Liverpool FC': [4, 2, 3],
 'Queens Park Rangers': [3, -3, 1],
 'Wigan Athletic': [2, 0, 1],
 'Newcastle United': [4, 1, 1],
 'Stoke City': [2, 0, 1],
 'West Bromwich Albion': [0, -2, 2],
 'Manchester City': [6, 5, 7],
 'Tottenham Hotspur': [3, -1, 2],
 'Sunderland AFC': [1, -1, 1],
 'Arsenal FC': [1, -2, 0],
 'Aston Villa': [4, 2, 3],
 'Everton FC': [0, -3, 0],
 'Swansea City': [1, -4, 0],
 'Chelsea FC': [4, 1, 2],
 'Norwich City': [2, 0, 2],
 'Wolverhampton Wanderers': [6, 3, 4],
 'Bolton Wanderers': [3, 3, 6],
 'Manchester United': [6, 4, 5]}

In [38]:
# rendezés
ranking = sorted(teams, key=lambda t: teams[t], reverse=True)

In [39]:
# formázott kiírás
idx = 0
for t in ranking:
 idx += 1
 s = teams[t]
 print(f'{idx:2}. {t:25} {s[1]:4} {s[2]:4} {s[0]:4}')

 1. Manchester City 5 7 6
 2. Manchester United 4 5 6
 3. Wolverhampton Wanderers 3 4 6
 4. Liverpool FC 2 3 4
 5. Aston Villa 2 3 4
 6. Chelsea FC 1 2 4
 7. Newcastle United 1 1 4
 8. Bolton Wanderers 3 6 3
 9. Tottenham Hotspur -1 2 3
10. Queens Park Rangers -3 1 3
11. Norwich City 0 2 2
12. Wigan Athletic 0 1 2
13. Stoke City 0 1 2
14. Sunderland AFC -1 1 1
15. Fulham FC -2 0 1
16. Arsenal FC -2 0 1
17. Swansea City -4 0 1
18. West Bromwich Albion -2 2 0
19. Blackburn Rovers -3 2 0
20. Everton FC -3 0 0
