Clase 7


  • Regex
  • XML


  • ¿Qué? Cadenas que describen un conjunto
  • ¿Cómo? Utilizando símbolos y operadores
  • ¿Para qué? Búsqueda y reemplazo de cadenas


  • Literales del lenguaje + operadores


  • Alternancia: A o B
  • Cuantificación: Cuánto espero de un elemento
  • Agrupación: Elementos que se puedan referenciar


  • ASCII (8 bit char) - Unicode


import re
In [15]:
import re
In [31]:
import re

match = re.match("a(b?)+","a")
if not match:
    raise ValueError("No match :(")
print match
print match.string
print match.start()
print match.end()
<_sre.SRE_Match object at 0x1043937b0>
<_sre.SRE_Pattern object at 0x10418d8c8>

Sintaxis expresiones regulares

  • Una expresión regular (o RE) especifica un set de cadenas que 'matchean' con ella
  • Las funciones en este modulo permiten chequear si una cadena en particular 'matchea' con una expresion regular dada (o viceversa)
  • Las expresiones regulares pueden contener caracteres especiales u ordinarios.
  • Los ordinarios son por ejemplo: 'A', 'a' o '0' son las RE mas comunes y coinciden con ellas mismas.
  • Se pueden concatenar varios caracteres ordinarios por ejemplo: 'last' que coincide con la cadena 'last'.

Caracteres especiales

Los siguientes caracteres especiales matchean con:

  • . con cualquier caracter excepto newline
  • ^ con el comienzo de una cadena, si se encuentra en modo MULTILINE también lo hace con cada newline
  • $ con el fin de la cadena, o justo antes de una newline
  • * matchea 0 o mas veces con la RE que lo precede: ab* matchea con a, ab, o a seguido de cualquier número de b's
  • + matchea mas de 0 veces con la RE que lo precede: ab+ matchea con ab, o a seguido de cualquier número (distinto de 0) de b's
  • ? ab? con a o ab
  • {m} exactamente con m copias de la RE que lo precede. a{6} solo matchea con aaaaaa
  • {m,n}? matchea desde m a n repeticiones, tratando de que sean la menor cantidad posible. Ej: aaaaaa, a{3,5} con aaaaa mientras que a{3,5}? solo con aaa
  • \ permite matchear caracteres especiales como *, ?
  • A|B siendo A y B cualquier RE, matchea con A o B. Para matchear el literal | usar \|

Como tener un set de caracteres como RE

  • [] permite indicar un set de caracteres
  • Pueden ser listados individualmente [amk] matchea con a o m o k
  • [-] para indicar rangos: [a-z] matchea con cualquier caracter entre a y z, [0-5][0-9] con cualquier numero de dos dígitos desde 00 a 59
  • Los caracteres especiales pierden su significado dentro de sets

Match vs Search:

  • re.match(patron, cadena, flags): busca coincidencias solo al principio de la cadena
  •, cadena, flags): busca coincidencias en toda la cadena
In [35]:
import re

cadena = "Cats are smarter than dogs"
#matchObj = re.match('Cat', cadena)
#matchObj = re.match('dogs', cadena)
matchObj ='dogs', cadena)
if matchObj:
    print "No match!"

Veamos un ejemplo

In [77]:
def regex_nombre(nombre):
    regex = "([a-zA-Z]+) (([a-zA-Z]+) )?([a-zA-Z]+)"
#    regex = "([a-zA-Z]+){2,3}?"
    match = re.match(regex, nombre)
    if match:
        print "Nombre completo: %s" % (

        print "Primer nombre: %s" % (
        print "Segundo nombre: %s" % (
        print "Tercer nombre: %s" % (
        print "No match :("
regex_nombre("Miguel Alfaro")
#regex_nombre("Miguel 1523")
Nombre completo: Miguel Alfaro
Primer nombre: Miguel
Segundo nombre: None
Tercer nombre: Alfaro

Ejercicio 7.1

Escribir una función que recibe una cadena con el mes y el dia de una fecha dada de la forma Mes dia, por ejemplo: Marzo 3. E indique cual es la fecha entera, el mes y el dia.

>>>regex_fecha("Junio 3")
Fecha: Junio 3
Mes: Junio
Dia: 3
In [72]:
import re

def regex_fecha(fecha):
    regex = "([A-Z][a-z]+) ([0-3][0-1])"
    match =, fecha)
    if match:
        print "Fecha: %s" % (

        print "Mes: %s" % (

        print "Dia: %s" % (
        print "No match :("
regex_fecha("Junio 3")
Fecha: Junio 3
Mes: Junio
Dia: 3

Ejercicio 7.2

Escribir una función que reciba un mail y diga si es válido o no

In [80]:
import re

def regex_mail(mail):
    regex = "(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"
    match =, mail)
    return match is not None


Ejercicio 7.3

Escribir una función que reciba una lista de saldos de cuentas y devuelva otra lista con aquellos que son negativos usando regex

In [91]:
def regex_saldos(saldos):
    regex = "-"
    saldos_negativos = []
#    for saldo in saldos:
#        match =, saldo)
#        if match:
#            saldos_negativos.append(saldo)
    filtro_saldos = lambda saldo: re.match(regex, saldo)
    return filter(filtro_saldos, saldos)
#    return saldos_negativos

['-123', '-42']

Ejercicio 7.4

Escribir una funcion que reciba una lista de DNI y devuelva True si todos son DNI's validos.

  • Los DNI tienen 8 dígitos
In [109]:
def regex_dni(dnis):
    regex = r"\d{8}"
    for dni in dnis:
        match = re.match(regex, dni)
        if not match:
            return False
    return True

print regex_dni(["37569522", "17594345", "12543645"])
print regex_dni(["37569522", "175", "12543645"])


Soporte para DOM y SAX

  • Seis librerías:
    • xml.etree.ElementTree
    • xml.dom
    • xml.dom.minidom
    • xml.dom.pulldom
    • xml.sax
    • xml.parsers.expat


  • ElementTree: una interfaz simple y optimizada.
  • DOM - Minidom: una API que sigue la implementación de W3C
  • SAX: API que sigue la implementación SAX de Java
In [95]:
import xml.etree.ElementTree as ET

a = ET.Element('a')
b = ET.SubElement(a, 'Soy un hijo de a')
c = ET.SubElement(a, 'c')
d = ET.SubElement(c, 'Y yo soy hijo de c')
tree = ET.ElementTree(a)
print a.attrib
<a name="A"><Soy un hijo de a /><c><Y yo soy hijo de c /></c></a>
{'name': 'A'}

Ejercicio 7.5

Implementar un script que transforme el archivo materias.txt en xml.

El archivo materias.txt tiene el formato:

6201 - FISICA I A - 60

El formato esperado debe ser:

        <departamento codigo="62">
            <materia codigo="01" nombre="Física I" cupos="60"/> .....
            <materia codigo="cc" nombre="nombre" cupos="xx"/>

Nota: En caso de ser necesario ver help.

In [106]:
import os
import re
import xml.etree.ElementTree

class Materia(object):
    def __init__(self, nombre, codigo, cupos):
        self.nombre = nombre
        self.codigo = codigo
        self.cupos = cupos

    def __str__(self):
        return self.nombre + "\t" + self.codigo + "\t" + str(self.cupos)

def exportar_materias_por_departamento():
    # Cambia el directorio de trabajo.
    pattern = r"^(?P<depto>\d{2})(?P<codigo>\d{2}) - (?P<nombre>[\w\s]+) - (?P<cupos>\d+)$"
    regex = re.compile(pattern)
    path = os.path.join(os.getcwd(), "..", "Archivos de prueba")

    # Itera por departamento.
    materias_por_depto = {}
    with open("materias.txt") as materias:
        for materia in materias:
            match = regex.match(materia)
            if match is None:
            depto ="depto")
            codigo ="codigo")
            cupos ="cupos")
            nombre ="nombre")
            materias_por_depto[depto] = materias_por_depto.get(depto, []) + [ Materia(nombre, codigo, int(cupos)) ]
    root = xml.etree.ElementTree.Element("root")
    tree = xml.etree.ElementTree.ElementTree(root)	
    for depto in materias_por_depto:
        xml_depto = xml.etree.ElementTree.SubElement(root, "departamento")
        xml_depto.set("codigo", depto)
        for materia in materias_por_depto[depto]:
            xml_materia = xml.etree.ElementTree.SubElement(xml_depto, "materia")
            xml_materia.set("codigo", materia.codigo)
            xml_materia.set("nombre", materia.nombre)
            xml_materia.set("cupos", str(materia.cupos))


Ejercicio 7.6

Implementar un programa que levante parametros.txt, reciba por parámetro el nombre del atributo a cambiar y guarde el nuevo archivo de configuración como xml.