Criptografía clásica (II)

 

 

Por darthje

Datos Estadísticos

Datos estadísticos son tan sólo los datos obtenidos de un recuento o de un estudio. En nuestro caso son los datos obtenidos del estudio de las letras y palabras del castellano, concretamente de su frecuencia de aparición. El conocimiento de estos datos nos será de utilidad, entre otras cosas, para el estudio y análisis de textos cifrados...

 

Frecuencias de aparición de las letras en castellano

Para obtener las frecuencias reales para las letras del alfabeto lo ideal sería contabilizar la ocurrencia de cada letra en cada expresión posible es Castellano, pero esto es imposible. Se ha estudiado una muestra de texto plano suficientemente grande (más de 5 Mb) como para obtener unas frecuencias que no deben diferir en mucho de las reales.

A continuación se muestra una gráfica con los resultados obtenidos:

 

 

Para mayor facilidad de consulta se han ordenado las letras alfabéticamente y por frecuencias:

a) Ordenadas alfabéticamente

A continuación se muestra una tabla con las frecuencias de las letras que han dado lugar a la tabla anterior ordenadas por orden alfabético.

a	0.088
b	0.010
c	0.034
d	0.040
e	0.094
f	0.006
g	0.010
h	0.005
i	0.051
j	0.003
k	0.000
l	0.041
m	0.020
n	0.051
ñ	0.001
o	0.062
p	0.020
q	0.006
r	0.048
s	0.055
t	0.033
u	0.027
v	0.007
w	0.000
x	0.002
y	0.007
z	0.003
espacio	0.164    

 

b) Ordenadas por frecuencias

A continuación se muestra una tabla con las frecuencias de las letras que han dado lugar a la tabla anterior ordenadas por frecuencia de aparición

espacio	0.164
e	0.094
a	0.088
o	0.062
s	0.055
i	0.051
n	0.051
r	0.048
l	0.041
d	0.040
c	0.034
t	0.033
u	0.027
m	0.020
p	0.020
b	0.010
g	0.010
v	0.007
y	0.007
f	0.006
q	0.006
h	0.005
j	0.003
z	0.003
x	0.002
ñ	0.001
k	0.000
w	0.000

 

Palabras más frecuentes

A partir del estudio de un gran fichero de texto se ha llegado a la conclusión de que las palabras más usadas del Castellano son las siguientes:

palabra frecuencia de 0.0659 la 0.0351 a 0.0319 el 0.0270 en 0.0259 y 0.0258 que 0.0238 los 0.0157 del 0.0133 se 0.0111 las 0.0103 por 0.0098 con 0.0075 un 0.0073 su 0.0064 una 0.0063 no 0.0058 para 0.0057 al 0.0055 es 0.0053 lo 0.0042 pero 0.0017 ya 0.0012 hasta 0.0011
Anterior | Siguiente

 

Comentarios

Selecciona arriba tu forma preferida de visualizar los comentarios y pulsa el botón para guardar tu elección para próximas visitas (sólo si eres usuario registrado).
admin's picture

La figura


En el artículo haces referencia a una figura que no aparece.

¿Podrías enviármela por correo para subirla?

Gracias por todo.

darthje's picture

enviada


Es cierto, el mismo día te mande un correo con la imagen y pidiendote disculpas pues el problema es que le di al botón "enviar" en vez de "previsualizar"... Bueno, procuraré estar mas atento.

Por favor, si aún no te ha llegado avisame para que la vuelva a mandar.

Muchas gracias.

¡Disfruta de la tecnología!
http://darthnet.blogspot.com/

admin's picture

Vaya


Pues no, sigue sin llegarme

darthje's picture

Ahí lo llevas de nuevo


Te he vuelto a renviar el correo desde distintas cuentas... A ver si ahora hay suerte.

En caso de que no te llegue puedes obtenerla de la siguiente URL:

http://3.bp.blogspot.com/_ziuVRHDyCN0/TCCLv3-F6qI/AAAAAAAAAII/Ju5VFLme7s...

Saludos,
darthje

¡Disfruta de la tecnología!
http://darthnet.blogspot.com/

admin's picture

Ahora sí


Muchas gracias por la imagen... y por la serie de artículos

Agustín's picture

Muy interesante


Muy interesante la frecuencia de las palabras ¿puedes citar la fuente? También sería interesante conocer la frecuencia de dígrafos, que a lo mejor pude deducirse de la de las palabras, no sé.

---

madtyn's picture

El muestreo


¿Sobre que texto se hizo el muestreo?

Teniendo en cuenta que cada persona escribe de forma distinta, usando distintas palabras, etc, lo interesante es que se cogieran textos amplios de varios autores aleatorios.

Alvaro de la escalera's picture

Aquí tenéis las frecuencias ....


http://en.wikipedia.org/wiki/Letter_frequency#Relative_frequencies_of_le...

Son algo distintas que las tuyas, por ejemplo, en la a hay una discrepancia de un 4%

Saludos

darthje's picture

Sobre las frecuencias...


Se tomaron como muestra distintos textos en castellano de distintos autores para "construir" las tablas anteriores... Es cierto que puede variar si lo comparamos con otros pero creo que es interesante tenerlo como referencia.

¡Disfruta de la tecnología!
http://darthnet.blogspot.com/

Deimos's picture

digrafos y trigrafos


Yo usaba una herramienta que ya tiene sus años, pero que yo encontraba útil no solo para descifrar textos con encriptado monoalfabetico, también permite generar a partir de un texto, tablas de dígrafos y trígrafos, es gratuito y puede encontrarse aquí:

http://www.secretcodebreaker.com/scbsolvr.html